feat: RAG - Introduce configuration to corpus types, with DocumentCorpus and MemoryCorpus options.

vertex-sdk-bot · copybara-github · commit ede4b5b71819 · 2025-06-03T22:34:33.000-07:00
PiperOrigin-RevId: 766977388
diff --git a/tests/unit/vertex_rag/test_rag_constants_preview.py b/tests/unit/vertex_rag/test_rag_constants_preview.py
@@ -42,6 +42,7 @@
 from vertexai.preview.rag import (
     ANN,
     Basic,
+    DocumentCorpus,
     EmbeddingModelConfig,
     Enterprise,
     Filter,
@@ -52,8 +53,10 @@
     LayoutParserConfig,
     LlmParserConfig,
     LlmRanker,
+    MemoryCorpus,
     Pinecone,
     RagCorpus,
+    RagCorpusTypeConfig,
     RagEmbeddingModelConfig,
     RagEngineConfig,
     RagFile,
@@ -226,6 +229,7 @@
         )
     ),
 )
+
 TEST_EMBEDDING_MODEL_CONFIG = EmbeddingModelConfig(
     publisher_model="publishers/google/models/textembedding-gecko",
 )
@@ -816,12 +820,69 @@
     max_parsing_requests_per_min=100,
 )
 
+TEST_GAPIC_LLM_PARSER = RagFileParsingConfig.LlmParser(
+    model_name="gemini-1.5-pro-002",
+    max_parsing_requests_per_min=500,
+    global_max_parsing_requests_per_min=1000,
+    custom_parsing_prompt="test-custom-parsing-prompt",
+)
+
 TEST_LLM_PARSER_CONFIG = LlmParserConfig(
     model_name="gemini-1.5-pro-002",
     max_parsing_requests_per_min=500,
+    global_max_parsing_requests_per_min=1000,
     custom_parsing_prompt="test-custom-parsing-prompt",
 )
 
+TEST_RAG_MEMORY_CORPUS_CONFIG = MemoryCorpus(
+    llm_parser=TEST_LLM_PARSER_CONFIG,
+)
+
+TEST_RAG_MEMORY_CORPUS = RagCorpus(
+    name=TEST_RAG_CORPUS_RESOURCE_NAME,
+    display_name=TEST_CORPUS_DISPLAY_NAME,
+    description=TEST_CORPUS_DISCRIPTION,
+    corpus_type_config=RagCorpusTypeConfig(
+        corpus_type_config=TEST_RAG_MEMORY_CORPUS_CONFIG
+    ),
+)
+
+TEST_GAPIC_RAG_MEMORY_CORPUS = GapicRagCorpus(
+    name=TEST_RAG_CORPUS_RESOURCE_NAME,
+    display_name=TEST_CORPUS_DISPLAY_NAME,
+    description=TEST_CORPUS_DISCRIPTION,
+    corpus_type_config=GapicRagCorpus.CorpusTypeConfig(
+        memory_corpus=GapicRagCorpus.CorpusTypeConfig.MemoryCorpus(
+            llm_parser=RagFileParsingConfig.LlmParser(
+                model_name="gemini-1.5-pro-002",
+                max_parsing_requests_per_min=500,
+                global_max_parsing_requests_per_min=1000,
+                custom_parsing_prompt="test-custom-parsing-prompt",
+            )
+        )
+    ),
+)
+
+TEST_RAG_DOCUMENT_CORPUS_CONFIG = DocumentCorpus()
+
+TEST_RAG_DOCUMENT_CORPUS = RagCorpus(
+    name=TEST_RAG_CORPUS_RESOURCE_NAME,
+    display_name=TEST_CORPUS_DISPLAY_NAME,
+    description=TEST_CORPUS_DISCRIPTION,
+    corpus_type_config=RagCorpusTypeConfig(
+        corpus_type_config=TEST_RAG_DOCUMENT_CORPUS_CONFIG
+    ),
+)
+
+TEST_GAPIC_RAG_DOCUMENT_CORPUS = GapicRagCorpus(
+    name=TEST_RAG_CORPUS_RESOURCE_NAME,
+    display_name=TEST_CORPUS_DISPLAY_NAME,
+    description=TEST_CORPUS_DISCRIPTION,
+    corpus_type_config=GapicRagCorpus.CorpusTypeConfig(
+        document_corpus=GapicRagCorpus.CorpusTypeConfig.DocumentCorpus()
+    ),
+)
+
 TEST_IMPORT_FILES_CONFIG_SHARE_POINT_SOURCE_NO_FOLDERS = ImportRagFilesConfig(
     rag_file_transformation_config=TEST_RAG_FILE_TRANSFORMATION_CONFIG,
     share_point_sources=GapicSharePointSources(
@@ -885,6 +946,7 @@
     llm_parser=RagFileParsingConfig.LlmParser(
         model_name="gemini-1.5-pro-002",
         max_parsing_requests_per_min=500,
+        global_max_parsing_requests_per_min=1000,
         custom_parsing_prompt="test-custom-parsing-prompt",
     )
 )
diff --git a/tests/unit/vertex_rag/test_rag_data_preview.py b/tests/unit/vertex_rag/test_rag_data_preview.py
@@ -313,6 +313,36 @@ def create_rag_corpus_mock_vertex_ai_datastore_search_config():
         yield create_rag_corpus_mock_vertex_ai_datastore_search_config
 
 
+@pytest.fixture
+def create_rag_corpus_mock_memory_corpus():
+    with mock.patch.object(
+        VertexRagDataServiceClient,
+        "create_rag_corpus",
+    ) as create_rag_corpus_mock_memory_corpus:
+        create_rag_corpus_lro_mock = mock.Mock(ga_operation.Operation)
+        create_rag_corpus_lro_mock.done.return_value = True
+        create_rag_corpus_lro_mock.result.return_value = (
+            test_rag_constants_preview.TEST_GAPIC_RAG_MEMORY_CORPUS
+        )
+        create_rag_corpus_mock_memory_corpus.return_value = create_rag_corpus_lro_mock
+        yield create_rag_corpus_mock_memory_corpus
+
+
+@pytest.fixture
+def create_rag_corpus_mock_document_corpus():
+    with mock.patch.object(
+        VertexRagDataServiceClient,
+        "create_rag_corpus",
+    ) as create_rag_corpus_mock_document_corpus:
+        create_rag_corpus_lro_mock = mock.Mock(ga_operation.Operation)
+        create_rag_corpus_lro_mock.done.return_value = True
+        create_rag_corpus_lro_mock.result.return_value = (
+            test_rag_constants_preview.TEST_GAPIC_RAG_DOCUMENT_CORPUS
+        )
+        create_rag_corpus_mock_document_corpus.return_value = create_rag_corpus_lro_mock
+        yield create_rag_corpus_mock_document_corpus
+
+
 @pytest.fixture
 def update_rag_corpus_mock_vertex_ai_engine_search_config():
     with mock.patch.object(
@@ -591,6 +621,7 @@ def rag_corpus_eq(returned_corpus, expected_corpus):
     assert returned_corpus.vertex_ai_search_config.__eq__(
         expected_corpus.vertex_ai_search_config
     )
+    assert returned_corpus.corpus_type_config.__eq__(expected_corpus.corpus_type_config)
 
 
 def rag_file_eq(returned_file, expected_file):
@@ -918,6 +949,28 @@ def test_create_corpus_failure(self):
             )
         e.match("Failed in RagCorpus creation due to")
 
+    @pytest.mark.usefixtures("create_rag_corpus_mock_memory_corpus")
+    def test_create_memory_corpus_success(self):
+        rag_corpus = rag.create_corpus(
+            display_name=test_rag_constants_preview.TEST_CORPUS_DISPLAY_NAME,
+            corpus_type_config=rag.RagCorpusTypeConfig(
+                corpus_type_config=test_rag_constants_preview.TEST_RAG_MEMORY_CORPUS_CONFIG
+            ),
+        )
+
+        rag_corpus_eq(rag_corpus, test_rag_constants_preview.TEST_RAG_MEMORY_CORPUS)
+
+    @pytest.mark.usefixtures("create_rag_corpus_mock_document_corpus")
+    def test_create_document_corpus_success(self):
+        rag_corpus = rag.create_corpus(
+            display_name=test_rag_constants_preview.TEST_CORPUS_DISPLAY_NAME,
+            corpus_type_config=rag.RagCorpusTypeConfig(
+                corpus_type_config=test_rag_constants_preview.TEST_RAG_DOCUMENT_CORPUS_CONFIG
+            ),
+        )
+
+        rag_corpus_eq(rag_corpus, test_rag_constants_preview.TEST_RAG_DOCUMENT_CORPUS)
+
     @pytest.mark.usefixtures("update_rag_corpus_mock_weaviate")
     def test_update_corpus_weaviate_success(self):
         rag_corpus = rag.update_corpus(
diff --git a/vertexai/preview/rag/__init__.py b/vertexai/preview/rag/__init__.py
@@ -39,6 +39,7 @@
     ANN,
     ChunkingConfig,
     Basic,
+    DocumentCorpus,
     Enterprise,
     EmbeddingModelConfig,
     Filter,
@@ -49,8 +50,10 @@
     LayoutParserConfig,
     LlmParserConfig,
     LlmRanker,
+    MemoryCorpus,
     Pinecone,
     RagCorpus,
+    RagCorpusTypeConfig,
     RagEmbeddingModelConfig,
     RagEngineConfig,
     RagFile,
@@ -77,6 +80,7 @@
     "ANN",
     "Basic",
     "ChunkingConfig",
+    "DocumentCorpus",
     "Enterprise",
     "EmbeddingModelConfig",
     "Filter",
@@ -87,14 +91,18 @@
     "LayoutParserConfig",
     "LlmParserConfig",
     "LlmRanker",
+    "MemoryCorpus",
     "Pinecone",
     "RagEngineConfig",
     "RagCorpus",
+    "RagCorpusTypeConfig",
+    "RagEmbeddingModelConfig",
     "RagFile",
     "RagManagedDb",
     "RagManagedDbConfig",
     "RagResource",
     "RagRetrievalConfig",
+    "RagVectorDbConfig",
     "Ranking",
     "RankService",
     "Retrieval",
@@ -105,12 +113,10 @@
     "TransformationConfig",
     "VertexAiSearchConfig",
     "VertexFeatureStore",
+    "VertexPredictionEndpoint",
     "VertexRagStore",
     "VertexVectorSearch",
     "Weaviate",
-    "RagEmbeddingModelConfig",
-    "VertexPredictionEndpoint",
-    "RagVectorDbConfig",
     "create_corpus",
     "delete_corpus",
     "delete_file",
diff --git a/vertexai/preview/rag/rag_data.py b/vertexai/preview/rag/rag_data.py
@@ -52,6 +52,7 @@
     LlmParserConfig,
     Pinecone,
     RagCorpus,
+    RagCorpusTypeConfig,
     RagEngineConfig,
     RagFile,
     RagManagedDb,
@@ -69,6 +70,7 @@
 def create_corpus(
     display_name: Optional[str] = None,
     description: Optional[str] = None,
+    corpus_type_config: Optional[RagCorpusTypeConfig] = None,
     embedding_model_config: Optional[EmbeddingModelConfig] = None,
     vector_db: Optional[
         Union[Weaviate, VertexFeatureStore, VertexVectorSearch, Pinecone, RagManagedDb]
@@ -96,6 +98,7 @@ def create_corpus(
             the RagCorpus. The name can be up to 128 characters long and can consist
             of any UTF-8 characters.
         description: The description of the RagCorpus.
+        corpus_type_config: The corpus type config of the RagCorpus.
         embedding_model_config: The embedding model config.
             Note: Deprecated. Use backend_config instead.
         vector_db: The vector db config of the RagCorpus. If unspecified, the
@@ -119,6 +122,13 @@ def create_corpus(
     parent = initializer.global_config.common_location_path(project=None, location=None)
 
     rag_corpus = GapicRagCorpus(display_name=display_name, description=description)
+
+    if corpus_type_config:
+        _gapic_utils.set_corpus_type_config(
+            corpus_type_config=corpus_type_config,
+            rag_corpus=rag_corpus,
+        )
+
     if embedding_model_config:
         _gapic_utils.set_embedding_model_config(
             embedding_model_config=embedding_model_config,
diff --git a/vertexai/preview/rag/utils/_gapic_utils.py b/vertexai/preview/rag/utils/_gapic_utils.py
@@ -44,13 +44,16 @@
 from google.cloud.aiplatform_v1beta1.types import EncryptionSpec
 from vertexai.preview.rag.utils.resources import (
     ANN,
+    DocumentCorpus,
     EmbeddingModelConfig,
     JiraSource,
     KNN,
     LayoutParserConfig,
     LlmParserConfig,
+    MemoryCorpus,
     Pinecone,
     RagCorpus,
+    RagCorpusTypeConfig,
     RagEmbeddingModelConfig,
     RagEngineConfig,
     RagFile,
@@ -312,12 +315,35 @@ def convert_gapic_to_backend_config(
     return vector_config
 
 
+def convert_gapic_to_rag_corpus_type_config(
+    gapic_rag_corpus_type_config: GapicRagCorpus.CorpusTypeConfig,
+) -> RagCorpusTypeConfig:
+    """Convert GapicRagCorpus.CorpusTypeConfig to RagCorpusTypeConfig."""
+    if gapic_rag_corpus_type_config.document_corpus:
+        return RagCorpusTypeConfig(corpus_type_config=DocumentCorpus())
+    elif gapic_rag_corpus_type_config.memory_corpus:
+        return RagCorpusTypeConfig(
+            corpus_type_config=MemoryCorpus(
+                llm_parser=LlmParserConfig(
+                    model_name=gapic_rag_corpus_type_config.memory_corpus.llm_parser.model_name,
+                    max_parsing_requests_per_min=gapic_rag_corpus_type_config.memory_corpus.llm_parser.max_parsing_requests_per_min,
+                    global_max_parsing_requests_per_min=gapic_rag_corpus_type_config.memory_corpus.llm_parser.global_max_parsing_requests_per_min,
+                    custom_parsing_prompt=gapic_rag_corpus_type_config.memory_corpus.llm_parser.custom_parsing_prompt,
+                )
+            )
+        )
+    return None
+
+
 def convert_gapic_to_rag_corpus(gapic_rag_corpus: GapicRagCorpus) -> RagCorpus:
     """Convert GapicRagCorpus to RagCorpus."""
     rag_corpus = RagCorpus(
         name=gapic_rag_corpus.name,
         display_name=gapic_rag_corpus.display_name,
         description=gapic_rag_corpus.description,
+        corpus_type_config=convert_gapic_to_rag_corpus_type_config(
+            gapic_rag_corpus.corpus_type_config
+        ),
         embedding_model_config=convert_gapic_to_embedding_model_config(
             gapic_rag_corpus.rag_embedding_model_config
         ),
@@ -553,6 +579,10 @@ def prepare_import_files_request(
             rag_file_parsing_config.llm_parser.max_parsing_requests_per_min = (
                 llm_parser.max_parsing_requests_per_min
             )
+        if llm_parser.global_max_parsing_requests_per_min is not None:
+            rag_file_parsing_config.llm_parser.global_max_parsing_requests_per_min = (
+                llm_parser.global_max_parsing_requests_per_min
+            )
         if llm_parser.custom_parsing_prompt is not None:
             rag_file_parsing_config.llm_parser.custom_parsing_prompt = (
                 llm_parser.custom_parsing_prompt
@@ -671,10 +701,51 @@ def get_file_name(
         )
 
 
+def set_corpus_type_config(
+    corpus_type_config: RagCorpusTypeConfig,
+    rag_corpus: GapicRagCorpus,
+) -> None:
+    """Set corpus type config in GapicRagCorpus."""
+    if isinstance(corpus_type_config.corpus_type_config, DocumentCorpus):
+        rag_corpus.corpus_type_config = GapicRagCorpus.CorpusTypeConfig(
+            document_corpus=GapicRagCorpus.CorpusTypeConfig.DocumentCorpus()
+        )
+    elif isinstance(corpus_type_config.corpus_type_config, MemoryCorpus):
+        memory_corpus = GapicRagCorpus.CorpusTypeConfig.MemoryCorpus()
+        if corpus_type_config.corpus_type_config.llm_parser is not None:
+            memory_corpus.llm_parser = RagFileParsingConfig.LlmParser(
+                model_name=corpus_type_config.corpus_type_config.llm_parser.model_name
+            )
+            if (
+                corpus_type_config.corpus_type_config.llm_parser.max_parsing_requests_per_min
+                is not None
+            ):
+                memory_corpus.llm_parser.max_parsing_requests_per_min = (
+                    corpus_type_config.corpus_type_config.llm_parser.max_parsing_requests_per_min
+                )
+            if (
+                corpus_type_config.corpus_type_config.llm_parser.global_max_parsing_requests_per_min
+                is not None
+            ):
+                memory_corpus.llm_parser.global_max_parsing_requests_per_min = (
+                    corpus_type_config.corpus_type_config.llm_parser.global_max_parsing_requests_per_min
+                )
+            if (
+                corpus_type_config.corpus_type_config.llm_parser.custom_parsing_prompt
+                is not None
+            ):
+                memory_corpus.llm_parser.custom_parsing_prompt = (
+                    corpus_type_config.corpus_type_config.llm_parser.custom_parsing_prompt
+                )
+    else:
+        raise TypeError
+
+
 def set_embedding_model_config(
     embedding_model_config: EmbeddingModelConfig,
     rag_corpus: GapicRagCorpus,
 ) -> None:
+    """Sets the embedding model config for the rag corpus."""
     if embedding_model_config.publisher_model and embedding_model_config.endpoint:
         raise ValueError("publisher_model and endpoint cannot be set at the same time.")
     if (
diff --git a/vertexai/preview/rag/utils/resources.py b/vertexai/preview/rag/utils/resources.py