Enahced retrievals (#60)

pavanjava · pavanmantha · web-flow · commit aff1b24ed422 · 2024-10-20T19:28:55.000+05:30
* -tested and upgraded version

* -implemented ragas evals

* -implemented ragas evals

* -implemented rag with llama_parse

---------

Co-authored-by: pavanmantha &lt;pavan.mantha@thevaslabs.io&gt;
diff --git a/bootstraprag/templates/llamaindex/rag_with_llama_parse/.env b/bootstraprag/templates/llamaindex/rag_with_llama_parse/.env
@@ -0,0 +1,26 @@
+llama_cloud=llx-<your_key>
+
+DB_URL='http://localhost:6333'
+DB_API_KEY='th3s3cr3tk3y'
+COLLECTION_NAME='LLAMA_PARSE_COLLECTION'
+
+OPENAI_API_KEY=''
+OPENAI_EMBED_MODEL=''
+
+# use this incase you are prefering to experiment with local models.
+OLLAMA_BASE_URL='http://localhost:11434'
+OLLAMA_LLM_MODEL='llama3.2:latest'
+OLLAMA_EMBED_MODEL='nomic-embed-text:latest'
+
+# logger can be controlled usiing env
+CRITICAL = 50
+FATAL = 50
+ERROR = 40
+WARNING = 30
+WARN = 30
+INFO = 20
+DEBUG = 10
+NOTSET = 0
+
+LIT_SERVER_PORT=8000
+LIT_SERVER_WORKERS_PER_DEVICE=4
diff --git a/bootstraprag/templates/llamaindex/rag_with_llama_parse/__init__.py b/bootstraprag/templates/llamaindex/rag_with_llama_parse/__init__.py
diff --git a/bootstraprag/templates/llamaindex/rag_with_llama_parse/data/sample.pdf b/bootstraprag/templates/llamaindex/rag_with_llama_parse/data/sample.pdf
diff --git a/bootstraprag/templates/llamaindex/rag_with_llama_parse/hyde_rag.py b/bootstraprag/templates/llamaindex/rag_with_llama_parse/hyde_rag.py
@@ -0,0 +1,145 @@
+import os
+
+from llama_index.core import (
+    SimpleDirectoryReader,
+    VectorStoreIndex,
+    StorageContext,
+    Settings,
+    get_response_synthesizer)
+from llama_index.core.query_engine import RetrieverQueryEngine, TransformQueryEngine
+from llama_index.core.node_parser import SentenceSplitter
+from llama_index.core.schema import TextNode, MetadataMode
+from llama_index.vector_stores.qdrant import QdrantVectorStore
+from llama_index.embeddings.ollama import OllamaEmbedding
+# enable if you are using openai
+# from llama_index.embeddings.openai import OpenAIEmbedding
+from llama_index.llms.ollama import Ollama
+# enable if you are using openai
+# from llama_index.llms.openai import OpenAI
+from llama_index.core.retrievers import VectorIndexRetriever
+from llama_index.core.indices.query.query_transform import HyDEQueryTransform
+from llama_index.core.base.response.schema import Response, StreamingResponse, AsyncStreamingResponse, PydanticResponse
+from llama_parse import LlamaParse
+import qdrant_client
+import logging
+from dotenv import load_dotenv, find_dotenv
+from typing import Union
+
+_ = load_dotenv(find_dotenv())
+
+logging.basicConfig(level=int(os.environ['INFO']))
+logger = logging.getLogger(__name__)
+
+
+class RAGWithHyDeEngine:
+    RESPONSE_TYPE = Union[
+        Response, StreamingResponse, AsyncStreamingResponse, PydanticResponse
+    ]
+
+    def __init__(self, data_path: str, chunk_size: int = 512, chunk_overlap: int = 200,
+                 similarity_top_k: int = 3):
+        # load the local data directory and chunk the data for further processing
+        self.docs = self._docs_with_llama_parse(data_path=data_path)
+        self.text_parser = SentenceSplitter(chunk_size=chunk_size, chunk_overlap=chunk_overlap)
+
+        # Create a local Qdrant vector store
+        logger.info("initializing the vector store related objects")
+        self.client = qdrant_client.QdrantClient(url=os.environ['DB_URL'], api_key=os.environ['DB_API_KEY'])
+        self.vector_store = QdrantVectorStore(client=self.client, collection_name=os.environ['COLLECTION_NAME'])
+
+        # use your prefered vector embeddings model
+        logger.info("initializing the OllamaEmbedding")
+        embed_model = OllamaEmbedding(model_name=os.environ['OLLAMA_EMBED_MODEL'],
+                                      base_url=os.environ['OLLAMA_BASE_URL'])
+        # openai embeddings, embedding_model_name="text-embedding-3-large"
+        # embed_model = OpenAIEmbedding(embed_batch_size=10, model=embedding_model_name)
+
+        # use your prefered llm
+        llm = Ollama(model=os.environ['OLLAMA_LLM_MODEL'], base_url=os.environ['OLLAMA_BASE_URL'], request_timeout=600)
+        # llm = OpenAI(model="gpt-4o")
+
+        logger.info("initializing the global settings")
+        Settings.embed_model = embed_model
+        Settings.llm = llm
+        Settings.transformations = [self.text_parser]
+
+        self.text_chunks = []
+        self.doc_ids = []
+        self.nodes = []
+
+        self.similarity_top_k = similarity_top_k
+        self.hyde_query_engine: TransformQueryEngine = None
+
+        # preprocess the data like chunking, nodes, metadata etc
+        self._pre_process()
+
+    def _docs_with_llama_parse(self, data_path: str, ):
+        # set up parser
+        parser = LlamaParse(
+            result_type="markdown",  # "markdown" and "text" are available
+            api_key=os.environ.get('llama_cloud')
+        )
+
+        # use SimpleDirectoryReader to parse our file
+        file_extractor = {"pdf": parser}
+        documents = SimpleDirectoryReader(input_dir=data_path, file_extractor=file_extractor).load_data(
+            show_progress=True)
+        return documents
+
+    def _pre_process(self):
+        logger.info("enumerating docs")
+        for doc_idx, doc in enumerate(self.docs):
+            curr_text_chunks = self.text_parser.split_text(doc.text)
+            self.text_chunks.extend(curr_text_chunks)
+            self.doc_ids.extend([doc_idx] * len(curr_text_chunks))
+
+        logger.info("enumerating text_chunks")
+        for idx, text_chunk in enumerate(self.text_chunks):
+            node = TextNode(text=text_chunk)
+            src_doc = self.docs[self.doc_ids[idx]]
+            node.metadata = src_doc.metadata
+            self.nodes.append(node)
+
+        logger.info("enumerating nodes")
+        for node in self.nodes:
+            node_embedding = Settings.embed_model.get_text_embedding(
+                node.get_content(metadata_mode=MetadataMode.ALL)
+            )
+            node.embedding = node_embedding
+
+        # create vector store, index documents and creates retriever
+        self._create_index_and_retriever()
+
+    def _create_index_and_retriever(self):
+        logger.info("initializing the storage context")
+        storage_context = StorageContext.from_defaults(vector_store=self.vector_store)
+        logger.info("indexing the nodes in VectorStoreIndex")
+        if not self.client.collection_exists(collection_name=os.environ['COLLECTION_NAME']):
+            index = VectorStoreIndex(
+                nodes=self.nodes,
+                storage_context=storage_context,
+                transformations=Settings.transformations,
+            )
+        else:
+            index = VectorStoreIndex.from_vector_store(vector_store=self.vector_store)
+
+        logger.info("initializing the VectorIndexRetriever with top_k as 5")
+        vector_retriever = VectorIndexRetriever(index=index, similarity_top_k=self.similarity_top_k)
+        response_synthesizer = get_response_synthesizer()
+        logger.info("creating the RetrieverQueryEngine instance")
+        vector_query_engine = RetrieverQueryEngine(
+            retriever=vector_retriever,
+            response_synthesizer=response_synthesizer,
+        )
+        logger.info("creating the HyDEQueryTransform instance")
+        hyde = HyDEQueryTransform(include_original=True)
+        hyde_query_engine = TransformQueryEngine(vector_query_engine, hyde)
+
+        self.hyde_query_engine = hyde_query_engine
+
+    def query(self, query_string: str) -> RESPONSE_TYPE:
+        try:
+            response = self.hyde_query_engine.query(str_or_query_bundle=query_string)
+            return response
+        except Exception as e:
+            logger.error(f'Error while inference: {e}')
diff --git a/bootstraprag/templates/llamaindex/rag_with_llama_parse/main.py b/bootstraprag/templates/llamaindex/rag_with_llama_parse/main.py
@@ -0,0 +1,26 @@
+# driver code
+from react_rag import ReActWithQueryEngine
+from hyde_rag import RAGWithHyDeEngine
+
+technique = 'react'  # 'react' or 'hyde'
+
+# Start a loop to continually get input from the user
+while True:
+    # Get a query from the user
+    user_query = input("Enter your query [type 'bye' to 'exit']: ")
+
+    # Check if the user wants to terminate the loop
+    if user_query.lower() == "bye" or user_query.lower() == "exit":
+        break
+    if technique == 'hyde':
+        # this step will do pre processing, indexing in vector store, creating retriever (hyDE).
+        # this may take some time based on your document size and chunk strategy.
+        hyde_rag = RAGWithHyDeEngine(
+            data_path='data')  # leaving all the defaults. if needed override them in constructor
+        response = hyde_rag.query(query_string=user_query)
+    else:
+        # this may take some time based on your document size and chunk strategy.
+        react_rag = ReActWithQueryEngine(input_dir='data', show_progress=True)
+        response = react_rag.query(user_query=user_query)
+
+    print(response)
diff --git a/bootstraprag/templates/llamaindex/rag_with_llama_parse/react_rag.py b/bootstraprag/templates/llamaindex/rag_with_llama_parse/react_rag.py
@@ -0,0 +1,138 @@
+from llama_index.core import (
+    SimpleDirectoryReader,
+    VectorStoreIndex,
+    StorageContext,
+    Settings
+)
+from llama_index.core.tools import QueryEngineTool, ToolMetadata
+from llama_index.embeddings.ollama import OllamaEmbedding
+from llama_index.vector_stores.qdrant import QdrantVectorStore
+from llama_index.core.agent import ReActAgent
+from llama_index.llms.ollama import Ollama
+from llama_index.core.base.response.schema import Response, StreamingResponse, AsyncStreamingResponse, PydanticResponse
+from llama_parse import LlamaParse
+from dotenv import load_dotenv, find_dotenv
+from typing import Union
+import qdrant_client
+import logging
+import os
+
+_ = load_dotenv(find_dotenv())
+
+logging.basicConfig(level=int(os.environ['INFO']))
+logger = logging.getLogger(__name__)
+
+
+class ReActWithQueryEngine:
+    RESPONSE_TYPE = Union[
+        Response, StreamingResponse, AsyncStreamingResponse, PydanticResponse
+    ]
+
+    def __init__(self, input_dir: str, similarity_top_k: int = 3, chunk_size: int = 128, chunk_overlap: int = 100,
+                 show_progress: bool = False, no_of_iterations: int = 5, required_exts: list[str] = ['.pdf', '.txt']):
+        self.index_loaded = False
+        self.similarity_top_k = similarity_top_k
+        self.input_dir = input_dir
+        self._index = None
+        self._engine = None
+        self.agent: ReActAgent = None
+        self.query_engine_tools = []
+        self.show_progress = show_progress
+        self.no_of_iterations = no_of_iterations
+        self.required_exts = required_exts
+
+        # use your prefered vector embeddings model
+        logger.info("initializing the OllamaEmbedding")
+        embed_model = OllamaEmbedding(model_name=os.environ['OLLAMA_EMBED_MODEL'],
+                                      base_url=os.environ['OLLAMA_BASE_URL'])
+        # openai embeddings, embedding_model_name="text-embedding-3-large"
+        # embed_model = OpenAIEmbedding(embed_batch_size=10, model=embedding_model_name)
+
+        # use your prefered llm
+        llm = Ollama(model=os.environ['OLLAMA_LLM_MODEL'], base_url=os.environ['OLLAMA_BASE_URL'], request_timeout=600)
+        # llm = OpenAI(model="gpt-4o")
+
+        logger.info("initializing the global settings")
+        Settings.embed_model = embed_model
+        Settings.llm = llm
+        Settings.chunk_size = chunk_size
+        Settings.chunk_overlap = chunk_overlap
+
+        # Create a local Qdrant vector store
+        logger.info("initializing the vector store related objects")
+        self.client: qdrant_client.QdrantClient = qdrant_client.QdrantClient(url=os.environ['DB_URL'],
+                                                                             api_key=os.environ['DB_API_KEY'])
+        self.vector_store = QdrantVectorStore(client=self.client, collection_name=os.environ['COLLECTION_NAME'])
+        self._load_data_and_create_engine()
+
+    def _docs_with_llama_parse(self, data_path: str, ):
+        # set up parser
+        parser = LlamaParse(
+            result_type="markdown",  # "markdown" and "text" are available
+            api_key=os.environ.get('llama_cloud')
+        )
+
+        # use SimpleDirectoryReader to parse our file
+        file_extractor = {"pdf": parser}
+        documents = SimpleDirectoryReader(input_dir=data_path, file_extractor=file_extractor).load_data(
+            show_progress=True)
+        return documents
+
+    def _load_data_and_create_engine(self):
+        if self.client.collection_exists(collection_name=os.environ['COLLECTION_NAME']):
+            try:
+                self._index = VectorStoreIndex.from_vector_store(vector_store=self.vector_store)
+                self.index_loaded = True
+            except Exception as e:
+                self.index_loaded = False
+
+        if not self.index_loaded:
+            # load data
+            _docs = self._docs_with_llama_parse(data_path=self.input_dir)
+
+            # build and persist index
+            storage_context = StorageContext.from_defaults(vector_store=self.vector_store)
+            logger.info("indexing the docs in VectorStoreIndex")
+            self._index = VectorStoreIndex.from_documents(documents=_docs, storage_context=storage_context,
+                                                          show_progress=self.show_progress)
+
+        self._engine = self._index.as_query_engine(similarity_top_k=self.similarity_top_k)
+        self._create_query_engine_tools()
+
+    def _create_query_engine_tools(self):
+        # can have more than one as per the requirement
+        self.query_engine_tools.append(
+            QueryEngineTool(
+                query_engine=self._engine,
+                metadata=ToolMetadata(
+                    name="test_tool_engine",  # change this accordingly
+                    description=(
+                        "Provides information about user query based on the information that you have. "
+                        "Use a detailed plain text question as input to the tool."
+                    ),
+                ),
+            )
+        )
+        self._create_react_agent()
+
+    def _create_react_agent(self):
+        # [Optional] Add Context
+        # context = """\
+        # You are a stock market sorcerer who is an expert on the companies Lyft and Uber.\
+        #     You will answer questions about Uber and Lyft as in the persona of a sorcerer \
+        #     and veteran stock market investor.
+        # """
+        self.agent = ReActAgent.from_tools(
+            self.query_engine_tools,
+            llm=Settings.llm,
+            verbose=True,
+            # context=context
+            max_iterations=self.no_of_iterations
+        )
+
+    def query(self, user_query: str) -> RESPONSE_TYPE:
+        try:
+            response = self.agent.query(str_or_query_bundle=user_query)
+            return response
+        except Exception as e:
+            logger.error(f'Error while generating response: {e}')
diff --git a/bootstraprag/templates/llamaindex/rag_with_llama_parse/requirements.txt b/bootstraprag/templates/llamaindex/rag_with_llama_parse/requirements.txt
@@ -0,0 +1,4 @@
+llama-index==0.11.19
+llama-parse==0.5.10
+llama-index-readers-file==0.2.2
+python-dotenv==1.0.1