initial code

amitavroy · amitavroy · commit 0d9663455b5b · 2024-08-26T20:59:14.000+05:30
diff --git a/.gitignore b/.gitignore
@@ -0,0 +1,3 @@
+.venv/*
+__pycache__
+db/*
diff --git a/app.py b/app.py
@@ -0,0 +1,26 @@
+from flask import Flask, request
+import scrape
+import chat
+
+app = Flask(__name__)
+
+@app.route("/scrape", methods=["POST"])
+def scrapeUrl():
+    json_content = request.json
+    url = json_content.get("url")
+    
+    messages = scrape.fetch_and_persist_article(url)
+    
+    return {"url": url, "messages": messages}
+
+@app.route("/ask_bot", methods=["POST"])
+def askBot():
+    json_content = request.json
+    question = json_content.get("question")
+    
+    response = chat.answer_question_with_context(question)
+    
+    return response
+
+if __name__ == "__main__":
+    app.run(host="0.0.0.0", port=8080, debug=True)
diff --git a/chat.py b/chat.py
@@ -0,0 +1,45 @@
+from langchain_ollama import OllamaEmbeddings, ChatOllama
+from langchain_chroma import Chroma
+from langchain_core.prompts import ChatPromptTemplate
+from langchain_core.runnables import RunnablePassthrough
+from langchain_core.output_parsers import StrOutputParser
+
+def format_docs(docs):
+    return "\n\n".join(doc.page_content for doc in docs)
+
+def answer_question_with_context(question):
+    messages = []
+    persist_directory = "db"
+    local_embeddings = OllamaEmbeddings(model="llama3.1:8b")
+    
+    vectorstore = Chroma(persist_directory=persist_directory, embedding_function=local_embeddings)
+    
+    docs = vectorstore.similarity_search(question)
+    if not docs:
+        messages.append("No relevant information was found")
+        return
+    
+    # Define the RAG prompt template
+    RAG_TEMPLATE = """
+    You are an assistant for question-answering tasks. Use the following pieces of retrieved context to answer the question. If you don't know the answer, just say that you don't know. Answer in about 3 lines and keep the answer concise.
+
+    <context>
+    {context}
+    </context>
+
+    Answer the following question:
+
+    {question}"""
+    
+    rag_prompt = ChatPromptTemplate.from_template(RAG_TEMPLATE)
+    model = ChatOllama(model="llama3.1:8b")
+    
+    chain = (
+        RunnablePassthrough.assign(context=lambda input: format_docs(input["context"]))
+        | rag_prompt
+        | model
+        | StrOutputParser()
+    )
+    
+    response = chain.invoke({"context": docs, "question": question})
+    return {"response": response, "messages": messages}
diff --git a/scrape.py b/scrape.py
@@ -0,0 +1,31 @@
+from langchain_community.document_loaders import WebBaseLoader
+from langchain_text_splitters import RecursiveCharacterTextSplitter
+from langchain_ollama import OllamaEmbeddings
+from langchain_chroma import Chroma
+import os
+
+def fetch_and_persist_article(url):
+    messages = []
+    local_embeddings = OllamaEmbeddings(model="llama3.1:8b")
+    persist_directory = "db"
+    
+    if os.path.exists(persist_directory):
+        vectorstore = Chroma(persist_directory=persist_directory, embedding_function=local_embeddings)
+        messages.append(f"Loaded the existing Chroma DB")
+    else:
+        vectorstore = Chroma(persist_directory=persist_directory, embedding_function=local_embeddings)
+        messages.append(f"Created the Chroma DB")
+    
+    loader = WebBaseLoader(url)
+    data = loader.load()
+    messages.append(f"URL Loaded")
+    
+    text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=0)
+    all_splits = text_splitter.split_documents(data)
+    
+    vectorstore.add_documents(documents=all_splits)
+    messages.append(f"Added to Chroma DB")
+    
+    return messages
+    
+