【腾讯云云上实验室】向量数据库+LangChain+LLM搭建智慧辅导系统实践

本文介绍: 得益于深度学习的快速发展和数据规模的不断扩大，以GPT、混元、T5等为代表的大语言模型具备了前所未有的自然语言处理和生成能力，然而，在实际应用中，大语言模型的高效存储、检索和推理成为了一个新的挑战。为解决这一问题，向量数据库作为大语言模型时代的次世代引擎应运而生。向量数据库是一种专门设计用于存储和处理向量数据的数据库系统，能够高效地索引、查询和分析高维向量。它不仅适用于存储文本、图像、音频等数据的向量表示，还能有效管理和支持大规模的语言模型，提供快速的语义搜索和相似性匹配能力。

得益于深度学习的快速发展和数据规模的不断扩大，以GPT、混元、T5等为代表的大语言模型具备了前所未有的自然语言处理和生成能力，然而，在实际应用中，大语言模型的高效存储、检索和推理成为了一个新的挑战。

为解决这一问题，向量数据库作为大语言模型时代的次世代引擎应运而生。向量数据库是一种专门设计用于存储和处理向量数据的数据库系统，能够高效地索引、查询和分析高维向量。它不仅适用于存储文本、图像、音频等数据的向量表示，还能有效管理和支持大规模的语言模型，提供快速的语义搜索和相似性匹配能力。

腾讯云向量数据库正是一款全托管的自研企业级分布式数据库服务，专用于存储、检索、分析多维向量数据。该数据库支持多种索引类型和相似度计算方法，单索引支持10亿级向量规模，可支持百万级 QPS 及毫秒级查询延迟。

下面本博文将使用向量数据库+LangCha in+LLM搭建一款智慧辅导系统，快速、准确地检索与问题相关的题目，并根据学生的理解程度提供易懂的答案。

首先进入腾讯云云数据库TencentDB的控制台：https://console.cloud.tencent.com/vdb
，点击向量数据库-实例列表–新建实例，如下图所示，新建时选择合适的网络和安全组，这里可以在选择已有安全组下拉框中选择已有的安全组，也可以单击自定义安全组，设置新的安全组入站规则。然后输入实例名称，申请向量数据库实例。

import tcvectordb
from tcvectordb.model.enum import FieldType, IndexType, MetricType, ReadConsistency
 
#create a database client object
client = tcvectordb.VectorDBClient(url='http://lb-rz3tigrs-971c*******.tencentclb.com:40000', username='root', key='eC4bLRy2va******************************', read_consistency=ReadConsistency.EVENTUAL_CONSISTENCY, timeout=30)
# create a database
db = client.create_database(database_name='db-test')
 
print(db.database_name)

其中url为刚创建好的外网地址，username为秘钥管理中的用户名称，key为秘钥管理中的API key，以上做了保密处理，使用中需要替换成自己的。点击运行或者使用python test.py之后，输出显示 db-test，则代表成功，进入DMC数据库管理页面，也可以发现数据库成功创建。

而后新建 create collect.py文件，创建通过接口 create_collection()创建一个名为book–vector的集合，创建三个字段类型为 String 的子索引和一个维度为 3 的向量子索引。

import tcvectordb
from tcvectordb.model.enum import FieldType, IndexType, MetricType, EmbeddingModel
from tcvectordb.model.index import Index, VectorIndex, FilterIndex, HNSWParams
from tcvectordb.model.enum import FieldType, IndexType, MetricType, ReadConsistency



#create a database client object
client = tcvectordb.VectorDBClient(url='http://lb-rz3tigrs-971c*******.tencentclb.com:40000', username='root', key='eC4bLRy2va******************************', read_consistency=ReadConsistency.EVENTUAL_CONSISTENCY, timeout=30)
db = client.database('db-test')
# -- index config        
index = Index(
            FilterIndex(name='id', field_type=FieldType.String, index_type=IndexType.PRIMARY_KEY),
            FilterIndex(name='author', field_type=FieldType.String, index_type=IndexType.FILTER),
            FilterIndex(name='bookName', field_type=FieldType.String, index_type=IndexType.FILTER),
            VectorIndex(name='vector', dimension=3, index_type=IndexType.HNSW,
                        metric_type=MetricType.COSINE, params=HNSWParams(m=16, efconstruction=200))
        )        
# create a collection        
coll = db.create_collection(
            name='book-vector',
            shard=1,
            replicas=0,
            description='this is a collection of test embedding',
            index=index
        )
print(vars(coll))

名称：填写 chatglm-6b。

镜像：填写 ccr.ccs.tencentyun.com/chatglm/chatglm-6b:v1.2

运行命令：分别添加 python3和 api.py。如下图所示：

复制下公网地址后，打开Postman，新建一个Post请求，url为公网地址:8000，Body为JSON格式的{"prompt": "你好", "history": []}，Headers中配置Content-Type为application/json：

# 安装 langchain
pip3 install langchain
# 安装 pdf 模块
pip3 install pdfplumber
pip3 install pypdfcd
# 安装向量数据库模块
pip3 install tcvectordb

# 知识库目录以 vdbproject 为例
# 创建 config 文件目录
mkdir -p vdbproject/config
# 创建语料存储文件目录
mkdir -p vdbproject/data

{
    "llm_config": {
        "URL": "http://11*.***.***.67:8000",
        "TOKEN": "xxxxxx"
    },
    "vdb_config": {
        "VDB_URL": "http://lb-rz3tigrs-*********.clb.ap-guangzhou.tencentclb.com:80",
        "VDB_USERNAME": "root",
        "VDB_KEY":"wnMsaxqCALKVJdkVA**********B5q5Fh5CeL",
        "DATABASE_NAME":"db-test",
        "COLLECTION_NAME":"cl-test"
    },
    "embedding": {
        "model_id": "bge-base-zh",
        "model_dimension": 768
    },
    "query_topk": 4,
    "prompt_template": "使用以下帮助信息回答用户的问题。n如果你不知道答案，就说你不知道，不要试图编造答案。只返回有用的答案，你的答案应当简洁且准确。以下是帮助信息："
}

根据以上原理，在vdbproject文件夹新建main.py文件：

from langchain.document_loaders import PyPDFLoader  # 这里以PDF格式文档为例，实际过程中如果使用其他文档格式，需要进行适配
import os, pdfplumber, tempfile
import argparse
import json
from langchain.embeddings.fake import FakeEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from langchain.vectorstores import TencentVectorDB
from langchain.vectorstores.tencentvectordb import ConnectionParams
from langchain.vectorstores.tencentvectordb import IndexParams
from langchain.llms import ChatGLM
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain
import time
import requests


# 创建一个 VectorDB 和 LLM 模型的对话
class ChatLLMbot:
    def __init__(self, config,clear_db,no_vector_store) -> None:
        self.config = config
        if no_vector_store == False:
            self.vector_db = self.connect_vectorstore(clear_db)
        self.llm = self.connect_llm()


    # 连接到 LLM 模型
    def connect_llm(self):
        print("Start connecting to LLM.")
        endpoint_url = self.config['llm_config']['URL']      
        
        # 配置 LLM 参数
        llm = ChatGLM(
            endpoint_url=endpoint_url,
            max_token=80000,
            top_p=0.9,
            model_kwargs={"sample_model_args": False}
        )

        return llm


    # 连接到 VectorDB
    def connect_vectorstore(self,clear_db):
        print("Start connecting to VectorDB.")
        VDB_URL = self.config['vdb_config']['VDB_URL']
        VDB_USERNAME = self.config['vdb_config']['VDB_USERNAME']
        VDB_KEY = self.config['vdb_config']['VDB_KEY']
        DATABSE_NAME = self.config['vdb_config']['DATABASE_NAME']
        COLLECTION_NAME = self.config['vdb_config']['COLLECTION_NAME']

        # 为 VectorDB 建立连接参数
        conn_params = ConnectionParams(
            url=VDB_URL,
            key=VDB_KEY,
            username=VDB_USERNAME,
            timeout=20
        )

        # 创建 Embedding 对象，如下示例中使用了虚拟的 Embedding，您在使用过程中需要替换为真实的 Embedding 服务参数。
        embeddings = FakeEmbeddings(size=128)
        vector_db = TencentVectorDB(
            embedding = embeddings,
            connection_params=conn_params,
            index_params = IndexParams (128),
            database_name = DATABSE_NAME,
            collection_name = COLLECTION_NAME,
            drop_old = clear_db
        )

        return vector_db


    # 读取文档   
    def load_data(self, files: list[str]):
        documents = []
        for fname in files:
            loader = PyPDFLoader(fname)
            documents += loader.load()

        # 分割文档
        text_splitter = CharacterTextSplitter(
            chunk_size=1000, chunk_overlap=100)
        documents = text_splitter.split_documents(documents)
        self.vector_db.add_documents(documents)
 
       
    # 使用 VectorDB+LLM 检索
    def query(self, query: str, use_vdb: bool = True) -> str:
        context = ''
        if use_vdb:
            answer_from_vdb = self.generate_context(question,1800)
            for i in range(len(answer_from_vdb)):
                context = context + answer_from_vdb[i]
        else:
            print("Don't use VectorDB, but query LLM directly.")
        # 返回查询结果给 LLM 模型
        answer = self.query_to_llm(context, query)  
        return answer
      
          
    # 根据提问匹配上下文
    def generate_context(self, query: str,max_context_length: int) -> str:
        print("Start querying VectorDB with query: " + query)
        # 使用向量数据库做相似性检索
        docs = self.vector_db.similarity_search(
            question, k=self.config['query_topk'])
        # 限制发给大模型的上下文文本总长度
        current_context_length = 0
        ret = []
        for doc in docs:
            if len(doc.page_content) + 
                    current_context_length > max_context_length:
                continue
            current_context_length += len(doc.page_content)
            ret.append(doc.page_content)
        return ret


    # 将 VectorDB 匹配的结果通过 prompt 发送给 LLM
    def query_to_llm(self, context: str, query: str) -> str:
        template = self.config['prompt_template']
        prompt = PromptTemplate(template=template, input_variables=["context", "question"])
        print("Start querying LLM with prompt.")
        start_time = time.time()
        llm_chain = LLMChain(prompt=prompt, llm=self.llm)
        # 使用 LLM 模型进行预测
        answer = llm_chain.predict(context=context,question=question)
        end_time = time.time()
        print(
            "Get response from LLM success. Cost Time: {:.2f}s".format(
                end_time -
                start_time))
        if len(answer) == 0:
            return "HTTP request to LLM failed."

        return answer


# 命令行参数解析
if __name__ == '__main__':
    parser = argparse.ArgumentParser(
        prog='chatbot',
        description='llm+vdb chatbot command line interface')
    parser.add_argument('-l', '--load', action='store_true',
                        help='generate embeddings and update the vector database.')
    parser.add_argument('-c', '--clear', action='store_true',
                        help='clear all data in vector store')
    parser.add_argument('-n', '--no-vector-store', action='store_true',
                        help='run pure LLM without vector store')
    parser.add_argument('--config', help='input configuration json file',default='./config/config.json')
    
    args = parser.parse_args()

    # 检查是否配置 JSON 文件并加载对应配置
    if args.config:
        if os.path.exists(args.config):
            with open(args.config) as f:
                config = json.load(f)
                #print(config)
                bot = ChatLLMbot(config,args.clear,args.no_vector_store)
                if args.load :
                    DIR_PATH = os.path.dirname(os.path.realpath(__file__))
                    files = [os.path.join(DIR_PATH, 'data', x)
                            for x in os.listdir(os.path.join(DIR_PATH, 'data'))]
                    print(f'Start loading files: {files}')
                    bot.load_data(files)
                    exit(0)


                # 开始提问
                while True:
                    print("Please enter a Question: ")
                    question = input()
                    if(args.no_vector_store):
                        answer = bot.query(question,False)
                        print('LLM answer:n ' + answer)
                    else:
                        answer = bot.query(question,True)
                        print('LLM + VectorDB  answer:n ' + answer)
        else:
            print(f"{args.config} is not existed.")
    else :
        print("The config json file must be set.")

然后在终端输入：python main.py -l加载数据，加载完后输入python main.py运行，提示“Please enter a Question: ”，然后输入问题，等待智慧辅导系统回应：

Query	Response by VectorDB + LLM	Response only by LLM	分析
称为活化石的一种动物和一种植物各是什么？	被称为活化石的动物是熊猫，被称为活化石的植物是银杏。	被称为活化石的动物和植物各是:n.植物: 鲀鱼(Eurypterus scutellatus)和大熊猫(Ailurus punctpunctatus)。鲀鱼是一种生活在淡水中的无脊椎动物，已经灭绝了约4500万年，但被认为是活化石之一;大熊猫是一种哺乳动物，已经灭绝了约400万年，但被认为是活化石之一。	未使用向量数据库辅助的回答明显存在错误，鲀鱼属于非植物。
伊洛瓦底江在哪里？	伊洛瓦底江（Irrawaddy River）位于亚洲东南部，主要流经缅甸（Myanmar）。它是缅甸最重要的河流之一，也是东南亚最长的河流之一。	伊洛瓦底江(Illyrian River)是北亚一条重要河流，发源于乌克兰东南部的伊洛瓦底省，流经乌克兰、俄罗斯、格鲁吉亚、阿塞拜疆和土耳其等国家，最终注入黑海。	未使用向量数据库辅助的回答明显存在错误，存在胡编乱造之嫌。
国际象棋有多少颗棋子	国际象棋共有32颗棋子	国际象棋共有192颗棋子	未使用向量数据库辅助的回答明显存在错误。
电池的发明人是谁？	电池的发明人是意大利科学家亚历山大·伏特（Alessandro Volta）。他于1800年发明了第一种化学电池，称为伏特电池（Voltaic Pile），这被认为是现代电池的雏形。	电池的发明人是意大利科学家奥尔莫·阿莫尼奥（Alessandro Volta）。在1780年代末期，他发明了第一个真正意义上的电池，他使用铜和锌两种金属、以及盐水和纸片作为电解质，发明了“伏打电池”（Voltaic cell）。这个发明使得电能可以被存储下来，使得人们能够更好地研究电学现象以及应用电能进行实际生产。奥尔莫·阿莫尼奥的伏打电池被认为是现代电池的起源，影响了电学、化学、物理学等学科的发展。他的贡献使他被誉为现代电气学的奠基人之一。而基于伏打电池的技术在今天的移动通讯、计算机、电子产品等领域得到广泛应用。	未使用向量数据库辅助的回答明显在胡编乱造，经查阅没有奥尔莫·阿莫尼奥这个电池科学家，且回答过于啰嗦