(LLM系列)RAG(检索增强生成)原理与实践

2026-02-11
AI RAG 向量检索 Embedding LLM

Last updated on 2026-02-11

RAG(检索增强生成)原理与实践

引言

在大语言模型（LLM）蓬勃发展的今天，如何让AI更准确地回答特定领域的问题成为了一个关键挑战。RAG（Retrieval-Augmented Generation，检索增强生成）技术应运而生，它通过结合外部知识库和生成模型，显著提升了AI回答的准确性和时效性。

本文将深入探讨RAG的核心原理，重点解析向量检索和上下文注入两大关键技术，并提供实践指导。

一、RAG是什么？

1.1 核心思想

RAG的核心思想非常直观：在生成答案之前，先从知识库中检索相关信息，然后将这些信息作为上下文提供给大语言模型，让模型基于这些”参考资料”来生成更准确的回答。

这就像是让AI在开卷考试而不是闭卷考试——它可以查阅资料后再作答。

1.2 为什么需要RAG？

传统LLM面临几个关键问题：

知识时效性：模型的知识截止于训练时间，无法获取最新信息
幻觉问题：模型可能生成看似合理但实际错误的内容
专业领域知识不足：通用模型对特定领域的深度知识有限
成本问题：频繁微调大模型成本高昂

RAG通过外部知识检索优雅地解决了这些问题，无需重新训练模型。

二、向量检索：RAG的核心引擎

2.1 什么是向量检索？

向量检索是RAG系统的第一步，也是最关键的一步。它的任务是从海量文档中快速找出与用户问题最相关的内容。

文本向量化

文本向量化（Embedding）是将文本转换为高维向量的过程：

1
"什么是机器学习？" → [0.12, -0.34, 0.56, ..., 0.89]  # 维度通常为384-1536

向量的特点：

语义相似的文本，向量距离更近
向量可以进行数学运算（相似度计算）
降维后可视化（理解语义空间）

常用的Embedding模型

OpenAI text-embedding-3-small/large：性能强大，支持多语言
sentence-transformers：开源方案，适合中文
BGE系列：国内优秀的开源模型
m3e：专门针对中文优化

2.2 向量检索的工作流程

1
用户问题 → Embedding模型 → 查询向量 → 向量数据库 → Top-K 相似文档

步骤详解：

文档预处理：
- 文档切片（Chunking）：将长文档分割成适当大小的片段（通常300-1000 tokens）
- 向量化：使用Embedding模型将每个片段转换为向量
- 存储：将向量及元数据存入向量数据库
查询处理：
- 用户问题同样经过Embedding模型转换为查询向量
- 在向量数据库中进行相似度搜索
- 返回Top-K个最相关的文档片段

2.3 相似度计算方法

余弦相似度（最常用）

1
import numpy as np
2

3
def cosine_similarity(vec1, vec2):
4
    """计算两个向量的余弦相似度"""
5
    dot_product = np.dot(vec1, vec2)
6
    norm_product = np.linalg.norm(vec1) * np.linalg.norm(vec2)
7
    return dot_product / norm_product
8

9
# 示例
10
query_vec = np.array([0.5, 0.3, 0.8])
11
doc_vec = np.array([0.6, 0.2, 0.9])
12
similarity = cosine_similarity(query_vec, doc_vec)
13
print(f"相似度: {similarity:.3f}")  # 输出：0.989

优点：不受向量长度影响，只关注方向

欧氏距离

1
def euclidean_distance(vec1, vec2):
2
    """计算欧氏距离（距离越小越相似）"""
3
    return np.linalg.norm(vec1 - vec2)

点积

1
def dot_product_similarity(vec1, vec2):
2
    """点积相似度"""
3
    return np.dot(vec1, vec2)

2.4 向量数据库选择

数据库	特点	适用场景
Pinecone	云服务，易用性强	快速原型开发
Milvus	开源，性能强大	大规模生产环境
Weaviate	支持多模态	复杂查询需求
Chroma	轻量级，易部署	小型项目、本地开发
FAISS	Facebook开源，速度快	研究和实验

2.5 优化向量检索的技巧

技巧1：混合检索（Hybrid Search）

结合关键词检索和向量检索：

1
# 伪代码示例
2
def hybrid_search(query, alpha=0.5):
3
    # 向量检索得分
4
    vector_results = vector_search(query)
5

6
    # 关键词检索得分（BM25）
7
    keyword_results = bm25_search(query)
8

9
    # 加权融合
10
    final_scores = alpha * vector_results + (1-alpha) * keyword_results
11
    return top_k(final_scores)

技巧2：重排序（Reranking）

使用更强大的模型对初步检索结果重新排序：

1
def rerank(query, initial_results):
2
    """使用交叉编码器重排序"""
3
    cross_encoder = CrossEncoder('cross-encoder/ms-marco-MiniLM-L-6-v2')
4

5
    pairs = [(query, doc) for doc in initial_results]
6
    scores = cross_encoder.predict(pairs)
7

8
    # 按新得分重新排序
9
    return sort_by_scores(initial_results, scores)

技巧3：查询扩展

扩展用户查询以提高召回率：

1
def query_expansion(query):
2
    """生成查询的多个变体"""
3
    expanded_queries = [
4
        query,
5
        f"关于{query}的详细解释",
6
        f"{query}是什么意思",
7
        f"如何理解{query}"
8
    ]
9
    return expanded_queries

三、上下文注入：让LLM”看见”外部知识

3.1 上下文注入的原理

上下文注入是将检索到的文档作为提示（Prompt）的一部分，提供给LLM。这个过程就像给AI提供”参考资料”。

基本结构

1
系统指令 + 检索到的上下文 + 用户问题 → LLM → 生成答案

3.2 Prompt工程最佳实践

模板示例1：基础RAG Prompt

1
def create_rag_prompt(query, context_docs):
2
    prompt = f"""你是一个专业的AI助手。请基于以下参考资料回答用户的问题。
3

4
参考资料：
5
{format_context(context_docs)}
6

7
重要提示：
8
1. 只基于上述参考资料回答问题
9
2. 如果参考资料中没有相关信息，请明确说明
10
3. 引用参考资料时请注明来源
11

12
用户问题：{query}
13

14
请提供准确、详细的回答："""
15

16
    return prompt
17

18
def format_context(docs):
19
    """格式化上下文文档"""
20
    formatted = []
21
    for i, doc in enumerate(docs, 1):
22
        formatted.append(f"[文档{i}]\n{doc['content']}\n来源：{doc['source']}\n")
23
    return "\n".join(formatted)

模板示例2：带引用的高级Prompt

1
def create_advanced_rag_prompt(query, context_docs):
2
    prompt = f"""# 角色
3
你是一个严谨的知识问答助手。
4

5
# 任务
6
基于提供的参考资料回答用户问题，并标注信息来源。
7

8
# 参考资料
9
{format_numbered_context(context_docs)}
10

11
# 回答要求
12
1. **准确性**：确保答案完全基于参考资料
13
2. **引用标注**：使用[1][2]标注信息来源
14
3. **完整性**：综合所有相关资料给出全面回答
15
4. **诚实性**：如果资料不足，明确说明局限性
16

17
# 用户问题
18
{query}
19

20
# 你的回答
21
"""
22
    return prompt
23

24
def format_numbered_context(docs):
25
    """带编号的上下文格式化"""
26
    formatted = []
27
    for i, doc in enumerate(docs, 1):
28
        formatted.append(f"[{i}] {doc['content']}\n(来源: {doc['source']})\n")
29
    return "\n".join(formatted)

3.3 上下文窗口管理

问题：上下文过长

当检索到的文档过多或过长时，可能超出LLM的上下文窗口限制。

解决方案

方案1：智能截断

1
def truncate_context(docs, max_tokens=2000):
2
    """智能截断上下文"""
3
    truncated = []
4
    current_tokens = 0
5

6
    for doc in docs:
7
        doc_tokens = count_tokens(doc['content'])
8
        if current_tokens + doc_tokens <= max_tokens:
9
            truncated.append(doc)
10
            current_tokens += doc_tokens
11
        else:
12
            # 截断最后一个文档
13
            remaining = max_tokens - current_tokens
14
            doc['content'] = truncate_to_tokens(doc['content'], remaining)
15
            truncated.append(doc)
16
            break
17

18
    return truncated

方案2：分层检索

1
def hierarchical_retrieval(query, k1=10, k2=3):
2
    """两阶段检索：先召回，再精选"""
3
    # 第一阶段：快速召回更多文档
4
    candidates = vector_search(query, top_k=k1)
5

6
    # 第二阶段：使用更强模型精选最相关的
7
    final_docs = rerank(query, candidates, top_k=k2)
8

9
    return final_docs

方案3：文档摘要

1
async def summarize_docs(docs, llm):
2
    """对长文档进行摘要"""
3
    summaries = []
4
    for doc in docs:
5
        if len(doc['content']) > 1000:
6
            summary = await llm.summarize(doc['content'])
7
            doc['content'] = summary
8
        summaries.append(doc)
9
    return summaries

3.4 上下文质量优化

技巧1：去重

1
def deduplicate_docs(docs, similarity_threshold=0.9):
2
    """移除相似度过高的重复文档"""
3
    unique_docs = []
4
    for doc in docs:
5
        is_duplicate = False
6
        for existing in unique_docs:
7
            if cosine_similarity(doc['embedding'], existing['embedding']) > similarity_threshold:
8
                is_duplicate = True
9
                break
10
        if not is_duplicate:
11
            unique_docs.append(doc)
12
    return unique_docs

技巧2：相关性过滤

1
def filter_by_relevance(docs, min_score=0.7):
2
    """过滤掉相关性低的文档"""
3
    return [doc for doc in docs if doc['score'] >= min_score]

技巧3：多样性采样

1
def diversify_results(docs, top_k=5):
2
    """确保结果的多样性"""
3
    selected = [docs[0]]  # 选择最相关的
4

5
    for doc in docs[1:]:
6
        if len(selected) >= top_k:
7
            break
8

9
        # 计算与已选文档的最大相似度
10
        max_sim = max([cosine_similarity(doc['embedding'], s['embedding'])
11
                       for s in selected])
12

13
        # 如果不太相似，则添加
14
        if max_sim < 0.85:
15
            selected.append(doc)
16

17
    return selected

四、完整RAG系统实现

4.1 系统架构

1
┌─────────────┐
2
│  用户查询   │
3
└──────┬──────┘
4
       │
5
       ▼
6
┌─────────────────┐
7
│  查询处理模块   │ ← 查询改写、扩展
8
└──────┬──────────┘
9
       │
10
       ▼
11
┌─────────────────┐
12
│  向量检索引擎   │ ← 向量数据库
13
└──────┬──────────┘
14
       │
15
       ▼
16
┌─────────────────┐
17
│  重排序模块     │ ← 提高精确度
18
└──────┬──────────┘
19
       │
20
       ▼
21
┌─────────────────┐
22
│  上下文构建     │ ← Prompt工程
23
└──────┬──────────┘
24
       │
25
       ▼
26
┌─────────────────┐
27
│  LLM生成        │ ← 生成答案
28
└──────┬──────────┘
29
       │
30
       ▼
31
┌─────────────────┐
32
│  后处理与验证   │ ← 事实检查
33
└──────┬──────────┘
34
       │
35
       ▼
36
┌─────────────────┐
37
│  返回结果       │
38
└─────────────────┘

4.2 Python实现示例

1
from langchain.embeddings import OpenAIEmbeddings
2
from langchain.vectorstores import Chroma
3
from langchain.text_splitter import RecursiveCharacterTextSplitter
4
from langchain.llms import OpenAI
5
from langchain.chains import RetrievalQA
6

7
class RAGSystem:
8
    def __init__(self, documents):
9
        """初始化RAG系统"""
10
        # 1. 文档处理
11
        self.text_splitter = RecursiveCharacterTextSplitter(
12
            chunk_size=500,
13
            chunk_overlap=50,
14
            separators=["\n\n", "\n", "。", "！", "？", ".", "!", "?"]
15
        )
16

17
        # 2. Embedding模型
18
        self.embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
19

20
        # 3. 向量数据库
21
        self.vectorstore = self._build_vectorstore(documents)
22

23
        # 4. LLM
24
        self.llm = OpenAI(temperature=0)
25

26
        # 5. 检索器
27
        self.retriever = self.vectorstore.as_retriever(
28
            search_type="mmr",  # 最大边际相关性
29
            search_kwargs={
30
                "k": 4,
31
                "fetch_k": 20,
32
                "lambda_mult": 0.5
33
            }
34
        )
35

36
    def _build_vectorstore(self, documents):
37
        """构建向量存储"""
38
        # 切分文档
39
        chunks = self.text_splitter.split_documents(documents)
40

41
        # 创建向量数据库
42
        vectorstore = Chroma.from_documents(
43
            documents=chunks,
44
            embedding=self.embeddings,
45
            persist_directory="./chroma_db"
46
        )
47

48
        return vectorstore
49

50
    def query(self, question):
51
        """执行RAG查询"""
52
        # 创建问答链
53
        qa_chain = RetrievalQA.from_chain_type(
54
            llm=self.llm,
55
            chain_type="stuff",
56
            retriever=self.retriever,
57
            return_source_documents=True,
58
            chain_type_kwargs={
59
                "prompt": self._create_prompt()
60
            }
61
        )
62

63
        # 执行查询
64
        result = qa_chain({"query": question})
65

66
        return {
67
            "answer": result["result"],
68
            "sources": result["source_documents"]
69
        }
70

71
    def _create_prompt(self):
72
        """创建Prompt模板"""
73
        from langchain.prompts import PromptTemplate
74

75
        template = """基于以下参考资料回答问题。如果资料中没有答案，请说"我不知道"。
76

77
参考资料：
78
{context}
79

80
问题：{question}
81

82
详细回答："""
83

84
        return PromptTemplate(
85
            template=template,
86
            input_variables=["context", "question"]
87
        )
88

89
# 使用示例
90
from langchain.document_loaders import TextLoader
91

92
# 加载文档
93
loader = TextLoader("knowledge_base.txt")
94
documents = loader.load()
95

96
# 创建RAG系统
97
rag = RAGSystem(documents)
98

99
# 查询
100
result = rag.query("什么是机器学习？")
101
print(f"回答：{result['answer']}")
102
print(f"参考文档数量：{len(result['sources'])}")

4.3 高级优化：多查询RAG

1
class AdvancedRAG:
2
    def multi_query_retrieval(self, question):
3
        """生成多个查询角度"""
4
        # 使用LLM生成问题的不同表述
5
        variations = self.llm.generate_variations(question, num=3)
6

7
        all_docs = []
8
        for variation in variations:
9
            docs = self.retriever.get_relevant_documents(variation)
10
            all_docs.extend(docs)
11

12
        # 去重和排序
13
        unique_docs = self.deduplicate(all_docs)
14
        ranked_docs = self.rerank(question, unique_docs)
15

16
        return ranked_docs[:5]
17

18
    def self_query_with_metadata(self, question):
19
        """基于元数据的自查询"""
20
        # 从问题中提取过滤条件
21
        metadata_filter = self.extract_metadata_filter(question)
22

23
        # 在向量搜索中应用过滤
24
        docs = self.vectorstore.similarity_search(
25
            question,
26
            filter=metadata_filter,
27
            k=5
28
        )
29

30
        return docs

五、实践案例与应用场景

5.1 企业知识库问答

场景：企业内部有大量文档（产品手册、政策文档、FAQ等）

实现要点：

文档分类和元数据管理
权限控制
定期更新向量库

1
# 示例：企业知识库RAG
2
class EnterpriseRAG:
3
    def __init__(self):
4
        self.vectorstore = Chroma(
5
            collection_name="company_docs",
6
            embedding_function=embeddings
7
        )
8

9
    def add_document(self, doc, metadata):
10
        """添加文档并包含元数据"""
11
        chunks = self.split_document(doc)
12

13
        for chunk in chunks:
14
            self.vectorstore.add_texts(
15
                texts=[chunk],
16
                metadatas=[{
17
                    "department": metadata["department"],
18
                    "doc_type": metadata["doc_type"],
19
                    "last_updated": metadata["date"],
20
                    "access_level": metadata["access_level"]
21
                }]
22
            )
23

24
    def query_with_access_control(self, question, user_level):
25
        """带权限控制的查询"""
26
        results = self.vectorstore.similarity_search(
27
            question,
28
            filter={"access_level": {"$lte": user_level}},
29
            k=5
30
        )
31
        return results

5.2 客服智能问答

场景：自动回答客户常见问题

实现要点：

快速响应时间
多轮对话上下文管理
答案质量监控

5.3 学术研究助手

场景：帮助研究人员查找和总结文献

实现要点：

支持PDF解析
引用管理
多模态检索（文本+图表）

六、评估与优化

6.1 评估指标

检索质量指标

1
def calculate_retrieval_metrics(retrieved_docs, relevant_docs):
2
    """计算检索指标"""
3
    retrieved_ids = set([doc['id'] for doc in retrieved_docs])
4
    relevant_ids = set([doc['id'] for doc in relevant_docs])
5

6
    # 召回率 (Recall)
7
    recall = len(retrieved_ids & relevant_ids) / len(relevant_ids)
8

9
    # 精确率 (Precision)
10
    precision = len(retrieved_ids & relevant_ids) / len(retrieved_ids)
11

12
    # F1分数
13
    f1 = 2 * (precision * recall) / (precision + recall)
14

15
    # MRR (Mean Reciprocal Rank)
16
    for i, doc in enumerate(retrieved_docs, 1):
17
        if doc['id'] in relevant_ids:
18
            mrr = 1 / i
19
            break
20

21
    return {
22
        "recall": recall,
23
        "precision": precision,
24
        "f1": f1,
25
        "mrr": mrr
26
    }

生成质量指标

答案准确性：与标准答案的相似度
幻觉率：生成内容中不基于参考资料的比例
完整性：是否完整回答了问题
引用准确性：引用是否正确

6.2 常见问题与解决方案

问题	原因	解决方案
检索不到相关文档	Embedding模型不合适	更换或微调Embedding模型
答案包含幻觉	上下文不足或Prompt不当	优化Prompt，增加”仅基于资料回答”约束
响应速度慢	检索或生成耗时长	使用更快的向量数据库，减少检索文档数
答案质量不稳定	检索结果质量波动	增加重排序步骤，提高检索精确度

6.3 持续优化策略

A/B测试：对比不同检索策略和Prompt的效果
用户反馈循环：收集用户评价，优化系统
定期评估：建立测试集，定期评估系统性能
模型更新：跟踪最新的Embedding和LLM模型

七、未来趋势与展望

7.1 多模态RAG

支持图像、音频等多种模态的检索和生成。

7.2 自适应RAG

根据问题类型自动选择最佳检索策略。

7.3 知识图谱增强

结合结构化知识图谱提升推理能力。

7.4 实时RAG

支持流式检索和增量生成，提升用户体验。

总结

RAG技术通过向量检索和上下文注入两大核心机制，成功地将外部知识与大语言模型结合，显著提升了AI系统的准确性和实用性。

关键要点回顾

向量检索是基础：选择合适的Embedding模型和向量数据库至关重要
上下文注入是关键：精心设计的Prompt能大幅提升答案质量
优化是持续的：通过混合检索、重排序、元数据过滤等技术不断改进
评估要全面：关注检索和生成两个阶段的指标

实践建议

从简单开始：先实现基础RAG，再逐步优化
重视数据质量：高质量的文档是RAG成功的前提
持续迭代：基于用户反馈和评估结果不断改进
选择合适的工具栈：根据实际需求选择Embedding模型、向量数据库和LLM

RAG技术正在快速发展，掌握其原理与实践，将帮助你构建更智能、更可靠的AI应用。