优化检索之前，先解决好chunking（文本切片）策略，才能打通用户与信息之间的

爱生活爱珂珂 2025-08-06 07:29:21

优化检索之前，先解决好chunking（文本切片）策略，才能打通用户与信息之间的无形壁垒。

• Chunking是将文本拆分成更小的“块”（chunk），每个chunk作为向量化和存储的基本单位。

• 合理的chunking策略影响检索效果和RAG系统的上下文信息量。

• 没有万能适用的chunking方法，需结合具体用例灵活选择。

6大核心chunking技术：

→ 固定大小Chunking（Fixed-Size Chunking）：简单经济，忽略文本结构，适合起步尝试。支持重叠chunk提升上下文感知。weaviate.io/learn/knowledgecards/fixed-size-chunking

→ 递归Chunking（Recursive Chunking）：先按段落等主分隔符切，再递归用句子等细分，尊重文本结构，灵活适配各种场景。weaviate.io/learn/knowledgecards/recursive-chunking

→ 文档结构Chunking（Document-Based Chunking）：基于文档自然分区如标题、章节，适合HTML、Markdown等结构化文本。weaviate.io/learn/knowledgecards/documentbased-chunking

→ 语义Chunking（Semantic Chunking）：先划分成有意义单元（句子/段落），基于向量余弦距离合并，检测上下文变化生成chunk。weaviate.io/learn/knowledgecards/semantic-chunking

→ LLM驱动Chunking（LLM-Based Chunking）：利用大语言模型生成语义隔离且独立成章的句子或命题，精准度高但计算成本大。weaviate.io/learn/knowledgecards/llmbased-chunking

→ 晚期Chunking（Late Chunking）：先对全文嵌入，再基于token级向量分块，最大程度保留全文上下文，兼顾成本与效果。weaviate.io/blog/late-chunking

💡 实用建议：

• 从固定大小chunking开始，根据需求逐步探索更复杂策略。

• 技术文档推荐文档结构chunking；对话类数据语义chunking表现优异。

详细入门请见：docs.weaviate.io/academy/py/standalone/chunking/introduction

向量数据库文本切片信息检索 RAG 大语言模型

0 阅读：0

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

Anthropic 刚刚发布了最新的大型语言模型Claude Opus 4.1，

2

一张图浓缩计算机科学核心学习路线，打造扎实底层认知体系，助力职业跃升：• 编程：

3

Claude Code最佳实践汇总，助力打造高效、可控且可持续的AI辅助开发体系

4

优化检索之前，先解决好chunking（文本切片）策略，才能打通用户与信息之间的

5

Anthropic 的全新 Prompt Engineering 指南，涵盖元提

6

GPT-OSS架构创新汇总，助力理解大语言模型设计趋势：• Sliding Wi

7

OpenAI刚刚发布了两个开源权重语言模型：gpt-oss-120b和gpt-o

8

dots.ocr：3B参数级多语言OCR与文档解析SOTA模型，支持100+语言

9

早！[太阳] 早安

10

Claude Code Templates 集合提供高效 AI 代码开发起点，助

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

格力把高管送去火焰山猴哥都抹汗的地方朱总靠空调坚持了下来。😅孙悟空要是有这条

2

被董明珠说中了！内鬼作乱，国产芯片出了大问题，技术遭严重泄露，然而一查却发现，主

3

我有种预感，中国芯片行业要变天了。不是因为政策扶持，也不是技术突破，而是上海

4

罗永浩连怼网友罗永浩怎么了罗永浩连续发微博怼网友，他怎么了

5

很庆幸买了荣耀400Pro，没买华为Nova14Pro。最近换手机，在华为Nov

6

苹果公司第三财季财报太靓丽了，仅仅iPhone16的营业收入就达到了445亿美

7

红米新机Redmi15外观渲染图曝光：后置三摄采用纵向排列的矩形Deco今

8

25年公认最强拍照手机，有你在用的吗。

9

马斯克已确认，三星拿下特斯拉165亿美元的合作，将为特斯拉生产芯片[doge]我

10

以后不会再给女朋友买iPhone手机，并不是iPhone手机不好，而是她买了一大

科技最新文章

1

2025年618，iPhone16Pro卖54992026年618，iPho

2

荣耀Power2来了！10000mAh+骁龙8sGen4！荣耀倒逼充电宝彻底退市

3

黄仁勋最近有点烦，他卖给中国的AI芯片出事了英伟达被国家网信办约谈，原因是H

4

黄仁勋把算力砍掉80%的H20芯片卖给中国，没想到被中国工程师成功破解，结果发现

5

黄仁勋把算力砍掉80%的H20芯片卖给中国，没想到被中国工程师成功破解，结果发现

6

被董明珠说中了！内鬼作乱，国产芯片出了大问题，技术遭严重泄露，然而一查却发现，主

7

我有种预感，中国芯片行业要变天了。不是因为政策扶持，也不是技术突破，而是上海

8

最近荣耀Magic7Pro和一加Ace5Pro都挺热门的，这两款机型怎么选呢

9

华为杀疯了，Mate80最狠的升级曝光！华为Mate80系列要“杀疯”了！虽然

10

按照国际惯例，今年三大旗舰手机分别是iPhone17Ultra，三星S26U