Chunk[21]

dimj6ofm.bmp

技术 用例 优点 缺点
字符分割器 文本 多功能:处理各种分隔符<br>灵活:适应不同语言<br>成本效益:不需要机器学习模型 性能:可能增加计算负担<br>复杂性:需要参数调整<br>句子中断:可能在句子中间切断 Dify
递归字符分割器 文本,代码 多功能:处理各种分隔符<br>灵活:适应不同语言<br>成本效益:不需要机器学习模型 性能:递归性质可能增加计算负担<br>复杂性:需要参数调整<br>句子中断:可能在句子中间切断 langchain
句子分割器 文本 考虑句子边界:避免过早切断句子<br>可定制:步幅和重叠的参数<br>成本效益:适用于轻量级句子分割器 缺乏多功能性:限于基于句子的块<br>重叠问题:可能导致冗余 Dify
语义分割器 文本,聊天 上下文分组:基于语义相似性组织文本<br>克服挑战:处理块大小和重叠 复杂性:需要相似性模型和调整<br>参数依赖:依赖于设置适当的参数<br>资源密集:需要计算资源 语义相似性
命题 文本,聊天 原子表达:引入新颖的检索单元(命题)<br>不同的事实:每个命题都是自包含的<br>上下文化:提供必要的上下文 复杂性:需要大型语言模型<br>参数依赖:依赖于设置适当的提示<br>资源密集:需要计算资源

Character splitter 字符分割器

Recursive Character Splitter递归字符拆分器 #1

Sentence splitter 句子分割器 #2

Character splitting poses an issue as it tends to cut sentences midway. Despite attempts to address this using chunk size and overlap, sentences can still be cut off prematurely. Let's explore a novel approach that considers sentence boundaries instead.

**字符分割会带来一个问题,因为它往往会在中途切断句子。**尽管尝试使用块大小和重叠来解决这个问题,但句子仍然可能过早地被切断。让我们探索一种考虑句子边界的新方法。

Semantic splitting 语义拆分[22] #3

LLM based chunking LLM基于分块

Propositions 命题

Multi-vector indexing 多向量索引[Langchain][13]