教程

自定义文档:使用BM25的智能搜索

导入您的制造商手册、数据表和技术文档。T-IA Connect对所有内容进行索引,让您在几秒内找到正确信息——由与Google和Elasticsearch相同的算法提供支持。

T
T-IA Connect团队
阅读约10分钟
2026年3月25日更新

停止翻阅500页的PDF文档

在配置SEW驱动器、西门子变频器或集成第三方设备时,您经常需要在数百页文档中找到一个特定参数。传统方法——打开PDF、Ctrl+F、滚动——既慢又不可靠。

T-IA Connect提供一个专用文件夹,您可以将技术文档放入其中。软件使用BM25(Best Matching 25)自动对其进行索引,这是Google等搜索引擎和Elasticsearch等工具使用的同款全文排名算法。然后您可以在所有文档中搜索,并在几毫秒内获得排名结果。

前提条件

  • 已启用自定义文档的T-IA Connect PRO许可证
  • PDF、DOCX、TXT、HTML或Markdown格式的技术文档
  • TIA Portal中的开放项目(可选,用于AI辅助查询)

步骤1:索引的工作原理

将文档放入自定义文档文件夹后,T-IA Connect通过完整的索引管道处理它:

Architecture

// Pipeline

1. 文档解析——从PDF/DOCX/TXT/HTML/MD提取文本

2. 分块——拆分为重叠片段(每块约500个令牌)

3. 分词——词语拆分、停用词删除、词干提取

4. BM25索引——每个块被评分并存储,以便即时检索

// Supported: PDF, DOCX, TXT, HTML, Markdown

步骤2:BM25——搜索引擎如何对结果进行排名

BM25(Best Matching 25)是自1990年代以来搜索引擎使用的排名函数。与简单的「包含」搜索不同,它根据统计分析计算每个文本块的相关性分数。

该算法考虑三个关键因素:

TF — Term Frequency

一个词在某块中出现越频繁,该块就越相关——但收益递减。10次出现并不比1次好10倍。

IDF — Inverse Doc Frequency

在整个语料库中罕见的词得分更高。"HAS"比"the"或"and"更有价值。

文档长度

短块中的匹配得分高于长块中的相同匹配。这可以防止长文档主导结果。

BM25 Parameters

k1 = 1.2 // 词频饱和度(越高=频率权重越大)

b = 0.75 // 长度归一化权重(0=忽略长度,1=完全归一化)

步骤3:超越BM25——额外智能

在BM25核心之上,T-IA Connect添加了几项增强功能以提高搜索质量:

🛑

停用词过滤

英语、法语和德语中约150个常用词("the"、"le"、"de"、"und"...)会自动被忽略,使搜索专注于有意义的术语。

🔤

基础词干提取

词语变体被匹配在一起。搜索"alimentation"也会匹配"alimenté"和"alimenter",在不损失精度的情况下提高召回率。

📍

邻近度提升

当搜索词在文本中紧密出现时,相关性分数翻倍(×2)。这奖励精确的短语匹配和相邻概念。

步骤4:真实示例

假设您已对SEW MOVITRAC LTP-B变频器的文档(350页)进行了索引。您搜索:

搜索示例

// User query:

"MOVITRAC LTP-B最大输出频率参数"

// BM25 result:

第8.3章——参数P100:最大输出频率 [得分:12.4]

第5.1章——频率范围和电机设置 [得分:8.7]

第12章——参数参考表 [得分:6.2]

AI驱动:用自然语言提问

与AI副驾驶结合使用时,BM25搜索变得更加强大。您无需搜索关键词,而是可以提问如"MOVITRAC LTP-B的最大电缆长度是多少?"——AI通过BM25检索最相关的块,读取它们,并给您提供带源参考的精确答案。这被称为RAG(检索增强生成)。

您的文档,即时可搜索

停止在PDF中滚动浪费时间。导入您的文档,让BM25对其进行索引,并在几秒内找到任何信息——无论是通过关键词搜索还是AI辅助的自然语言查询。