停止翻阅500页的PDF文档
在配置SEW驱动器、西门子变频器或集成第三方设备时,您经常需要在数百页文档中找到一个特定参数。传统方法——打开PDF、Ctrl+F、滚动——既慢又不可靠。
T-IA Connect提供一个专用文件夹,您可以将技术文档放入其中。软件使用BM25(Best Matching 25)自动对其进行索引,这是Google等搜索引擎和Elasticsearch等工具使用的同款全文排名算法。然后您可以在所有文档中搜索,并在几毫秒内获得排名结果。
前提条件
- 已启用自定义文档的T-IA Connect PRO许可证
- PDF、DOCX、TXT、HTML或Markdown格式的技术文档
- TIA Portal中的开放项目(可选,用于AI辅助查询)
步骤1:索引的工作原理
将文档放入自定义文档文件夹后,T-IA Connect通过完整的索引管道处理它:
// Pipeline
1. 文档解析——从PDF/DOCX/TXT/HTML/MD提取文本
2. 分块——拆分为重叠片段(每块约500个令牌)
3. 分词——词语拆分、停用词删除、词干提取
4. BM25索引——每个块被评分并存储,以便即时检索
// Supported: PDF, DOCX, TXT, HTML, Markdown
步骤2:BM25——搜索引擎如何对结果进行排名
BM25(Best Matching 25)是自1990年代以来搜索引擎使用的排名函数。与简单的「包含」搜索不同,它根据统计分析计算每个文本块的相关性分数。
该算法考虑三个关键因素:
TF — Term Frequency
一个词在某块中出现越频繁,该块就越相关——但收益递减。10次出现并不比1次好10倍。
IDF — Inverse Doc Frequency
在整个语料库中罕见的词得分更高。"HAS"比"the"或"and"更有价值。
文档长度
短块中的匹配得分高于长块中的相同匹配。这可以防止长文档主导结果。
k1 = 1.2 // 词频饱和度(越高=频率权重越大)
b = 0.75 // 长度归一化权重(0=忽略长度,1=完全归一化)
步骤3:超越BM25——额外智能
在BM25核心之上,T-IA Connect添加了几项增强功能以提高搜索质量:
停用词过滤
英语、法语和德语中约150个常用词("the"、"le"、"de"、"und"...)会自动被忽略,使搜索专注于有意义的术语。
基础词干提取
词语变体被匹配在一起。搜索"alimentation"也会匹配"alimenté"和"alimenter",在不损失精度的情况下提高召回率。
邻近度提升
当搜索词在文本中紧密出现时,相关性分数翻倍(×2)。这奖励精确的短语匹配和相邻概念。
步骤4:真实示例
假设您已对SEW MOVITRAC LTP-B变频器的文档(350页)进行了索引。您搜索:
// User query:
"MOVITRAC LTP-B最大输出频率参数"
// BM25 result:
✓ 第8.3章——参数P100:最大输出频率 [得分:12.4]
✓ 第5.1章——频率范围和电机设置 [得分:8.7]
✓ 第12章——参数参考表 [得分:6.2]
AI驱动:用自然语言提问
与AI副驾驶结合使用时,BM25搜索变得更加强大。您无需搜索关键词,而是可以提问如"MOVITRAC LTP-B的最大电缆长度是多少?"——AI通过BM25检索最相关的块,读取它们,并给您提供带源参考的精确答案。这被称为RAG(检索增强生成)。