Руководство: Поиск в пользовательской документации с индексированием BM25

Перестаньте листать PDF на 500 страниц

При настройке привода SEW, частотного преобразователя Siemens или интеграции стороннего устройства часто нужно найти один конкретный параметр, спрятанный в сотнях страниц документации. Традиционный подход - открыть PDF, Ctrl+F, прокрутить - медленный и ненадёжный.

T-IA Connect предоставляет специальную папку, куда вы можете помещать технические документы. Программа автоматически индексирует их с помощью BM25 (Best Matching 25) - того же алгоритма полнотекстового ранжирования, что используется поисковыми системами как Google и инструментами вроде Elasticsearch. Затем вы можете искать по всем документам и получать ранжированные результаты за миллисекунды.

Предварительные требования

Лицензия T-IA Connect PRO с включёнными пользовательскими документами
Технические документы в формате PDF, DOCX, TXT, HTML или Markdown
Открытый проект в TIA Portal (необязательно, для запросов с помощью ИИ)

Шаг 1: Как работает индексирование

Когда вы помещаете документ в папку пользовательской документации, T-IA Connect обрабатывает его через полный конвейер индексирования:

Architecture

// Pipeline

1. Разбор документа - извлечение текста из PDF/DOCX/TXT/HTML/MD

2. Чанкинг - разбивка на перекрывающиеся сегменты (~500 токенов каждый)

3. Токенизация - разделение слов, удаление стоп-слов, стемминг

4. Индекс BM25 - каждый фрагмент оценивается и сохраняется для мгновенного извлечения

// Supported: PDF, DOCX, TXT, HTML, Markdown

Шаг 2: BM25 - Как поисковая система ранжирует результаты

BM25 (Best Matching 25) - это функция ранжирования, используемая поисковыми системами с 1990-х годов. В отличие от простого поиска "содержит", она вычисляет оценку релевантности для каждого фрагмента текста на основе статистического анализа.

Алгоритм учитывает три ключевых фактора:

TF - Term Frequency

Слово, которое чаще встречается в фрагменте, делает его более релевантным - но с убывающей отдачей. 10 вхождений не в 10 раз лучше, чем 1.

IDF - Inverse Doc Frequency

Редкие слова в корпусе получают более высокие оценки. «HAS» стоит больше, чем «the» или «and».

Длина документа

Совпадение в коротком фрагменте оценивается выше, чем то же совпадение в длинном. Это предотвращает доминирование длинных документов в результатах.

BM25 Parameters

k1 = 1.2 // Насыщение частоты терминов (выше = больший вес частоте)

b = 0.75 // Вес нормализации длины (0 = игнорировать длину, 1 = полная нормализация)

Шаг 3: За пределами BM25 - Дополнительный интеллект

Поверх ядра BM25 T-IA Connect добавляет несколько улучшений для повышения качества поиска:

🛑

Фильтрация стоп-слов

~150 распространённых слов на английском, французском и немецком ("the", "le", "de", "und"...) автоматически игнорируются, чтобы поиск фокусировался на значимых терминах.

🔤

Базовый стемминг

Варианты слов сопоставляются вместе. Поиск «питание» также найдёт «питаемый» и «питать», увеличивая охват без потери точности.

📍

Бонус близости

Когда поисковые термины появляются близко друг к другу в тексте, оценка релевантности удваивается (×2). Это вознаграждает точные совпадения фраз и смежные понятия.

Шаг 4: Практический пример

Представьте, что вы проиндексировали документацию частотного преобразователя SEW MOVITRAC LTP-B (350 страниц). Вы ищете:

Пример поиска

// User query:

"MOVITRAC LTP-B параметр максимальной выходной частоты"

// BM25 result:

✓ Глава 8.3 - Параметр P100: Макс. выходная частота [оценка: 12.4]

✓ Глава 5.1 - Диапазон частот и настройки двигателя [оценка: 8.7]

✓ Глава 12 - Справочная таблица параметров [оценка: 6.2]

С поддержкой ИИ: задавайте вопросы на естественном языке

В сочетании с ИИ-Копилотом поиск BM25 становится ещё мощнее. Вместо поиска ключевых слов вы можете задавать вопросы вроде «Какова максимальная длина кабеля для MOVITRAC LTP-B?» - ИИ извлекает наиболее релевантные фрагменты через BM25, читает их и даёт точный ответ со ссылкой на источник. Это называется RAG (Retrieval-Augmented Generation).

Ваша документация, мгновенно доступна для поиска

Перестаньте тратить время на прокрутку PDF. Импортируйте документы, позвольте BM25 проиндексировать их и находите любую информацию за секунды - через поиск по ключевым словам или запросы на естественном языке с помощью ИИ.