Перестаньте листать PDF на 500 страниц
При настройке привода SEW, частотного преобразователя Siemens или интеграции стороннего устройства часто нужно найти один конкретный параметр, спрятанный в сотнях страниц документации. Традиционный подход — открыть PDF, Ctrl+F, прокрутить — медленный и ненадёжный.
T-IA Connect предоставляет специальную папку, куда вы можете помещать технические документы. Программа автоматически индексирует их с помощью BM25 (Best Matching 25) — того же алгоритма полнотекстового ранжирования, что используется поисковыми системами как Google и инструментами вроде Elasticsearch. Затем вы можете искать по всем документам и получать ранжированные результаты за миллисекунды.
Предварительные требования
- Лицензия T-IA Connect PRO с включёнными пользовательскими документами
- Технические документы в формате PDF, DOCX, TXT, HTML или Markdown
- Открытый проект в TIA Portal (необязательно, для запросов с помощью ИИ)
Шаг 1: Как работает индексирование
Когда вы помещаете документ в папку пользовательской документации, T-IA Connect обрабатывает его через полный конвейер индексирования:
// Pipeline
1. Разбор документа — извлечение текста из PDF/DOCX/TXT/HTML/MD
2. Чанкинг — разбивка на перекрывающиеся сегменты (~500 токенов каждый)
3. Токенизация — разделение слов, удаление стоп-слов, стемминг
4. Индекс BM25 — каждый фрагмент оценивается и сохраняется для мгновенного извлечения
// Supported: PDF, DOCX, TXT, HTML, Markdown
Шаг 2: BM25 — Как поисковая система ранжирует результаты
BM25 (Best Matching 25) — это функция ранжирования, используемая поисковыми системами с 1990-х годов. В отличие от простого поиска "содержит", она вычисляет оценку релевантности для каждого фрагмента текста на основе статистического анализа.
Алгоритм учитывает три ключевых фактора:
TF — Term Frequency
Слово, которое чаще встречается в фрагменте, делает его более релевантным — но с убывающей отдачей. 10 вхождений не в 10 раз лучше, чем 1.
IDF — Inverse Doc Frequency
Редкие слова в корпусе получают более высокие оценки. «HAS» стоит больше, чем «the» или «and».
Длина документа
Совпадение в коротком фрагменте оценивается выше, чем то же совпадение в длинном. Это предотвращает доминирование длинных документов в результатах.
k1 = 1.2 // Насыщение частоты терминов (выше = больший вес частоте)
b = 0.75 // Вес нормализации длины (0 = игнорировать длину, 1 = полная нормализация)
Шаг 3: За пределами BM25 — Дополнительный интеллект
Поверх ядра BM25 T-IA Connect добавляет несколько улучшений для повышения качества поиска:
Фильтрация стоп-слов
~150 распространённых слов на английском, французском и немецком ("the", "le", "de", "und"...) автоматически игнорируются, чтобы поиск фокусировался на значимых терминах.
Базовый стемминг
Варианты слов сопоставляются вместе. Поиск «питание» также найдёт «питаемый» и «питать», увеличивая охват без потери точности.
Бонус близости
Когда поисковые термины появляются близко друг к другу в тексте, оценка релевантности удваивается (×2). Это вознаграждает точные совпадения фраз и смежные понятия.
Шаг 4: Практический пример
Представьте, что вы проиндексировали документацию частотного преобразователя SEW MOVITRAC LTP-B (350 страниц). Вы ищете:
// User query:
"MOVITRAC LTP-B параметр максимальной выходной частоты"
// BM25 result:
✓ Глава 8.3 — Параметр P100: Макс. выходная частота [оценка: 12.4]
✓ Глава 5.1 — Диапазон частот и настройки двигателя [оценка: 8.7]
✓ Глава 12 — Справочная таблица параметров [оценка: 6.2]
С поддержкой ИИ: задавайте вопросы на естественном языке
В сочетании с ИИ-Копилотом поиск BM25 становится ещё мощнее. Вместо поиска ключевых слов вы можете задавать вопросы вроде «Какова максимальная длина кабеля для MOVITRAC LTP-B?» — ИИ извлекает наиболее релевантные фрагменты через BM25, читает их и даёт точный ответ со ссылкой на источник. Это называется RAG (Retrieval-Augmented Generation).