Руководства

Пользовательская документация: интеллектуальный поиск с BM25

Импортируйте руководства производителей, технические листы и документацию. T-IA Connect индексирует всё и позволяет найти нужную информацию за секунды — на основе того же алгоритма, что Google и Elasticsearch.

T
Команда T-IA Connect
Чтение 10 мин
Обновлено 25 марта 2026

Перестаньте листать PDF на 500 страниц

При настройке привода SEW, частотного преобразователя Siemens или интеграции стороннего устройства часто нужно найти один конкретный параметр, спрятанный в сотнях страниц документации. Традиционный подход — открыть PDF, Ctrl+F, прокрутить — медленный и ненадёжный.

T-IA Connect предоставляет специальную папку, куда вы можете помещать технические документы. Программа автоматически индексирует их с помощью BM25 (Best Matching 25) — того же алгоритма полнотекстового ранжирования, что используется поисковыми системами как Google и инструментами вроде Elasticsearch. Затем вы можете искать по всем документам и получать ранжированные результаты за миллисекунды.

Предварительные требования

  • Лицензия T-IA Connect PRO с включёнными пользовательскими документами
  • Технические документы в формате PDF, DOCX, TXT, HTML или Markdown
  • Открытый проект в TIA Portal (необязательно, для запросов с помощью ИИ)

Шаг 1: Как работает индексирование

Когда вы помещаете документ в папку пользовательской документации, T-IA Connect обрабатывает его через полный конвейер индексирования:

Architecture

// Pipeline

1. Разбор документа — извлечение текста из PDF/DOCX/TXT/HTML/MD

2. Чанкинг — разбивка на перекрывающиеся сегменты (~500 токенов каждый)

3. Токенизация — разделение слов, удаление стоп-слов, стемминг

4. Индекс BM25 — каждый фрагмент оценивается и сохраняется для мгновенного извлечения

// Supported: PDF, DOCX, TXT, HTML, Markdown

Шаг 2: BM25 — Как поисковая система ранжирует результаты

BM25 (Best Matching 25) — это функция ранжирования, используемая поисковыми системами с 1990-х годов. В отличие от простого поиска "содержит", она вычисляет оценку релевантности для каждого фрагмента текста на основе статистического анализа.

Алгоритм учитывает три ключевых фактора:

TF — Term Frequency

Слово, которое чаще встречается в фрагменте, делает его более релевантным — но с убывающей отдачей. 10 вхождений не в 10 раз лучше, чем 1.

IDF — Inverse Doc Frequency

Редкие слова в корпусе получают более высокие оценки. «HAS» стоит больше, чем «the» или «and».

Длина документа

Совпадение в коротком фрагменте оценивается выше, чем то же совпадение в длинном. Это предотвращает доминирование длинных документов в результатах.

BM25 Parameters

k1 = 1.2 // Насыщение частоты терминов (выше = больший вес частоте)

b = 0.75 // Вес нормализации длины (0 = игнорировать длину, 1 = полная нормализация)

Шаг 3: За пределами BM25 — Дополнительный интеллект

Поверх ядра BM25 T-IA Connect добавляет несколько улучшений для повышения качества поиска:

🛑

Фильтрация стоп-слов

~150 распространённых слов на английском, французском и немецком ("the", "le", "de", "und"...) автоматически игнорируются, чтобы поиск фокусировался на значимых терминах.

🔤

Базовый стемминг

Варианты слов сопоставляются вместе. Поиск «питание» также найдёт «питаемый» и «питать», увеличивая охват без потери точности.

📍

Бонус близости

Когда поисковые термины появляются близко друг к другу в тексте, оценка релевантности удваивается (×2). Это вознаграждает точные совпадения фраз и смежные понятия.

Шаг 4: Практический пример

Представьте, что вы проиндексировали документацию частотного преобразователя SEW MOVITRAC LTP-B (350 страниц). Вы ищете:

Пример поиска

// User query:

"MOVITRAC LTP-B параметр максимальной выходной частоты"

// BM25 result:

Глава 8.3 — Параметр P100: Макс. выходная частота [оценка: 12.4]

Глава 5.1 — Диапазон частот и настройки двигателя [оценка: 8.7]

Глава 12 — Справочная таблица параметров [оценка: 6.2]

С поддержкой ИИ: задавайте вопросы на естественном языке

В сочетании с ИИ-Копилотом поиск BM25 становится ещё мощнее. Вместо поиска ключевых слов вы можете задавать вопросы вроде «Какова максимальная длина кабеля для MOVITRAC LTP-B?» — ИИ извлекает наиболее релевантные фрагменты через BM25, читает их и даёт точный ответ со ссылкой на источник. Это называется RAG (Retrieval-Augmented Generation).

Ваша документация, мгновенно доступна для поиска

Перестаньте тратить время на прокрутку PDF. Импортируйте документы, позвольте BM25 проиндексировать их и находите любую информацию за секунды — через поиск по ключевым словам или запросы на естественном языке с помощью ИИ.