Samouczki

Dokumentacja niestandardowa: inteligentne wyszukiwanie z BM25

Importuj instrukcje producentów, karty danych i dokumenty techniczne. T-IA Connect indeksuje wszystko i pozwala znaleźć właściwe informacje w ciągu sekund — napędzany tym samym algorytmem co Google i Elasticsearch.

T
Zespół T-IA Connect
Czytanie 10 min
Zaktualizowano 25 mar. 2026

Przestań przewijać 500-stronicowe pliki PDF

Podczas konfigurowania napędu SEW, VFD Siemens lub integrowania urządzenia innej firmy często musisz znaleźć jeden konkretny parametr ukryty w setkach stron dokumentacji. Tradycyjne podejście — otworzyć PDF, Ctrl+F, przewijać — jest wolne i zawodne.

T-IA Connect udostępnia dedykowany folder, w którym możesz umieszczać dokumenty techniczne. Oprogramowanie automatycznie je indeksuje za pomocą BM25 (Best Matching 25), tego samego algorytmu rankingu pełnotekstowego używanego przez wyszukiwarki jak Google i narzędzia jak Elasticsearch. Następnie możesz przeszukiwać wszystkie swoje dokumenty i uzyskiwać klasyfikowane wyniki w milisekundach.

Wymagania wstępne

  • Licencja T-IA Connect PRO z włączoną dokumentacją niestandardową
  • Dokumenty techniczne w formacie PDF, DOCX, TXT, HTML lub Markdown
  • Projekt otwarty w TIA Portal (opcjonalnie, dla zapytań wspomaganych przez AI)

Krok 1: Jak działa indeksowanie

Gdy umieszczasz dokument w folderze dokumentacji niestandardowej, T-IA Connect przetwarza go przez pełny potok indeksowania:

Architecture

// Pipeline

1. Analiza dokumentu — ekstrakcja tekstu z PDF/DOCX/TXT/HTML/MD

2. Fragmentacja — podział na nakładające się segmenty (~500 tokenów każdy)

3. Tokenizacja — dzielenie słów, usuwanie słów stopowych, stemming

4. Indeks BM25 — każdy fragment jest oceniany i przechowywany do natychmiastowego odczytu

// Supported: PDF, DOCX, TXT, HTML, Markdown

Krok 2: BM25 — Jak wyszukiwarka ocenia wyniki

BM25 (Best Matching 25) to funkcja rankingu używana przez wyszukiwarki od lat 90. W odróżnieniu od prostego wyszukiwania "zawiera", oblicza ocenę trafności dla każdego fragmentu tekstu na podstawie analizy statystycznej.

Algorytm uwzględnia trzy kluczowe czynniki:

TF — Term Frequency

Słowo pojawiające się częściej w fragmencie czyni go bardziej trafnym — ale z malejącymi zyskami. 10 wystąpień nie jest 10× lepsze niż 1.

IDF — Inverse Doc Frequency

Rzadkie słowa w całym zbiorze uzyskują wyższe oceny. "HAS" jest warte więcej niż "the" czy "and".

Długość dokumentu

Dopasowanie w krótkim fragmencie uzyskuje wyższą ocenę niż to samo dopasowanie w długim. Zapobiega to dominacji długich dokumentów w wynikach.

BM25 Parameters

k1 = 1.2 // Nasycenie częstotliwości terminów (wyższe = większy nacisk na częstotliwość)

b = 0.75 // Waga normalizacji długości (0 = ignoruj długość, 1 = pełna normalizacja)

Krok 3: Poza BM25 — Dodatkowa inteligencja

Na bazie rdzenia BM25 T-IA Connect dodaje kilka ulepszeń poprawiających jakość wyszukiwania:

🛑

Filtrowanie słów stopowych

~150 popularnych słów w języku angielskim, francuskim i niemieckim ("the", "le", "de", "und"...) jest automatycznie ignorowanych, aby wyszukiwanie koncentrowało się na znaczących terminach.

🔤

Podstawowy stemming

Warianty słów są dopasowywane razem. Wyszukiwanie "zasilania" znajdzie też "zasilony" i "zasilać", zwiększając pokrycie bez utraty precyzji.

📍

Wzmocnienie bliskości

Gdy szukane terminy pojawiają się blisko siebie w tekście, wynik trafności jest podwajany (×2). Nagradza to dokładne dopasowania fraz i sąsiadujące koncepcje.

Krok 4: Przykład z życia

Wyobraź sobie, że zaindeksowałeś dokumentację przemiennika częstotliwości SEW MOVITRAC LTP-B (350 stron). Szukasz:

Przykład wyszukiwania

// User query:

"MOVITRAC LTP-B parametr maksymalnej częstotliwości wyjściowej"

// BM25 result:

Rozdział 8.3 — Parametr P100: Maks. częstotliwość wyjściowa [wynik: 12.4]

Rozdział 5.1 — Zakres częstotliwości i ustawienia silnika [wynik: 8.7]

Rozdział 12 — Tabela referencyjna parametrów [wynik: 6.2]

Wspomagane AI: zadawaj pytania w języku naturalnym

W połączeniu z Copilotem AI wyszukiwanie BM25 staje się jeszcze potężniejsze. Zamiast szukać słów kluczowych, możesz zadawać pytania jak "Jaka jest maksymalna długość kabla dla MOVITRAC LTP-B?" — AI pobiera najbardziej trafne fragmenty przez BM25, czyta je i daje dokładną odpowiedź z odniesieniem do źródła. Nazywa się to RAG (Retrieval-Augmented Generation).

Twoja dokumentacja, natychmiast przeszukiwalna

Przestań tracić czas na przewijanie plików PDF. Zaimportuj dokumenty, pozwól BM25 je zaindeksować i znajdź dowolne informacje w ciągu sekund — za pomocą wyszukiwania słów kluczowych lub zapytań w języku naturalnym wspomaganych przez AI.