Przestań przewijać 500-stronicowe pliki PDF
Podczas konfigurowania napędu SEW, VFD Siemens lub integrowania urządzenia innej firmy często musisz znaleźć jeden konkretny parametr ukryty w setkach stron dokumentacji. Tradycyjne podejście — otworzyć PDF, Ctrl+F, przewijać — jest wolne i zawodne.
T-IA Connect udostępnia dedykowany folder, w którym możesz umieszczać dokumenty techniczne. Oprogramowanie automatycznie je indeksuje za pomocą BM25 (Best Matching 25), tego samego algorytmu rankingu pełnotekstowego używanego przez wyszukiwarki jak Google i narzędzia jak Elasticsearch. Następnie możesz przeszukiwać wszystkie swoje dokumenty i uzyskiwać klasyfikowane wyniki w milisekundach.
Wymagania wstępne
- Licencja T-IA Connect PRO z włączoną dokumentacją niestandardową
- Dokumenty techniczne w formacie PDF, DOCX, TXT, HTML lub Markdown
- Projekt otwarty w TIA Portal (opcjonalnie, dla zapytań wspomaganych przez AI)
Krok 1: Jak działa indeksowanie
Gdy umieszczasz dokument w folderze dokumentacji niestandardowej, T-IA Connect przetwarza go przez pełny potok indeksowania:
// Pipeline
1. Analiza dokumentu — ekstrakcja tekstu z PDF/DOCX/TXT/HTML/MD
2. Fragmentacja — podział na nakładające się segmenty (~500 tokenów każdy)
3. Tokenizacja — dzielenie słów, usuwanie słów stopowych, stemming
4. Indeks BM25 — każdy fragment jest oceniany i przechowywany do natychmiastowego odczytu
// Supported: PDF, DOCX, TXT, HTML, Markdown
Krok 2: BM25 — Jak wyszukiwarka ocenia wyniki
BM25 (Best Matching 25) to funkcja rankingu używana przez wyszukiwarki od lat 90. W odróżnieniu od prostego wyszukiwania "zawiera", oblicza ocenę trafności dla każdego fragmentu tekstu na podstawie analizy statystycznej.
Algorytm uwzględnia trzy kluczowe czynniki:
TF — Term Frequency
Słowo pojawiające się częściej w fragmencie czyni go bardziej trafnym — ale z malejącymi zyskami. 10 wystąpień nie jest 10× lepsze niż 1.
IDF — Inverse Doc Frequency
Rzadkie słowa w całym zbiorze uzyskują wyższe oceny. "HAS" jest warte więcej niż "the" czy "and".
Długość dokumentu
Dopasowanie w krótkim fragmencie uzyskuje wyższą ocenę niż to samo dopasowanie w długim. Zapobiega to dominacji długich dokumentów w wynikach.
k1 = 1.2 // Nasycenie częstotliwości terminów (wyższe = większy nacisk na częstotliwość)
b = 0.75 // Waga normalizacji długości (0 = ignoruj długość, 1 = pełna normalizacja)
Krok 3: Poza BM25 — Dodatkowa inteligencja
Na bazie rdzenia BM25 T-IA Connect dodaje kilka ulepszeń poprawiających jakość wyszukiwania:
Filtrowanie słów stopowych
~150 popularnych słów w języku angielskim, francuskim i niemieckim ("the", "le", "de", "und"...) jest automatycznie ignorowanych, aby wyszukiwanie koncentrowało się na znaczących terminach.
Podstawowy stemming
Warianty słów są dopasowywane razem. Wyszukiwanie "zasilania" znajdzie też "zasilony" i "zasilać", zwiększając pokrycie bez utraty precyzji.
Wzmocnienie bliskości
Gdy szukane terminy pojawiają się blisko siebie w tekście, wynik trafności jest podwajany (×2). Nagradza to dokładne dopasowania fraz i sąsiadujące koncepcje.
Krok 4: Przykład z życia
Wyobraź sobie, że zaindeksowałeś dokumentację przemiennika częstotliwości SEW MOVITRAC LTP-B (350 stron). Szukasz:
// User query:
"MOVITRAC LTP-B parametr maksymalnej częstotliwości wyjściowej"
// BM25 result:
✓ Rozdział 8.3 — Parametr P100: Maks. częstotliwość wyjściowa [wynik: 12.4]
✓ Rozdział 5.1 — Zakres częstotliwości i ustawienia silnika [wynik: 8.7]
✓ Rozdział 12 — Tabela referencyjna parametrów [wynik: 6.2]
Wspomagane AI: zadawaj pytania w języku naturalnym
W połączeniu z Copilotem AI wyszukiwanie BM25 staje się jeszcze potężniejsze. Zamiast szukać słów kluczowych, możesz zadawać pytania jak "Jaka jest maksymalna długość kabla dla MOVITRAC LTP-B?" — AI pobiera najbardziej trafne fragmenty przez BM25, czyta je i daje dokładną odpowiedź z odniesieniem do źródła. Nazywa się to RAG (Retrieval-Augmented Generation).