Prenehajte pomikati po PDF-ih s 500 stranmi
Pri konfiguriranju pogona SEW, VFD Siemens ali integraciji naprave tretje osebe pogosto potrebujete en specifičen parameter, zakopan v stotinah straneh dokumentacije. Tradicionalni pristop — odprite PDF, Ctrl+F, pomik — je počasen in nezanesljiv.
T-IA Connect zagotavlja namensko mapo, kamor lahko odložite svoje tehnične dokumente. Programska oprema jih samodejno indeksira z BM25 (Best Matching 25), istim algoritmom za razvrščanje polnega besedila, ki ga uporabljajo iskalniki, kot je Google, in orodja, kot je Elasticsearch. Nato lahko iščete po vseh svojih dokumentih in dobite razvrščene rezultate v milisekundah.
Predpogoji
- Licenca T-IA Connect PRO z omogočenimi prilagojenimi dokumenti
- Tehnični dokumenti v formatu PDF, DOCX, TXT, HTML ali Markdown
- Odprt projekt v TIA Portal (neobvezno, za poizvedbe s pomočjo UI)
Korak 1: Kako deluje indeksiranje
Ko postavite dokument v mapo za prilagojeno dokumentacijo, ga T-IA Connect obdela skozi celoten cevovod za indeksiranje:
// Pipeline
1. Razčlenitev dokumenta — ekstrakcija besedila iz PDF/DOCX/TXT/HTML/MD
2. Segmentacija — razdelitev na prekrivajoče se segmente (~500 žetonov vsak)
3. Tokenizacija — razdelitev besed, odstranitev stop besed, lematizacija
4. Indeks BM25 — vsak segment je ocenjen in shranjen za takojšnje iskanje
// Supported: PDF, DOCX, TXT, HTML, Markdown
Korak 2: BM25 — Kako iskalnik razvršča rezultate
BM25 (Best Matching 25) je funkcija razvrščanja, ki jo iskalniki uporabljajo od 90. let. Za razliko od preprostega iskanja "vsebuje", izračuna oceno ustreznosti za vsak del besedila na podlagi statističnih analiz.
Algoritem upošteva tri ključne dejavnike:
TF — Term Frequency
Beseda, ki se pogosteje pojavi v segmentu, ga naredi bolj relevantnega — a z manjšimi donosi. 10 pojavitev ni 10× boljše od 1.
IDF — Inverse Doc Frequency
Redke besede v celotnem korpusu dosegajo višje ocene. "HAS" je vreden več kot "the" ali "and".
Dolžina dokumenta
Ujemanje v kratkem segmentu dobi višjo oceno kot enako ujemanje v dolgem. To preprečuje, da bi dolgi dokumenti prevladali v rezultatih.
k1 = 1.2 // Nasičenost frekvence izrazov (višje = večja teža frekvenci)
b = 0.75 // Teža normalizacije dolžine (0 = prezri dolžino, 1 = popolna normalizacija)
Korak 3: Onkraj BM25 — Dodatna inteligenca
Poleg jedra BM25 T-IA Connect dodaja več izboljšav za povečanje kakovosti iskanja:
Filtriranje stop besed
~150 pogostih besed v angleščini, francoščini in nemščini ("the", "le", "de", "und"...) se samodejno ignorira, da se iskanje osredotoči na smiselne izraze.
Osnovna lematizacija
Variante besed se ujemajo skupaj. Iskanje "napajanje" bo našlo tudi "napajan" in "napajati", kar povečuje priklic brez izgube natančnosti.
Izboljšanje bližine
Ko se vaši iskalni izrazi pojavljajo skupaj v besedilu, se ocena ustreznosti podvoji (×2). To nagrajuje natančna ujemanja fraz in sosednje koncepte.
Korak 4: Primer iz resničnega sveta
Predstavljajte si, da ste indeksirali dokumentacijo frekvenčnega pretvornika SEW MOVITRAC LTP-B (350 strani). Iščete:
// User query:
"MOVITRAC LTP-B parameter maksimalne izhodne frekvence"
// BM25 result:
✓ Poglavje 8.3 — Parameter P100: Maks. izhodna frekvenca [ocena: 12.4]
✓ Poglavje 5.1 — Frekvenčni razpon in nastavitve motorja [ocena: 8.7]
✓ Poglavje 12 — Referenčna tabela parametrov [ocena: 6.2]
Podprto z UI: postavljajte vprašanja v naravnem jeziku
V kombinaciji z UI Copilotom postane iskanje BM25 še zmogljivejše. Namesto iskanja po ključnih besedah lahko postavljate vprašanja, kot je "Kakšna je maksimalna dolžina kabla za MOVITRAC LTP-B?" — UI pridobi najpomembnejše segmente prek BM25, jih prebere in vam da natančen odgovor z referenco vira. To se imenuje RAG (Retrieval-Augmented Generation).