Vodnik: Iskanje v prilagojeni dokumentaciji z indeksiranjem BM25

Prenehajte pomikati po PDF-ih s 500 stranmi

Pri konfiguriranju pogona SEW, VFD Siemens ali integraciji naprave tretje osebe pogosto potrebujete en specifičen parameter, zakopan v stotinah straneh dokumentacije. Tradicionalni pristop - odprite PDF, Ctrl+F, pomik - je počasen in nezanesljiv.

T-IA Connect zagotavlja namensko mapo, kamor lahko odložite svoje tehnične dokumente. Programska oprema jih samodejno indeksira z BM25 (Best Matching 25), istim algoritmom za razvrščanje polnega besedila, ki ga uporabljajo iskalniki, kot je Google, in orodja, kot je Elasticsearch. Nato lahko iščete po vseh svojih dokumentih in dobite razvrščene rezultate v milisekundah.

Predpogoji

Licenca T-IA Connect PRO z omogočenimi prilagojenimi dokumenti
Tehnični dokumenti v formatu PDF, DOCX, TXT, HTML ali Markdown
Odprt projekt v TIA Portal (neobvezno, za poizvedbe s pomočjo UI)

Korak 1: Kako deluje indeksiranje

Ko postavite dokument v mapo za prilagojeno dokumentacijo, ga T-IA Connect obdela skozi celoten cevovod za indeksiranje:

Architecture

// Pipeline

1. Razčlenitev dokumenta - ekstrakcija besedila iz PDF/DOCX/TXT/HTML/MD

2. Segmentacija - razdelitev na prekrivajoče se segmente (~500 žetonov vsak)

3. Tokenizacija - razdelitev besed, odstranitev stop besed, lematizacija

4. Indeks BM25 - vsak segment je ocenjen in shranjen za takojšnje iskanje

// Supported: PDF, DOCX, TXT, HTML, Markdown

Korak 2: BM25 - Kako iskalnik razvršča rezultate

BM25 (Best Matching 25) je funkcija razvrščanja, ki jo iskalniki uporabljajo od 90. let. Za razliko od preprostega iskanja "vsebuje", izračuna oceno ustreznosti za vsak del besedila na podlagi statističnih analiz.

Algoritem upošteva tri ključne dejavnike:

TF - Term Frequency

Beseda, ki se pogosteje pojavi v segmentu, ga naredi bolj relevantnega - a z manjšimi donosi. 10 pojavitev ni 10× boljše od 1.

IDF - Inverse Doc Frequency

Redke besede v celotnem korpusu dosegajo višje ocene. "HAS" je vreden več kot "the" ali "and".

Dolžina dokumenta

Ujemanje v kratkem segmentu dobi višjo oceno kot enako ujemanje v dolgem. To preprečuje, da bi dolgi dokumenti prevladali v rezultatih.

BM25 Parameters

k1 = 1.2 // Nasičenost frekvence izrazov (višje = večja teža frekvenci)

b = 0.75 // Teža normalizacije dolžine (0 = prezri dolžino, 1 = popolna normalizacija)

Korak 3: Onkraj BM25 - Dodatna inteligenca

Poleg jedra BM25 T-IA Connect dodaja več izboljšav za povečanje kakovosti iskanja:

🛑

Filtriranje stop besed

~150 pogostih besed v angleščini, francoščini in nemščini ("the", "le", "de", "und"...) se samodejno ignorira, da se iskanje osredotoči na smiselne izraze.

🔤

Osnovna lematizacija

Variante besed se ujemajo skupaj. Iskanje "napajanje" bo našlo tudi "napajan" in "napajati", kar povečuje priklic brez izgube natančnosti.

📍

Izboljšanje bližine

Ko se vaši iskalni izrazi pojavljajo skupaj v besedilu, se ocena ustreznosti podvoji (×2). To nagrajuje natančna ujemanja fraz in sosednje koncepte.

Korak 4: Primer iz resničnega sveta

Predstavljajte si, da ste indeksirali dokumentacijo frekvenčnega pretvornika SEW MOVITRAC LTP-B (350 strani). Iščete:

Primer iskanja

// User query:

"MOVITRAC LTP-B parameter maksimalne izhodne frekvence"

// BM25 result:

✓ Poglavje 8.3 - Parameter P100: Maks. izhodna frekvenca [ocena: 12.4]

✓ Poglavje 5.1 - Frekvenčni razpon in nastavitve motorja [ocena: 8.7]

✓ Poglavje 12 - Referenčna tabela parametrov [ocena: 6.2]

Podprto z UI: postavljajte vprašanja v naravnem jeziku

V kombinaciji z UI Copilotom postane iskanje BM25 še zmogljivejše. Namesto iskanja po ključnih besedah lahko postavljate vprašanja, kot je "Kakšna je maksimalna dolžina kabla za MOVITRAC LTP-B?" - UI pridobi najpomembnejše segmente prek BM25, jih prebere in vam da natančen odgovor z referenco vira. To se imenuje RAG (Retrieval-Augmented Generation).

Vaša dokumentacija, takoj dostopna za iskanje

Nehajte zapravljati čas s pomikanjem po PDF-ih. Uvozite dokumente, pustite BM25, da jih indeksira, in v sekundah poiščite katere koli informacije - prek iskanja po ključnih besedah ali poizvedb v naravnem jeziku s pomočjo UI.