Gids: Aangepaste documentatiezoekopdracht met BM25-indexering

Stop met scrollen door PDF's van 500 pagina's

Wanneer u een SEW-aandrijving, een Siemens VFD configureert of een apparaat van derden integreert, moet u vaak een specifieke parameter vinden die begraven ligt in honderden pagina's documentatie. De traditionele aanpak - PDF openen, Ctrl+F, scrollen - is traag en onbetrouwbaar.

T-IA Connect biedt een speciale map waar u uw technische documenten kunt plaatsen. De software indexeert ze automatisch met BM25 (Best Matching 25), hetzelfde volledige tekst-rangschikkingsalgoritme dat wordt gebruikt door zoekmachines zoals Google en tools zoals Elasticsearch. U kunt dan door al uw documenten zoeken en gerangschikte resultaten in milliseconden krijgen.

Vereisten

T-IA Connect PRO-licentie met Aangepaste documenten ingeschakeld
Technische documenten in PDF-, DOCX-, TXT-, HTML- of Markdown-formaat
Een project geopend in TIA Portal (optioneel, voor door AI ondersteunde zoekopdrachten)

Stap 1: Hoe indexering werkt

Wanneer u een document in de map voor aangepaste documentatie plaatst, verwerkt T-IA Connect het via een volledige indexeringspipeline:

Architecture

// Pipeline

1. Documentanalyse - tekstextractie uit PDF/DOCX/TXT/HTML/MD

2. Chunking - verdeling in overlappende segmenten (~500 tokens elk)

3. Tokenisatie - woordsplitsing, stopwoordverwijdering, stemming

4. BM25-index - elk fragment wordt beoordeeld en opgeslagen voor direct ophalen

// Supported: PDF, DOCX, TXT, HTML, Markdown

Stap 2: BM25 - Hoe de zoekmachine resultaten rangschikt

BM25 (Best Matching 25) is een rangschikkingsfunctie die sinds de jaren 90 door zoekmachines wordt gebruikt. In tegenstelling tot een eenvoudige "bevat"-zoekopdracht berekent het een relevantiescore voor elk tekstfragment op basis van statistische analyse.

Het algoritme houdt rekening met drie sleutelfactoren:

TF - Term Frequency

Een woord dat vaker voorkomt in een fragment maakt het relevanter - maar met afnemende opbrengsten. 10 voorkomens is niet 10× beter dan 1.

IDF - Inverse Doc Frequency

Zeldzame woorden in het hele corpus scoren hoger. "HAS" is meer waard dan "de" of "en".

Documentlengte

Een overeenkomst in een kort fragment scoort hoger dan dezelfde overeenkomst in een lang fragment. Dit voorkomt dat lange documenten de resultaten domineren.

BM25 Parameters

k1 = 1.2 // Termfrequentieverzadiging (hoger = meer gewicht aan frequentie)

b = 0.75 // Gewicht van lengtenormalisatie (0 = lengte negeren, 1 = volledige normalisatie)

Stap 3: Voorbij BM25 - Extra intelligentie

Bovenop de BM25-kern voegt T-IA Connect meerdere verbeteringen toe om de zoekkwaliteit te verhogen:

🛑

Stopwoordfiltering

~150 veelvoorkomende woorden in het Engels, Frans en Duits ("the", "le", "de", "und"...) worden automatisch genegeerd zodat de zoekopdracht zich concentreert op betekenisvolle termen.

🔤

Basisstamming

Woordvarianten worden samen gematcht. Zoeken naar "alimentation" zal ook "alimenté" en "alimenter" vinden, wat de herinnering vergroot zonder precisie te verliezen.

📍

Nabijheidsboost

Wanneer uw zoektermen dicht bij elkaar in de tekst verschijnen, wordt de relevantiescore verdubbeld (×2). Dit beloont exacte zinsnede-overeenkomsten en aangrenzende concepten.

Stap 4: Praktijkvoorbeeld

Stel je voor dat u de documentatie hebt geïndexeerd van een SEW MOVITRAC LTP-B frequentieomvormer (350 pagina's). U zoekt naar:

Zoekvoorbeeld

// User query:

"MOVITRAC LTP-B maximale uitgangsfrequentieparameter"

// BM25 result:

✓ Hoofdstuk 8.3 - Parameter P100: Max. uitgangsfrequentie [score: 12.4]

✓ Hoofdstuk 5.1 - Frequentiebereik en motorinstellingen [score: 8.7]

✓ Hoofdstuk 12 - Parametersreferentietabel [score: 6.2]

AI-aangedreven: stel vragen in natuurlijke taal

Gecombineerd met de AI-Copilot wordt de BM25-zoekopdracht nog krachtiger. In plaats van naar sleutelwoorden te zoeken, kunt u vragen stellen zoals "Wat is de maximale kabellengte voor de MOVITRAC LTP-B?" - de AI haalt de meest relevante fragmenten op via BM25, leest ze en geeft u een nauwkeurig antwoord met de bronvermelding. Dit heet RAG (Retrieval-Augmented Generation).

Uw documentatie, direct doorzoekbaar

Stop met tijd verspillen aan het scrollen door PDF's. Importeer uw documenten, laat BM25 ze indexeren en vind alle informatie in seconden - via zoeken op trefwoorden of door AI ondersteunde zoekopdrachten in natuurlijke taal.