Stop met scrollen door PDF's van 500 pagina's
Wanneer u een SEW-aandrijving, een Siemens VFD configureert of een apparaat van derden integreert, moet u vaak een specifieke parameter vinden die begraven ligt in honderden pagina's documentatie. De traditionele aanpak — PDF openen, Ctrl+F, scrollen — is traag en onbetrouwbaar.
T-IA Connect biedt een speciale map waar u uw technische documenten kunt plaatsen. De software indexeert ze automatisch met BM25 (Best Matching 25), hetzelfde volledige tekst-rangschikkingsalgoritme dat wordt gebruikt door zoekmachines zoals Google en tools zoals Elasticsearch. U kunt dan door al uw documenten zoeken en gerangschikte resultaten in milliseconden krijgen.
Vereisten
- T-IA Connect PRO-licentie met Aangepaste documenten ingeschakeld
- Technische documenten in PDF-, DOCX-, TXT-, HTML- of Markdown-formaat
- Een project geopend in TIA Portal (optioneel, voor door AI ondersteunde zoekopdrachten)
Stap 1: Hoe indexering werkt
Wanneer u een document in de map voor aangepaste documentatie plaatst, verwerkt T-IA Connect het via een volledige indexeringspipeline:
// Pipeline
1. Documentanalyse — tekstextractie uit PDF/DOCX/TXT/HTML/MD
2. Chunking — verdeling in overlappende segmenten (~500 tokens elk)
3. Tokenisatie — woordsplitsing, stopwoordverwijdering, stemming
4. BM25-index — elk fragment wordt beoordeeld en opgeslagen voor direct ophalen
// Supported: PDF, DOCX, TXT, HTML, Markdown
Stap 2: BM25 — Hoe de zoekmachine resultaten rangschikt
BM25 (Best Matching 25) is een rangschikkingsfunctie die sinds de jaren 90 door zoekmachines wordt gebruikt. In tegenstelling tot een eenvoudige "bevat"-zoekopdracht berekent het een relevantiescore voor elk tekstfragment op basis van statistische analyse.
Het algoritme houdt rekening met drie sleutelfactoren:
TF — Term Frequency
Een woord dat vaker voorkomt in een fragment maakt het relevanter — maar met afnemende opbrengsten. 10 voorkomens is niet 10× beter dan 1.
IDF — Inverse Doc Frequency
Zeldzame woorden in het hele corpus scoren hoger. "HAS" is meer waard dan "de" of "en".
Documentlengte
Een overeenkomst in een kort fragment scoort hoger dan dezelfde overeenkomst in een lang fragment. Dit voorkomt dat lange documenten de resultaten domineren.
k1 = 1.2 // Termfrequentieverzadiging (hoger = meer gewicht aan frequentie)
b = 0.75 // Gewicht van lengtenormalisatie (0 = lengte negeren, 1 = volledige normalisatie)
Stap 3: Voorbij BM25 — Extra intelligentie
Bovenop de BM25-kern voegt T-IA Connect meerdere verbeteringen toe om de zoekkwaliteit te verhogen:
Stopwoordfiltering
~150 veelvoorkomende woorden in het Engels, Frans en Duits ("the", "le", "de", "und"...) worden automatisch genegeerd zodat de zoekopdracht zich concentreert op betekenisvolle termen.
Basisstamming
Woordvarianten worden samen gematcht. Zoeken naar "alimentation" zal ook "alimenté" en "alimenter" vinden, wat de herinnering vergroot zonder precisie te verliezen.
Nabijheidsboost
Wanneer uw zoektermen dicht bij elkaar in de tekst verschijnen, wordt de relevantiescore verdubbeld (×2). Dit beloont exacte zinsnede-overeenkomsten en aangrenzende concepten.
Stap 4: Praktijkvoorbeeld
Stel je voor dat u de documentatie hebt geïndexeerd van een SEW MOVITRAC LTP-B frequentieomvormer (350 pagina's). U zoekt naar:
// User query:
"MOVITRAC LTP-B maximale uitgangsfrequentieparameter"
// BM25 result:
✓ Hoofdstuk 8.3 — Parameter P100: Max. uitgangsfrequentie [score: 12.4]
✓ Hoofdstuk 5.1 — Frequentiebereik en motorinstellingen [score: 8.7]
✓ Hoofdstuk 12 — Parametersreferentietabel [score: 6.2]
AI-aangedreven: stel vragen in natuurlijke taal
Gecombineerd met de AI-Copilot wordt de BM25-zoekopdracht nog krachtiger. In plaats van naar sleutelwoorden te zoeken, kunt u vragen stellen zoals "Wat is de maximale kabellengte voor de MOVITRAC LTP-B?" — de AI haalt de meest relevante fragmenten op via BM25, leest ze en geeft u een nauwkeurig antwoord met de bronvermelding. Dit heet RAG (Retrieval-Augmented Generation).