Guide: Sökning i anpassad dokumentation med BM25-indexering

Sluta scrolla igenom PDF-filer på 500 sidor

När du konfigurerar en SEW-drivning, en Siemens VFD eller integrerar en tredjepartsanordning behöver du ofta hitta en specifik parameter begravd i hundratals sidor dokumentation. Det traditionella tillvägagångssättet - öppna PDF, Ctrl+F, scrolla - är långsamt och opålitligt.

T-IA Connect tillhandahåller en dedikerad mapp där du kan lägga dina tekniska dokument. Programvaran indexerar dem automatiskt med BM25 (Best Matching 25), samma fulltextrankningsalgoritm som används av sökmotorer som Google och verktyg som Elasticsearch. Du kan sedan söka i alla dina dokument och få rankade resultat på millisekunder.

Förutsättningar

T-IA Connect PRO-licens med anpassade dokument aktiverade
Tekniska dokument i PDF-, DOCX-, TXT-, HTML- eller Markdown-format
Ett öppet projekt i TIA Portal (valfritt, för AI-assisterade frågor)

Steg 1: Hur indexering fungerar

När du placerar ett dokument i mappen för anpassad dokumentation behandlar T-IA Connect det genom en fullständig indexeringspipeline:

Architecture

// Pipeline

1. Dokumentanalys - textextraktion från PDF/DOCX/TXT/HTML/MD

2. Fragmentering - uppdelning i överlappande segment (~500 tokens vardera)

3. Tokenisering - orddelning, borttagning av stoppord, stemming

4. BM25-index - varje fragment poängsätts och lagras för omedelbar hämtning

// Supported: PDF, DOCX, TXT, HTML, Markdown

Steg 2: BM25 - Hur sökmotorn rankar resultat

BM25 (Best Matching 25) är en rankningsfunktion som sökmotorer har använt sedan 1990-talet. Till skillnad från en enkel "innehåller"-sökning beräknar den en relevansscore för varje textfragment baserat på statistisk analys.

Algoritmen tar hänsyn till tre nyckelfaktorer:

TF - Term Frequency

Ett ord som förekommer oftare i ett fragment gör det mer relevant - men med avtagande avkastning. 10 förekomster är inte 10× bättre än 1.

IDF - Inverse Doc Frequency

Sällsynta ord i hela korpuset får högre poäng. "HAS" är mer värt än "the" eller "and".

Dokumentlängd

En matchning i ett kort fragment får högre poäng än samma matchning i ett långt. Detta förhindrar att långa dokument dominerar resultaten.

BM25 Parameters

k1 = 1.2 // Termfrekvenssmättnad (högre = mer vikt åt frekvens)

b = 0.75 // Vikt för längdnormalisering (0 = ignorera längd, 1 = fullständig normalisering)

Steg 3: Bortom BM25 - Extra intelligens

Utöver BM25-kärnan lägger T-IA Connect till flera förbättringar för att öka sökkvaliteten:

🛑

Filtrering av stoppord

~150 vanliga ord på engelska, franska och tyska ("the", "le", "de", "und"...) ignoreras automatiskt så att sökningen fokuserar på meningsfulla termer.

🔤

Grundläggande stemming

Ordvarianter matchas tillsammans. Sökning efter "matning" hittar också "matad" och "mata", vilket ökar återkallningen utan att förlora precision.

📍

Närhetsboost

När dina söktermer förekommer nära varandra i texten fördubblas relevansscore (×2). Detta belönar exakta frasträffar och angränsande begrepp.

Steg 4: Verkligt exempel

Tänk dig att du har indexerat dokumentationen för en SEW MOVITRAC LTP-B frekvensomvandlare (350 sidor). Du söker efter:

Sökexempel

// User query:

"MOVITRAC LTP-B parameter för maximal utfrekvens"

// BM25 result:

✓ Kapitel 8.3 - Parameter P100: Max. utfrekvens [poäng: 12.4]

✓ Kapitel 5.1 - Frekvensomfång och motorinställningar [poäng: 8.7]

✓ Kapitel 12 - Parameterreferenstabell [poäng: 6.2]

AI-driven: ställ frågor på naturligt språk

Kombinerat med AI-Copiloten blir BM25-sökningen ännu kraftfullare. Istället för att söka efter nyckelord kan du ställa frågor som "Vad är den maximala kabellängden för MOVITRAC LTP-B?" - AI:n hämtar de mest relevanta fragmenten via BM25, läser dem och ger dig ett precist svar med källhänvisning. Det kallas RAG (Retrieval-Augmented Generation).

Din dokumentation, omedelbart sökbar

Sluta slösa tid på att scrolla genom PDF-filer. Importera dina dokument, låt BM25 indexera dem och hitta all information på sekunder - antingen via nyckelordssökning eller AI-assisterade frågor på naturligt språk.