Anleitung: Technische Dokumentationssuche mit BM25-Indexierung

Schluss mit dem Scrollen durch 500-seitige PDFs

Wenn Sie einen SEW-Umrichter konfigurieren, einen Siemens-VFD oder ein Drittanbietergerät integrieren, müssen Sie oft einen bestimmten Parameter finden, der in Hunderten von Dokumentationsseiten vergraben ist. Der traditionelle Ansatz - PDF öffnen, Strg+F, Scrollen - ist langsam und unzuverlässig.

T-IA Connect bietet einen dedizierten Ordner, in den Sie Ihre technischen Dokumente ablegen können. Die Software indexiert sie automatisch mit BM25 (Best Matching 25), dem gleichen Volltext-Ranking-Algorithmus, der von Suchmaschinen wie Google und Tools wie Elasticsearch verwendet wird. Sie können dann in allen Ihren Dokumenten suchen und erhalten in Millisekunden nach Relevanz sortierte Ergebnisse.

Voraussetzungen

T-IA Connect PRO-Lizenz mit aktivierter benutzerdefinierter Dokumentation
Technische Dokumente im PDF-, DOCX-, TXT-, HTML- oder Markdown-Format
Ein geöffnetes Projekt in TIA Portal (optional, für KI-unterstützte Abfragen)

Schritt 1: Wie die Indexierung funktioniert

Wenn Sie ein Dokument im Ordner für benutzerdefinierte Dokumentation ablegen, verarbeitet T-IA Connect es durch eine vollständige Indexierungspipeline:

Architecture

// Pipeline

1. Dokumentenanalyse - Textextraktion aus PDF/DOCX/TXT/HTML/MD

2. Chunking - Aufteilung in überlappende Segmente (~500 Token jeweils)

3. Tokenisierung - Worttrennung, Stoppwort-Entfernung, Stemming

4. BM25-Index - jeder Chunk wird bewertet und für sofortigen Abruf gespeichert

// Supported: PDF, DOCX, TXT, HTML, Markdown

Schritt 2: BM25 - Wie die Suchmaschine Ergebnisse rankt

BM25 (Best Matching 25) ist eine Ranking-Funktion, die seit den 1990er Jahren von Suchmaschinen verwendet wird. Anders als eine einfache "contains"-Suche berechnet sie für jeden Textchunk einen Relevanzwert basierend auf statistischer Analyse.

Der Algorithmus berücksichtigt drei Schlüsselfaktoren:

TF - Term Frequency

Ein Wort, das häufiger in einem Chunk vorkommt, macht ihn relevanter - aber mit abnehmenden Erträgen. 10 Vorkommen sind nicht 10× besser als 1.

IDF - Inverse Doc Frequency

Seltene Wörter im gesamten Korpus erzielen höhere Werte. "HAS" ist mehr wert als "der" oder "und".

Dokumentlänge

Ein Treffer in einem kurzen Chunk erzielt einen höheren Wert als derselbe Treffer in einem langen. Dies verhindert, dass lange Dokumente die Ergebnisse dominieren.

BM25 Parameters

k1 = 1.2 // Termfrequenz-Sättigung (höher = mehr Gewicht auf Häufigkeit)

b = 0.75 // Längennormalisierungsgewicht (0 = Länge ignorieren, 1 = volle Normalisierung)

Schritt 3: Über BM25 hinaus - Extra-Intelligenz

Zusätzlich zum BM25-Kern fügt T-IA Connect mehrere Verbesserungen hinzu, um die Suchqualität zu optimieren:

🛑

Stoppwort-Filterung

~150 häufige Wörter in Englisch, Französisch und Deutsch ("the", "le", "de", "und"...) werden automatisch ignoriert, damit die Suche sich auf bedeutungsvolle Begriffe konzentriert.

🔤

Basis-Stemming

Wortvarianten werden zusammen abgeglichen. Die Suche nach "Speisung" findet auch "gespeist" und "speisen" und erhöht die Trefferquote ohne Präzisionsverlust.

📍

Proximity-Boost

Wenn Ihre Suchbegriffe im Text nahe beieinander erscheinen, wird der Relevanzwert verdoppelt (×2). Dies belohnt exakte Phrasen-Treffer und benachbarte Konzepte.

Schritt 4: Praxisbeispiel

Stellen Sie sich vor, Sie haben die Dokumentation eines SEW MOVITRAC LTP-B Frequenzumrichters (350 Seiten) indexiert. Sie suchen nach:

Suchbeispiel

// User query:

"MOVITRAC LTP-B maximale Ausgangsfrequenz Parameter"

// BM25 result:

✓ Kapitel 8.3 - Parameter P100: Max. Ausgangsfrequenz [Score: 12.4]

✓ Kapitel 5.1 - Frequenzbereich und Motoreinstellungen [Score: 8.7]

✓ Kapitel 12 - Parameter-Referenztabelle [Score: 6.2]

KI-gestützt: Stellen Sie Fragen in natürlicher Sprache

In Kombination mit dem KI-Copilot wird die BM25-Suche noch leistungsfähiger. Anstatt nach Schlüsselwörtern zu suchen, können Sie Fragen stellen wie "Wie lang darf das Kabel beim MOVITRAC LTP-B maximal sein?" - die KI ruft die relevantesten Chunks über BM25 ab, liest sie und gibt Ihnen eine präzise Antwort mit Quellenangabe. Dies nennt man RAG (Retrieval-Augmented Generation).

Ihre Dokumentation, sofort durchsuchbar

Hören Sie auf, Zeit mit PDF-Scrollen zu verschwenden. Importieren Sie Ihre Dokumente, lassen Sie BM25 sie indexieren und finden Sie jede Information in Sekunden - ob durch Stichwortsuche oder KI-gestützte Fragen in natürlicher Sprache.