Schluss mit dem Scrollen durch 500-seitige PDFs
Wenn Sie einen SEW-Umrichter konfigurieren, einen Siemens-VFD oder ein Drittanbietergerät integrieren, müssen Sie oft einen bestimmten Parameter finden, der in Hunderten von Dokumentationsseiten vergraben ist. Der traditionelle Ansatz — PDF öffnen, Strg+F, Scrollen — ist langsam und unzuverlässig.
T-IA Connect bietet einen dedizierten Ordner, in den Sie Ihre technischen Dokumente ablegen können. Die Software indexiert sie automatisch mit BM25 (Best Matching 25), dem gleichen Volltext-Ranking-Algorithmus, der von Suchmaschinen wie Google und Tools wie Elasticsearch verwendet wird. Sie können dann in allen Ihren Dokumenten suchen und erhalten in Millisekunden nach Relevanz sortierte Ergebnisse.
Voraussetzungen
- T-IA Connect PRO-Lizenz mit aktivierter benutzerdefinierter Dokumentation
- Technische Dokumente im PDF-, DOCX-, TXT-, HTML- oder Markdown-Format
- Ein geöffnetes Projekt in TIA Portal (optional, für KI-unterstützte Abfragen)
Schritt 1: Wie die Indexierung funktioniert
Wenn Sie ein Dokument im Ordner für benutzerdefinierte Dokumentation ablegen, verarbeitet T-IA Connect es durch eine vollständige Indexierungspipeline:
// Pipeline
1. Dokumentenanalyse — Textextraktion aus PDF/DOCX/TXT/HTML/MD
2. Chunking — Aufteilung in überlappende Segmente (~500 Token jeweils)
3. Tokenisierung — Worttrennung, Stoppwort-Entfernung, Stemming
4. BM25-Index — jeder Chunk wird bewertet und für sofortigen Abruf gespeichert
// Supported: PDF, DOCX, TXT, HTML, Markdown
Schritt 2: BM25 — Wie die Suchmaschine Ergebnisse rankt
BM25 (Best Matching 25) ist eine Ranking-Funktion, die seit den 1990er Jahren von Suchmaschinen verwendet wird. Anders als eine einfache "contains"-Suche berechnet sie für jeden Textchunk einen Relevanzwert basierend auf statistischer Analyse.
Der Algorithmus berücksichtigt drei Schlüsselfaktoren:
TF — Term Frequency
Ein Wort, das häufiger in einem Chunk vorkommt, macht ihn relevanter — aber mit abnehmenden Erträgen. 10 Vorkommen sind nicht 10× besser als 1.
IDF — Inverse Doc Frequency
Seltene Wörter im gesamten Korpus erzielen höhere Werte. "HAS" ist mehr wert als "der" oder "und".
Dokumentlänge
Ein Treffer in einem kurzen Chunk erzielt einen höheren Wert als derselbe Treffer in einem langen. Dies verhindert, dass lange Dokumente die Ergebnisse dominieren.
k1 = 1.2 // Termfrequenz-Sättigung (höher = mehr Gewicht auf Häufigkeit)
b = 0.75 // Längennormalisierungsgewicht (0 = Länge ignorieren, 1 = volle Normalisierung)
Schritt 3: Über BM25 hinaus — Extra-Intelligenz
Zusätzlich zum BM25-Kern fügt T-IA Connect mehrere Verbesserungen hinzu, um die Suchqualität zu optimieren:
Stoppwort-Filterung
~150 häufige Wörter in Englisch, Französisch und Deutsch ("the", "le", "de", "und"...) werden automatisch ignoriert, damit die Suche sich auf bedeutungsvolle Begriffe konzentriert.
Basis-Stemming
Wortvarianten werden zusammen abgeglichen. Die Suche nach "Speisung" findet auch "gespeist" und "speisen" und erhöht die Trefferquote ohne Präzisionsverlust.
Proximity-Boost
Wenn Ihre Suchbegriffe im Text nahe beieinander erscheinen, wird der Relevanzwert verdoppelt (×2). Dies belohnt exakte Phrasen-Treffer und benachbarte Konzepte.
Schritt 4: Praxisbeispiel
Stellen Sie sich vor, Sie haben die Dokumentation eines SEW MOVITRAC LTP-B Frequenzumrichters (350 Seiten) indexiert. Sie suchen nach:
// User query:
"MOVITRAC LTP-B maximale Ausgangsfrequenz Parameter"
// BM25 result:
✓ Kapitel 8.3 — Parameter P100: Max. Ausgangsfrequenz [Score: 12.4]
✓ Kapitel 5.1 — Frequenzbereich und Motoreinstellungen [Score: 8.7]
✓ Kapitel 12 — Parameter-Referenztabelle [Score: 6.2]
KI-gestützt: Stellen Sie Fragen in natürlicher Sprache
In Kombination mit dem KI-Copilot wird die BM25-Suche noch leistungsfähiger. Anstatt nach Schlüsselwörtern zu suchen, können Sie Fragen stellen wie "Wie lang darf das Kabel beim MOVITRAC LTP-B maximal sein?" — die KI ruft die relevantesten Chunks über BM25 ab, liest sie und gibt Ihnen eine präzise Antwort mit Quellenangabe. Dies nennt man RAG (Retrieval-Augmented Generation).