Smetti di scorrere PDF da 500 pagine
Quando configuri un inverter SEW, un VFD Siemens o integri un dispositivo di terze parti, spesso devi trovare un parametro specifico sepolto in centinaia di pagine di documentazione. L'approccio tradizionale — aprire il PDF, Ctrl+F, scorrere — è lento e inaffidabile.
T-IA Connect fornisce una cartella dedicata dove puoi inserire i tuoi documenti tecnici. Il software li indicizza automaticamente usando BM25 (Best Matching 25), lo stesso algoritmo di ranking full-text usato da motori di ricerca come Google e strumenti come Elasticsearch. Puoi poi cercare in tutti i tuoi documenti e ottenere risultati classificati in millisecondi.
Prerequisiti
- Licenza T-IA Connect PRO con Documentazione personalizzata abilitata
- Documenti tecnici in formato PDF, DOCX, TXT, HTML o Markdown
- Un progetto aperto in TIA Portal (opzionale, per query assistite dall'IA)
Passo 1: Come funziona l'indicizzazione
Quando inserisci un documento nella cartella della documentazione personalizzata, T-IA Connect lo elabora attraverso una pipeline di indicizzazione completa:
// Pipeline
1. Analisi del documento — estrazione del testo da PDF/DOCX/TXT/HTML/MD
2. Chunking — suddivisione in segmenti sovrapposti (~500 token ciascuno)
3. Tokenizzazione — divisione delle parole, rimozione delle stop word, stemming
4. Indice BM25 — ogni chunk viene valutato e memorizzato per il recupero istantaneo
// Supported: PDF, DOCX, TXT, HTML, Markdown
Passo 2: BM25 — Come il motore di ricerca classifica i risultati
BM25 (Best Matching 25) è una funzione di classificazione usata dai motori di ricerca dagli anni '90. A differenza di una semplice ricerca "contiene", calcola un punteggio di rilevanza per ogni chunk di testo basato sull'analisi statistica.
L'algoritmo considera tre fattori chiave:
TF — Term Frequency
Una parola che appare più spesso in un chunk lo rende più rilevante — ma con rendimenti decrescenti. 10 occorrenze non sono 10 volte meglio di 1.
IDF — Inverse Doc Frequency
Le parole rare nell'intero corpus ottengono punteggi più alti. "HAS" vale più di "il" o "e".
Lunghezza del documento
Una corrispondenza in un chunk breve ottiene un punteggio più alto della stessa corrispondenza in uno lungo. Questo impedisce ai documenti lunghi di dominare i risultati.
k1 = 1.2 // Saturazione della frequenza dei termini (più alto = più peso alla frequenza)
b = 0.75 // Peso della normalizzazione per lunghezza (0 = ignora lunghezza, 1 = normalizzazione completa)
Passo 3: Oltre BM25 — Intelligenza extra
Oltre al nucleo BM25, T-IA Connect aggiunge diversi miglioramenti per aumentare la qualità della ricerca:
Filtraggio delle stop word
~150 parole comuni in inglese, francese e tedesco ("the", "le", "de", "und"...) vengono ignorate automaticamente in modo che la ricerca si concentri sui termini significativi.
Stemming di base
Le varianti di una parola vengono abbinate insieme. Cercare "alimentazione" troverà anche "alimentato" e "alimentare", aumentando il richiamo senza perdere precisione.
Boost per prossimità
Quando i termini di ricerca appaiono vicini nel testo, il punteggio di rilevanza viene raddoppiato (×2). Questo premia le corrispondenze esatte di frasi e i concetti adiacenti.
Passo 4: Esempio dal mondo reale
Immagina di aver indicizzato la documentazione di un inverter di frequenza SEW MOVITRAC LTP-B (350 pagine). Cerchi:
// User query:
"MOVITRAC LTP-B parametro frequenza massima di uscita"
// BM25 result:
✓ Capitolo 8.3 — Parametro P100: Frequenza di uscita massima [punteggio: 12.4]
✓ Capitolo 5.1 — Gamma di frequenza e impostazioni motore [punteggio: 8.7]
✓ Capitolo 12 — Tabella di riferimento parametri [punteggio: 6.2]
Basato su IA: fai domande in linguaggio naturale
Combinata con l'IA Copilot, la ricerca BM25 diventa ancora più potente. Invece di cercare parole chiave, puoi fare domande come "Qual è la lunghezza massima del cavo per il MOVITRAC LTP-B?" — l'IA recupera i chunk più rilevanti via BM25, li legge e ti dà una risposta precisa con il riferimento alla fonte. Questo si chiama RAG (Retrieval-Augmented Generation).