Guida: Ricerca nella documentazione personalizzata con indicizzazione BM25

Smetti di scorrere PDF da 500 pagine

Quando configuri un inverter SEW, un VFD Siemens o integri un dispositivo di terze parti, spesso devi trovare un parametro specifico sepolto in centinaia di pagine di documentazione. L'approccio tradizionale - aprire il PDF, Ctrl+F, scorrere - è lento e inaffidabile.

T-IA Connect fornisce una cartella dedicata dove puoi inserire i tuoi documenti tecnici. Il software li indicizza automaticamente usando BM25 (Best Matching 25), lo stesso algoritmo di ranking full-text usato da motori di ricerca come Google e strumenti come Elasticsearch. Puoi poi cercare in tutti i tuoi documenti e ottenere risultati classificati in millisecondi.

Prerequisiti

Licenza T-IA Connect PRO con Documentazione personalizzata abilitata
Documenti tecnici in formato PDF, DOCX, TXT, HTML o Markdown
Un progetto aperto in TIA Portal (opzionale, per query assistite dall'IA)

Passo 1: Come funziona l'indicizzazione

Quando inserisci un documento nella cartella della documentazione personalizzata, T-IA Connect lo elabora attraverso una pipeline di indicizzazione completa:

Architecture

// Pipeline

1. Analisi del documento - estrazione del testo da PDF/DOCX/TXT/HTML/MD

2. Chunking - suddivisione in segmenti sovrapposti (~500 token ciascuno)

3. Tokenizzazione - divisione delle parole, rimozione delle stop word, stemming

4. Indice BM25 - ogni chunk viene valutato e memorizzato per il recupero istantaneo

// Supported: PDF, DOCX, TXT, HTML, Markdown

Passo 2: BM25 - Come il motore di ricerca classifica i risultati

BM25 (Best Matching 25) è una funzione di classificazione usata dai motori di ricerca dagli anni '90. A differenza di una semplice ricerca "contiene", calcola un punteggio di rilevanza per ogni chunk di testo basato sull'analisi statistica.

L'algoritmo considera tre fattori chiave:

TF - Term Frequency

Una parola che appare più spesso in un chunk lo rende più rilevante - ma con rendimenti decrescenti. 10 occorrenze non sono 10 volte meglio di 1.

IDF - Inverse Doc Frequency

Le parole rare nell'intero corpus ottengono punteggi più alti. "HAS" vale più di "il" o "e".

Lunghezza del documento

Una corrispondenza in un chunk breve ottiene un punteggio più alto della stessa corrispondenza in uno lungo. Questo impedisce ai documenti lunghi di dominare i risultati.

BM25 Parameters

k1 = 1.2 // Saturazione della frequenza dei termini (più alto = più peso alla frequenza)

b = 0.75 // Peso della normalizzazione per lunghezza (0 = ignora lunghezza, 1 = normalizzazione completa)

Passo 3: Oltre BM25 - Intelligenza extra

Oltre al nucleo BM25, T-IA Connect aggiunge diversi miglioramenti per aumentare la qualità della ricerca:

🛑

Filtraggio delle stop word

~150 parole comuni in inglese, francese e tedesco ("the", "le", "de", "und"...) vengono ignorate automaticamente in modo che la ricerca si concentri sui termini significativi.

🔤

Stemming di base

Le varianti di una parola vengono abbinate insieme. Cercare "alimentazione" troverà anche "alimentato" e "alimentare", aumentando il richiamo senza perdere precisione.

📍

Boost per prossimità

Quando i termini di ricerca appaiono vicini nel testo, il punteggio di rilevanza viene raddoppiato (×2). Questo premia le corrispondenze esatte di frasi e i concetti adiacenti.

Passo 4: Esempio dal mondo reale

Immagina di aver indicizzato la documentazione di un inverter di frequenza SEW MOVITRAC LTP-B (350 pagine). Cerchi:

Esempio di ricerca

// User query:

"MOVITRAC LTP-B parametro frequenza massima di uscita"

// BM25 result:

✓ Capitolo 8.3 - Parametro P100: Frequenza di uscita massima [punteggio: 12.4]

✓ Capitolo 5.1 - Gamma di frequenza e impostazioni motore [punteggio: 8.7]

✓ Capitolo 12 - Tabella di riferimento parametri [punteggio: 6.2]

Basato su IA: fai domande in linguaggio naturale

Combinata con l'IA Copilot, la ricerca BM25 diventa ancora più potente. Invece di cercare parole chiave, puoi fare domande come "Qual è la lunghezza massima del cavo per il MOVITRAC LTP-B?" - l'IA recupera i chunk più rilevanti via BM25, li legge e ti dà una risposta precisa con il riferimento alla fonte. Questo si chiama RAG (Retrieval-Augmented Generation).

La tua documentazione, ricercabile istantaneamente

Smetti di perdere tempo a scorrere i PDF. Importa i tuoi documenti, lascia che BM25 li indicizzi e trova qualsiasi informazione in pochi secondi - tramite ricerca per parole chiave o query in linguaggio naturale assistite dall'IA.