Tutorial

Documentazione personalizzata: ricerca intelligente con BM25

Importa i tuoi manuali del produttore, le schede tecniche e i documenti tecnici. T-IA Connect indicizza tutto e ti permette di trovare le informazioni giuste in pochi secondi — alimentato dallo stesso algoritmo usato da Google ed Elasticsearch.

T
Team T-IA Connect
Lettura 10 min
Aggiornato il 25 mar. 2026

Smetti di scorrere PDF da 500 pagine

Quando configuri un inverter SEW, un VFD Siemens o integri un dispositivo di terze parti, spesso devi trovare un parametro specifico sepolto in centinaia di pagine di documentazione. L'approccio tradizionale — aprire il PDF, Ctrl+F, scorrere — è lento e inaffidabile.

T-IA Connect fornisce una cartella dedicata dove puoi inserire i tuoi documenti tecnici. Il software li indicizza automaticamente usando BM25 (Best Matching 25), lo stesso algoritmo di ranking full-text usato da motori di ricerca come Google e strumenti come Elasticsearch. Puoi poi cercare in tutti i tuoi documenti e ottenere risultati classificati in millisecondi.

Prerequisiti

  • Licenza T-IA Connect PRO con Documentazione personalizzata abilitata
  • Documenti tecnici in formato PDF, DOCX, TXT, HTML o Markdown
  • Un progetto aperto in TIA Portal (opzionale, per query assistite dall'IA)

Passo 1: Come funziona l'indicizzazione

Quando inserisci un documento nella cartella della documentazione personalizzata, T-IA Connect lo elabora attraverso una pipeline di indicizzazione completa:

Architecture

// Pipeline

1. Analisi del documento — estrazione del testo da PDF/DOCX/TXT/HTML/MD

2. Chunking — suddivisione in segmenti sovrapposti (~500 token ciascuno)

3. Tokenizzazione — divisione delle parole, rimozione delle stop word, stemming

4. Indice BM25 — ogni chunk viene valutato e memorizzato per il recupero istantaneo

// Supported: PDF, DOCX, TXT, HTML, Markdown

Passo 2: BM25 — Come il motore di ricerca classifica i risultati

BM25 (Best Matching 25) è una funzione di classificazione usata dai motori di ricerca dagli anni '90. A differenza di una semplice ricerca "contiene", calcola un punteggio di rilevanza per ogni chunk di testo basato sull'analisi statistica.

L'algoritmo considera tre fattori chiave:

TF — Term Frequency

Una parola che appare più spesso in un chunk lo rende più rilevante — ma con rendimenti decrescenti. 10 occorrenze non sono 10 volte meglio di 1.

IDF — Inverse Doc Frequency

Le parole rare nell'intero corpus ottengono punteggi più alti. "HAS" vale più di "il" o "e".

Lunghezza del documento

Una corrispondenza in un chunk breve ottiene un punteggio più alto della stessa corrispondenza in uno lungo. Questo impedisce ai documenti lunghi di dominare i risultati.

BM25 Parameters

k1 = 1.2 // Saturazione della frequenza dei termini (più alto = più peso alla frequenza)

b = 0.75 // Peso della normalizzazione per lunghezza (0 = ignora lunghezza, 1 = normalizzazione completa)

Passo 3: Oltre BM25 — Intelligenza extra

Oltre al nucleo BM25, T-IA Connect aggiunge diversi miglioramenti per aumentare la qualità della ricerca:

🛑

Filtraggio delle stop word

~150 parole comuni in inglese, francese e tedesco ("the", "le", "de", "und"...) vengono ignorate automaticamente in modo che la ricerca si concentri sui termini significativi.

🔤

Stemming di base

Le varianti di una parola vengono abbinate insieme. Cercare "alimentazione" troverà anche "alimentato" e "alimentare", aumentando il richiamo senza perdere precisione.

📍

Boost per prossimità

Quando i termini di ricerca appaiono vicini nel testo, il punteggio di rilevanza viene raddoppiato (×2). Questo premia le corrispondenze esatte di frasi e i concetti adiacenti.

Passo 4: Esempio dal mondo reale

Immagina di aver indicizzato la documentazione di un inverter di frequenza SEW MOVITRAC LTP-B (350 pagine). Cerchi:

Esempio di ricerca

// User query:

"MOVITRAC LTP-B parametro frequenza massima di uscita"

// BM25 result:

Capitolo 8.3 — Parametro P100: Frequenza di uscita massima [punteggio: 12.4]

Capitolo 5.1 — Gamma di frequenza e impostazioni motore [punteggio: 8.7]

Capitolo 12 — Tabella di riferimento parametri [punteggio: 6.2]

Basato su IA: fai domande in linguaggio naturale

Combinata con l'IA Copilot, la ricerca BM25 diventa ancora più potente. Invece di cercare parole chiave, puoi fare domande come "Qual è la lunghezza massima del cavo per il MOVITRAC LTP-B?" — l'IA recupera i chunk più rilevanti via BM25, li legge e ti dà una risposta precisa con il riferimento alla fonte. Questo si chiama RAG (Retrieval-Augmented Generation).

La tua documentazione, ricercabile istantaneamente

Smetti di perdere tempo a scorrere i PDF. Importa i tuoi documenti, lascia che BM25 li indicizzi e trova qualsiasi informazione in pochi secondi — tramite ricerca per parole chiave o query in linguaggio naturale assistite dall'IA.