Tutoriels

Documentation personnalisée : recherche intelligente avec BM25

Importez vos manuels constructeur, fiches techniques et documentations. T-IA Connect indexe tout et vous permet de trouver la bonne information en quelques secondes — propulsé par le même algorithme que Google et Elasticsearch.

T
Équipe T-IA Connect
10 min de lecture
Mis à jour le 25 mars 2026

Fini le scroll dans les PDF de 500 pages

Quand vous configurez un variateur SEW, un VFD Siemens, ou que vous intégrez un équipement tiers, vous avez souvent besoin de trouver un paramètre précis enfoui dans des centaines de pages de documentation. L'approche classique — ouvrir le PDF, Ctrl+F, scroller — est lente et peu fiable.

T-IA Connect met à disposition un dossier dédié où vous pouvez déposer vos documents techniques. Le logiciel les indexe automatiquement avec l'algorithme BM25 (Best Matching 25), le même algorithme de ranking full-text utilisé par les moteurs de recherche comme Google et des outils comme Elasticsearch. Vous pouvez ensuite chercher dans toute votre doc et obtenir des résultats classés par pertinence en quelques millisecondes.

Prérequis

  • Licence T-IA Connect PRO avec l'option Documentation personnalisée activée
  • Documents techniques au format PDF, DOCX, TXT, HTML ou Markdown
  • Un projet ouvert dans TIA Portal (optionnel, pour les requêtes assistées par IA)

Étape 1 : Comment fonctionne l'indexation

Quand vous placez un document dans le dossier de documentation personnalisée, T-IA Connect le traite via un pipeline d'indexation complet :

Architecture

// Pipeline

1. Extraction du texte — parsing de PDF/DOCX/TXT/HTML/MD

2. Découpage — segmentation en chunks avec chevauchement (~500 tokens chacun)

3. Tokenisation — séparation des mots, suppression des mots vides, racinisation

4. Index BM25 — chaque chunk est scoré et stocké pour une récupération instantanée

// Supported: PDF, DOCX, TXT, HTML, Markdown

Étape 2 : BM25 — Comment le moteur de recherche classe les résultats

BM25 (Best Matching 25) est une fonction de ranking utilisée par les moteurs de recherche depuis les années 1990. Contrairement à un simple "contains", il calcule un score de pertinence pour chaque chunk de texte basé sur une analyse statistique.

L'algorithme prend en compte trois facteurs clés :

TF — Term Frequency

Un mot qui apparaît souvent dans un chunk le rend plus pertinent — mais avec des rendements décroissants. 10 occurrences, c'est pas 10× mieux que 1.

IDF — Inverse Doc Frequency

Les mots rares dans l'ensemble du corpus scorent plus haut. "HAS" vaut plus que "le" ou "de".

Longueur du document

Un match dans un chunk court score plus haut que le même match dans un chunk long. Ça évite que les longs documents dominent les résultats.

BM25 Parameters

k1 = 1.2 // Saturation de la fréquence (plus élevé = plus de poids à la fréquence)

b = 0.75 // Poids de la normalisation par longueur (0 = ignorer, 1 = normalisation complète)

Étape 3 : Au-delà de BM25 — Intelligence supplémentaire

En plus du cœur BM25, T-IA Connect ajoute plusieurs améliorations pour optimiser la qualité de recherche :

🛑

Filtrage des mots vides

~150 mots courants en anglais, français et allemand ("the", "le", "de", "und"...) sont automatiquement ignorés pour que la recherche se concentre sur les termes significatifs.

🔤

Racinisation (stemming)

Les variantes d'un mot sont regroupées. Chercher "alimentation" trouvera aussi "alimenté" et "alimenter", augmentant le rappel sans perdre en précision.

📍

Boost de proximité

Quand vos termes de recherche apparaissent proches les uns des autres dans le texte, le score de pertinence est doublé (×2). Ça récompense les correspondances exactes et les concepts adjacents.

Étape 4 : Exemple concret

Imaginons que vous avez indexé la documentation d'un variateur de fréquence SEW MOVITRAC LTP-B (350 pages). Vous cherchez :

Exemple de recherche

// User query:

"MOVITRAC LTP-B fréquence de sortie maximale paramètre"

// BM25 result:

Chapitre 8.3 — Paramètre P100 : Fréquence de sortie max [score : 12.4]

Chapitre 5.1 — Plage de fréquence et réglages moteur [score : 8.7]

Chapitre 12 — Tableau de référence des paramètres [score : 6.2]

IA intégrée : posez vos questions en langage naturel

Combinée au Copilot IA, la recherche BM25 devient encore plus puissante. Au lieu de chercher des mots-clés, vous pouvez poser des questions comme "Quelle est la longueur de câble maximale pour le MOVITRAC LTP-B ?" — l'IA récupère les chunks les plus pertinents via BM25, les lit, et vous donne une réponse précise avec la référence source. C'est ce qu'on appelle le RAG (Retrieval-Augmented Generation).

Votre documentation, instantanément consultable

Arrêtez de perdre du temps à scroller dans les PDF. Importez vos docs, laissez BM25 les indexer, et trouvez n'importe quelle information en quelques secondes — par recherche de mots-clés ou par questions en langage naturel assistées par IA.