Guia: Pesquisa em documentação personalizada com indexação BM25

Pare de rolar PDFs de 500 páginas

Ao configurar um drive SEW, um VFD Siemens ou integrar um dispositivo de terceiros, frequentemente você precisa encontrar um parâmetro específico enterrado em centenas de páginas de documentação. A abordagem tradicional - abrir o PDF, Ctrl+F, rolar - é lenta e pouco confiável.

T-IA Connect fornece uma pasta dedicada onde você pode colocar seus documentos técnicos. O software os indexa automaticamente usando BM25 (Best Matching 25), o mesmo algoritmo de classificação de texto completo usado por motores de busca como o Google e ferramentas como o Elasticsearch. Você pode então pesquisar em todos os seus documentos e obter resultados classificados em milissegundos.

Pré-requisitos

Licença T-IA Connect PRO com Documentação personalizada habilitada
Documentos técnicos em formato PDF, DOCX, TXT, HTML ou Markdown
Um projeto aberto no TIA Portal (opcional, para consultas assistidas por IA)

Passo 1: Como funciona a indexação

Quando você coloca um documento na pasta de documentação personalizada, T-IA Connect o processa por um pipeline de indexação completo:

Architecture

// Pipeline

1. Análise do documento - extração de texto de PDF/DOCX/TXT/HTML/MD

2. Fragmentação - divisão em segmentos sobrepostos (~500 tokens cada)

3. Tokenização - divisão de palavras, remoção de palavras de parada, stemming

4. Índice BM25 - cada fragmento é pontuado e armazenado para recuperação instantânea

// Supported: PDF, DOCX, TXT, HTML, Markdown

Passo 2: BM25 - Como o motor de busca classifica os resultados

BM25 (Best Matching 25) é uma função de classificação usada por motores de busca desde os anos 90. Ao contrário de uma simples pesquisa "contém", calcula uma pontuação de relevância para cada fragmento de texto com base em análise estatística.

O algoritmo considera três fatores-chave:

TF - Term Frequency

Uma palavra que aparece com mais frequência em um fragmento o torna mais relevante - mas com retornos decrescentes. 10 ocorrências não são 10 vezes melhores do que 1.

IDF - Inverse Doc Frequency

Palavras raras em todo o corpus obtêm pontuações mais altas. "HAS" vale mais do que "o" ou "e".

Comprimento do documento

Uma correspondência em um fragmento curto pontua mais alto do que a mesma correspondência em um longo. Isso impede que documentos longos dominem os resultados.

BM25 Parameters

k1 = 1.2 // Saturação de frequência de termos (maior = mais peso à frequência)

b = 0.75 // Peso da normalização por comprimento (0 = ignorar comprimento, 1 = normalização completa)

Passo 3: Além do BM25 - Inteligência extra

Além do núcleo BM25, T-IA Connect adiciona várias melhorias para aumentar a qualidade da pesquisa:

🛑

Filtragem de palavras de parada

~150 palavras comuns em inglês, francês e alemão ("the", "le", "de", "und"...) são automaticamente ignoradas para que a pesquisa se concentre em termos significativos.

🔤

Stemming básico

Variantes de palavras são combinadas juntas. Pesquisar por "alimentação" também encontrará "alimentado" e "alimentar", aumentando a cobertura sem perder precisão.

📍

Boost por proximidade

Quando seus termos de pesquisa aparecem próximos uns dos outros no texto, a pontuação de relevância é dobrada (×2). Isso recompensa correspondências exatas de frases e conceitos adjacentes.

Passo 4: Exemplo do mundo real

Imagine que você indexou a documentação de um inversor de frequência SEW MOVITRAC LTP-B (350 páginas). Você pesquisa por:

Exemplo de pesquisa

// User query:

"MOVITRAC LTP-B parâmetro de frequência máxima de saída"

// BM25 result:

✓ Capítulo 8.3 - Parâmetro P100: Frequência máxima de saída [pontuação: 12.4]

✓ Capítulo 5.1 - Faixa de frequência e configurações do motor [pontuação: 8.7]

✓ Capítulo 12 - Tabela de referência de parâmetros [pontuação: 6.2]

Com tecnologia de IA: faça perguntas em linguagem natural

Combinada ao Copiloto de IA, a pesquisa BM25 se torna ainda mais poderosa. Em vez de pesquisar palavras-chave, você pode fazer perguntas como "Qual é o comprimento máximo de cabo para o MOVITRAC LTP-B?" - a IA recupera os fragmentos mais relevantes via BM25, os lê e fornece uma resposta precisa com a referência da fonte. Isso é chamado de RAG (Retrieval-Augmented Generation).

Sua documentação, pesquisável instantaneamente

Pare de perder tempo rolando PDFs. Importe seus documentos, deixe o BM25 indexá-los e encontre qualquer informação em segundos - seja por pesquisa de palavras-chave ou consultas em linguagem natural assistidas por IA.