Pare de rolar PDFs de 500 páginas
Ao configurar um drive SEW, um VFD Siemens ou integrar um dispositivo de terceiros, frequentemente você precisa encontrar um parâmetro específico enterrado em centenas de páginas de documentação. A abordagem tradicional — abrir o PDF, Ctrl+F, rolar — é lenta e pouco confiável.
T-IA Connect fornece uma pasta dedicada onde você pode colocar seus documentos técnicos. O software os indexa automaticamente usando BM25 (Best Matching 25), o mesmo algoritmo de classificação de texto completo usado por motores de busca como o Google e ferramentas como o Elasticsearch. Você pode então pesquisar em todos os seus documentos e obter resultados classificados em milissegundos.
Pré-requisitos
- Licença T-IA Connect PRO com Documentação personalizada habilitada
- Documentos técnicos em formato PDF, DOCX, TXT, HTML ou Markdown
- Um projeto aberto no TIA Portal (opcional, para consultas assistidas por IA)
Passo 1: Como funciona a indexação
Quando você coloca um documento na pasta de documentação personalizada, T-IA Connect o processa por um pipeline de indexação completo:
// Pipeline
1. Análise do documento — extração de texto de PDF/DOCX/TXT/HTML/MD
2. Fragmentação — divisão em segmentos sobrepostos (~500 tokens cada)
3. Tokenização — divisão de palavras, remoção de palavras de parada, stemming
4. Índice BM25 — cada fragmento é pontuado e armazenado para recuperação instantânea
// Supported: PDF, DOCX, TXT, HTML, Markdown
Passo 2: BM25 — Como o motor de busca classifica os resultados
BM25 (Best Matching 25) é uma função de classificação usada por motores de busca desde os anos 90. Ao contrário de uma simples pesquisa "contém", calcula uma pontuação de relevância para cada fragmento de texto com base em análise estatística.
O algoritmo considera três fatores-chave:
TF — Term Frequency
Uma palavra que aparece com mais frequência em um fragmento o torna mais relevante — mas com retornos decrescentes. 10 ocorrências não são 10 vezes melhores do que 1.
IDF — Inverse Doc Frequency
Palavras raras em todo o corpus obtêm pontuações mais altas. "HAS" vale mais do que "o" ou "e".
Comprimento do documento
Uma correspondência em um fragmento curto pontua mais alto do que a mesma correspondência em um longo. Isso impede que documentos longos dominem os resultados.
k1 = 1.2 // Saturação de frequência de termos (maior = mais peso à frequência)
b = 0.75 // Peso da normalização por comprimento (0 = ignorar comprimento, 1 = normalização completa)
Passo 3: Além do BM25 — Inteligência extra
Além do núcleo BM25, T-IA Connect adiciona várias melhorias para aumentar a qualidade da pesquisa:
Filtragem de palavras de parada
~150 palavras comuns em inglês, francês e alemão ("the", "le", "de", "und"...) são automaticamente ignoradas para que a pesquisa se concentre em termos significativos.
Stemming básico
Variantes de palavras são combinadas juntas. Pesquisar por "alimentação" também encontrará "alimentado" e "alimentar", aumentando a cobertura sem perder precisão.
Boost por proximidade
Quando seus termos de pesquisa aparecem próximos uns dos outros no texto, a pontuação de relevância é dobrada (×2). Isso recompensa correspondências exatas de frases e conceitos adjacentes.
Passo 4: Exemplo do mundo real
Imagine que você indexou a documentação de um inversor de frequência SEW MOVITRAC LTP-B (350 páginas). Você pesquisa por:
// User query:
"MOVITRAC LTP-B parâmetro de frequência máxima de saída"
// BM25 result:
✓ Capítulo 8.3 — Parâmetro P100: Frequência máxima de saída [pontuação: 12.4]
✓ Capítulo 5.1 — Faixa de frequência e configurações do motor [pontuação: 8.7]
✓ Capítulo 12 — Tabela de referência de parâmetros [pontuação: 6.2]
Com tecnologia de IA: faça perguntas em linguagem natural
Combinada ao Copiloto de IA, a pesquisa BM25 se torna ainda mais poderosa. Em vez de pesquisar palavras-chave, você pode fazer perguntas como "Qual é o comprimento máximo de cabo para o MOVITRAC LTP-B?" — a IA recupera os fragmentos mais relevantes via BM25, os lê e fornece uma resposta precisa com a referência da fonte. Isso é chamado de RAG (Retrieval-Augmented Generation).