Deja de desplazarte por PDFs de 500 páginas
Cuando configuras un variador SEW, un VFD de Siemens o integras un dispositivo de terceros, a menudo necesitas encontrar un parámetro específico enterrado en cientos de páginas de documentación. El enfoque tradicional — abrir el PDF, Ctrl+F, desplazarse — es lento e impreciso.
T-IA Connect proporciona una carpeta dedicada donde puedes depositar tus documentos técnicos. El software los indexa automáticamente usando BM25 (Best Matching 25), el mismo algoritmo de clasificación de texto completo utilizado por motores de búsqueda como Google y herramientas como Elasticsearch. Luego puedes buscar en todos tus documentos y obtener resultados clasificados en milisegundos.
Requisitos previos
- Licencia T-IA Connect PRO con Documentación personalizada habilitada
- Documentos técnicos en formato PDF, DOCX, TXT, HTML o Markdown
- Un proyecto abierto en TIA Portal (opcional, para consultas asistidas por IA)
Paso 1: Cómo funciona la indexación
Cuando colocas un documento en la carpeta de documentación personalizada, T-IA Connect lo procesa a través de un pipeline de indexación completo:
// Pipeline
1. Análisis del documento — extracción de texto de PDF/DOCX/TXT/HTML/MD
2. Fragmentación — división en segmentos superpuestos (~500 tokens cada uno)
3. Tokenización — separación de palabras, eliminación de palabras vacías, stemming
4. Índice BM25 — cada fragmento se puntúa y almacena para recuperación instantánea
// Supported: PDF, DOCX, TXT, HTML, Markdown
Paso 2: BM25 — Cómo el motor de búsqueda clasifica los resultados
BM25 (Best Matching 25) es una función de clasificación utilizada por motores de búsqueda desde los años 90. A diferencia de una búsqueda simple "contiene", calcula una puntuación de relevancia para cada fragmento de texto basándose en análisis estadístico.
El algoritmo considera tres factores clave:
TF — Term Frequency
Una palabra que aparece con más frecuencia en un fragmento lo hace más relevante — pero con rendimientos decrecientes. 10 ocurrencias no son 10 veces mejor que 1.
IDF — Inverse Doc Frequency
Las palabras raras en todo el corpus obtienen mayor puntuación. "HAS" vale más que "el" o "y".
Longitud del documento
Una coincidencia en un fragmento corto puntúa más alto que la misma coincidencia en uno largo. Esto evita que los documentos largos dominen los resultados.
k1 = 1.2 // Saturación de frecuencia de términos (mayor = más peso a la frecuencia)
b = 0.75 // Peso de normalización por longitud (0 = ignorar longitud, 1 = normalización completa)
Paso 3: Más allá de BM25 — Inteligencia adicional
Además del núcleo BM25, T-IA Connect añade varias mejoras para aumentar la calidad de búsqueda:
Filtrado de palabras vacías
~150 palabras comunes en inglés, francés y alemán ("the", "le", "de", "und"...) se ignoran automáticamente para que la búsqueda se centre en términos significativos.
Stemming básico
Las variantes de una palabra se agrupan. Buscar "alimentación" también encontrará "alimentado" y "alimentar", aumentando la cobertura sin perder precisión.
Impulso por proximidad
Cuando los términos de búsqueda aparecen juntos en el texto, la puntuación de relevancia se dobla (×2). Esto premia las coincidencias exactas de frases y los conceptos adyacentes.
Paso 4: Ejemplo del mundo real
Imagina que has indexado la documentación de un variador de frecuencia SEW MOVITRAC LTP-B (350 páginas). Buscas:
// User query:
"MOVITRAC LTP-B parámetro de frecuencia máxima de salida"
// BM25 result:
✓ Capítulo 8.3 — Parámetro P100: Frecuencia de salida máx. [puntuación: 12.4]
✓ Capítulo 5.1 — Rango de frecuencia y ajustes del motor [puntuación: 8.7]
✓ Capítulo 12 — Tabla de referencia de parámetros [puntuación: 6.2]
Impulsado por IA: haz preguntas en lenguaje natural
Combinado con el Copiloto de IA, la búsqueda BM25 se vuelve aún más potente. En lugar de buscar palabras clave, puedes hacer preguntas como "¿Cuál es la longitud máxima de cable para el MOVITRAC LTP-B?" — la IA recupera los fragmentos más relevantes vía BM25, los lee y te da una respuesta precisa con la referencia de fuente. Esto se llama RAG (Generación Aumentada por Recuperación).