500 पेज की PDFs को स्क्रॉल करना बंद करें
जब आप SEW ड्राइव, Siemens VFD कॉन्फ़िगर कर रहे हों या किसी थर्ड-पार्टी डिवाइस को इंटीग्रेट कर रहे हों, तो अक्सर आपको दस्तावेज़ों के सैकड़ों पेज में दबे एक विशेष पैरामीटर को खोजना होता है। पारंपरिक तरीका — PDF खोलें, Ctrl+F, स्क्रॉल करें — धीमा और अविश्वसनीय है।
T-IA Connect एक समर्पित फ़ोल्डर प्रदान करता है जहाँ आप अपने तकनीकी दस्तावेज़ रख सकते हैं। सॉफ़्टवेयर स्वचालित रूप से BM25 (Best Matching 25) का उपयोग करके उन्हें इंडेक्स करता है, जो Google जैसे सर्च इंजन और Elasticsearch जैसे टूल द्वारा उपयोग किया जाने वाला वही फुल-टेक्स्ट रैंकिंग एल्गोरिदम है। फिर आप अपने सभी दस्तावेज़ों में खोज कर सकते हैं और मिलीसेकंड में रैंक किए गए परिणाम पा सकते हैं।
पूर्वापेक्षाएं
- कस्टम डॉक्स सक्षम के साथ T-IA Connect PRO लाइसेंस
- PDF, DOCX, TXT, HTML या Markdown प्रारूप में तकनीकी दस्तावेज़
- TIA Portal में एक खुला प्रोजेक्ट (वैकल्पिक, AI-सहायता प्राप्त क्वेरी के लिए)
चरण 1: इंडेक्सिंग कैसे काम करती है
जब आप कस्टम डॉक्स फ़ोल्डर में एक दस्तावेज़ रखते हैं, T-IA Connect इसे एक पूर्ण इंडेक्सिंग पाइपलाइन के माध्यम से प्रोसेस करता है:
// Pipeline
1. दस्तावेज़ पार्सिंग — PDF/DOCX/TXT/HTML/MD से टेक्स्ट निष्कर्षण
2. चंकिंग — ओवरलैपिंग सेगमेंट में विभाजन (~500 टोकन प्रत्येक)
3. टोकनाइज़ेशन — शब्द विभाजन, स्टॉप वर्ड हटाना, स्टेमिंग
4. BM25 इंडेक्स — प्रत्येक चंक को स्कोर किया और तुरंत पुनःप्राप्ति के लिए संग्रहीत किया जाता है
// Supported: PDF, DOCX, TXT, HTML, Markdown
चरण 2: BM25 — सर्च इंजन परिणामों को कैसे रैंक करता है
BM25 (Best Matching 25) 1990 के दशक से सर्च इंजन द्वारा उपयोग की जाने वाली एक रैंकिंग फ़ंक्शन है। एक साधारण "contains" खोज के विपरीत, यह सांख्यिकीय विश्लेषण के आधार पर प्रत्येक टेक्स्ट चंक के लिए प्रासंगिकता स्कोर की गणना करता है।
एल्गोरिदम तीन प्रमुख कारकों पर विचार करता है:
TF — Term Frequency
एक शब्द जो एक चंक में अधिक बार प्रकट होता है उसे अधिक प्रासंगिक बनाता है — लेकिन घटते रिटर्न के साथ। 10 उपस्थिति 1 से 10 गुना बेहतर नहीं है।
IDF — Inverse Doc Frequency
पूरे कॉर्पस में दुर्लभ शब्द अधिक स्कोर करते हैं। "HAS" "the" या "and" से अधिक मूल्यवान है।
दस्तावेज़ की लंबाई
एक छोटे चंक में मेल एक लंबे में समान मेल से अधिक स्कोर करता है। यह लंबे दस्तावेज़ों को परिणामों पर हावी होने से रोकता है।
k1 = 1.2 // टर्म फ्रीक्वेंसी संतृप्ति (अधिक = फ्रीक्वेंसी को अधिक वज़न)
b = 0.75 // लंबाई सामान्यीकरण वज़न (0 = लंबाई अनदेखा करें, 1 = पूर्ण सामान्यीकरण)
चरण 3: BM25 से परे — अतिरिक्त बुद्धिमत्ता
BM25 कोर के ऊपर, T-IA Connect खोज गुणवत्ता सुधारने के लिए कई एन्हांसमेंट जोड़ता है:
स्टॉप वर्ड फ़िल्टरिंग
अंग्रेज़ी, फ्रेंच और जर्मन में ~150 सामान्य शब्द ("the", "le", "de", "und"...) स्वचालित रूप से अनदेखे जाते हैं ताकि खोज सार्थक शब्दों पर केंद्रित रहे।
बेसिक स्टेमिंग
शब्द के रूपांतर एक साथ मिलाए जाते हैं। "alimentation" खोजने से "alimenté" और "alimenter" भी मिलेंगे, बिना सटीकता खोए रिकॉल बढ़ाना।
प्रॉक्सिमिटी बूस्ट
जब आपके खोज शब्द टेक्स्ट में एक-दूसरे के पास दिखाई देते हैं, तो प्रासंगिकता स्कोर दोगुना (×2) हो जाता है। यह सटीक वाक्यांश मेल और आसन्न अवधारणाओं को पुरस्कृत करता है।
चरण 4: वास्तविक दुनिया का उदाहरण
कल्पना करें कि आपने SEW MOVITRAC LTP-B फ्रीक्वेंसी इन्वर्टर (350 पेज) का दस्तावेज़ इंडेक्स किया है। आप खोजते हैं:
// User query:
"MOVITRAC LTP-B अधिकतम आउटपुट फ्रीक्वेंसी पैरामीटर"
// BM25 result:
✓ अध्याय 8.3 — पैरामीटर P100: अधिकतम आउटपुट फ्रीक्वेंसी [स्कोर: 12.4]
✓ अध्याय 5.1 — फ्रीक्वेंसी रेंज और मोटर सेटिंग्स [स्कोर: 8.7]
✓ अध्याय 12 — पैरामीटर संदर्भ तालिका [स्कोर: 6.2]
AI-संचालित: प्राकृतिक भाषा में प्रश्न पूछें
AI कोपायलट के साथ मिलाने पर BM25 खोज और अधिक शक्तिशाली हो जाती है। कीवर्ड खोजने के बजाय, आप "MOVITRAC LTP-B के लिए अधिकतम केबल लंबाई क्या है?" जैसे प्रश्न पूछ सकते हैं — AI BM25 के माध्यम से सबसे प्रासंगिक चंक पुनः प्राप्त करता है, उन्हें पढ़ता है और आपको स्रोत संदर्भ के साथ सटीक उत्तर देता है। इसे RAG (Retrieval-Augmented Generation) कहा जाता है।