गाइड: BM25 इंडेक्सिंग के साथ कस्टम डॉक्युमेंटेशन खोज

500 पेज की PDFs को स्क्रॉल करना बंद करें

जब आप SEW ड्राइव, Siemens VFD कॉन्फ़िगर कर रहे हों या किसी थर्ड-पार्टी डिवाइस को इंटीग्रेट कर रहे हों, तो अक्सर आपको दस्तावेज़ों के सैकड़ों पेज में दबे एक विशेष पैरामीटर को खोजना होता है। पारंपरिक तरीका - PDF खोलें, Ctrl+F, स्क्रॉल करें - धीमा और अविश्वसनीय है।

T-IA Connect एक समर्पित फ़ोल्डर प्रदान करता है जहाँ आप अपने तकनीकी दस्तावेज़ रख सकते हैं। सॉफ़्टवेयर स्वचालित रूप से BM25 (Best Matching 25) का उपयोग करके उन्हें इंडेक्स करता है, जो Google जैसे सर्च इंजन और Elasticsearch जैसे टूल द्वारा उपयोग किया जाने वाला वही फुल-टेक्स्ट रैंकिंग एल्गोरिदम है। फिर आप अपने सभी दस्तावेज़ों में खोज कर सकते हैं और मिलीसेकंड में रैंक किए गए परिणाम पा सकते हैं।

पूर्वापेक्षाएं

कस्टम डॉक्स सक्षम के साथ T-IA Connect PRO लाइसेंस
PDF, DOCX, TXT, HTML या Markdown प्रारूप में तकनीकी दस्तावेज़
TIA Portal में एक खुला प्रोजेक्ट (वैकल्पिक, AI-सहायता प्राप्त क्वेरी के लिए)

चरण 1: इंडेक्सिंग कैसे काम करती है

जब आप कस्टम डॉक्स फ़ोल्डर में एक दस्तावेज़ रखते हैं, T-IA Connect इसे एक पूर्ण इंडेक्सिंग पाइपलाइन के माध्यम से प्रोसेस करता है:

Architecture

// Pipeline

1. दस्तावेज़ पार्सिंग - PDF/DOCX/TXT/HTML/MD से टेक्स्ट निष्कर्षण

2. चंकिंग - ओवरलैपिंग सेगमेंट में विभाजन (~500 टोकन प्रत्येक)

3. टोकनाइज़ेशन - शब्द विभाजन, स्टॉप वर्ड हटाना, स्टेमिंग

4. BM25 इंडेक्स - प्रत्येक चंक को स्कोर किया और तुरंत पुनःप्राप्ति के लिए संग्रहीत किया जाता है

// Supported: PDF, DOCX, TXT, HTML, Markdown

चरण 2: BM25 - सर्च इंजन परिणामों को कैसे रैंक करता है

BM25 (Best Matching 25) 1990 के दशक से सर्च इंजन द्वारा उपयोग की जाने वाली एक रैंकिंग फ़ंक्शन है। एक साधारण "contains" खोज के विपरीत, यह सांख्यिकीय विश्लेषण के आधार पर प्रत्येक टेक्स्ट चंक के लिए प्रासंगिकता स्कोर की गणना करता है।

एल्गोरिदम तीन प्रमुख कारकों पर विचार करता है:

TF - Term Frequency

एक शब्द जो एक चंक में अधिक बार प्रकट होता है उसे अधिक प्रासंगिक बनाता है - लेकिन घटते रिटर्न के साथ। 10 उपस्थिति 1 से 10 गुना बेहतर नहीं है।

IDF - Inverse Doc Frequency

पूरे कॉर्पस में दुर्लभ शब्द अधिक स्कोर करते हैं। "HAS" "the" या "and" से अधिक मूल्यवान है।

दस्तावेज़ की लंबाई

एक छोटे चंक में मेल एक लंबे में समान मेल से अधिक स्कोर करता है। यह लंबे दस्तावेज़ों को परिणामों पर हावी होने से रोकता है।

BM25 Parameters

k1 = 1.2 // टर्म फ्रीक्वेंसी संतृप्ति (अधिक = फ्रीक्वेंसी को अधिक वज़न)

b = 0.75 // लंबाई सामान्यीकरण वज़न (0 = लंबाई अनदेखा करें, 1 = पूर्ण सामान्यीकरण)

चरण 3: BM25 से परे - अतिरिक्त बुद्धिमत्ता

BM25 कोर के ऊपर, T-IA Connect खोज गुणवत्ता सुधारने के लिए कई एन्हांसमेंट जोड़ता है:

🛑

स्टॉप वर्ड फ़िल्टरिंग

अंग्रेज़ी, फ्रेंच और जर्मन में ~150 सामान्य शब्द ("the", "le", "de", "und"...) स्वचालित रूप से अनदेखे जाते हैं ताकि खोज सार्थक शब्दों पर केंद्रित रहे।

🔤

बेसिक स्टेमिंग

शब्द के रूपांतर एक साथ मिलाए जाते हैं। "alimentation" खोजने से "alimenté" और "alimenter" भी मिलेंगे, बिना सटीकता खोए रिकॉल बढ़ाना।

📍

प्रॉक्सिमिटी बूस्ट

जब आपके खोज शब्द टेक्स्ट में एक-दूसरे के पास दिखाई देते हैं, तो प्रासंगिकता स्कोर दोगुना (×2) हो जाता है। यह सटीक वाक्यांश मेल और आसन्न अवधारणाओं को पुरस्कृत करता है।

चरण 4: वास्तविक दुनिया का उदाहरण

कल्पना करें कि आपने SEW MOVITRAC LTP-B फ्रीक्वेंसी इन्वर्टर (350 पेज) का दस्तावेज़ इंडेक्स किया है। आप खोजते हैं:

खोज उदाहरण

// User query:

"MOVITRAC LTP-B अधिकतम आउटपुट फ्रीक्वेंसी पैरामीटर"

// BM25 result:

✓ अध्याय 8.3 - पैरामीटर P100: अधिकतम आउटपुट फ्रीक्वेंसी [स्कोर: 12.4]

✓ अध्याय 5.1 - फ्रीक्वेंसी रेंज और मोटर सेटिंग्स [स्कोर: 8.7]

✓ अध्याय 12 - पैरामीटर संदर्भ तालिका [स्कोर: 6.2]

AI-संचालित: प्राकृतिक भाषा में प्रश्न पूछें

AI कोपायलट के साथ मिलाने पर BM25 खोज और अधिक शक्तिशाली हो जाती है। कीवर्ड खोजने के बजाय, आप "MOVITRAC LTP-B के लिए अधिकतम केबल लंबाई क्या है?" जैसे प्रश्न पूछ सकते हैं - AI BM25 के माध्यम से सबसे प्रासंगिक चंक पुनः प्राप्त करता है, उन्हें पढ़ता है और आपको स्रोत संदर्भ के साथ सटीक उत्तर देता है। इसे RAG (Retrieval-Augmented Generation) कहा जाता है।

आपका दस्तावेज़ीकरण, तुरंत खोजने योग्य

PDFs में स्क्रॉल करने में समय बर्बाद करना बंद करें। अपने दस्तावेज़ आयात करें, BM25 को उन्हें इंडेक्स करने दें, और सेकंडों में कोई भी जानकारी खोजें - चाहे कीवर्ड खोज के माध्यम से या AI-सहायता प्राप्त प्राकृतिक भाषा क्वेरी के माध्यम से।