دليل: البحث في الوثائق المخصصة بفهرسة BM25

توقف عن التمرير في ملفات PDF من 500 صفحة

عند تهيئة محرك SEW أو VFD من Siemens أو دمج جهاز طرف ثالث، غالبًا ما تحتاج إلى إيجاد معامل محدد مدفون في مئات صفحات الوثائق. النهج التقليدي - فتح الـ PDF، Ctrl+F، التمرير - بطيء وغير موثوق.

يوفر T-IA Connect مجلدًا مخصصًا يمكنك فيه وضع وثائقك التقنية. يقوم البرنامج تلقائيًا بفهرستها باستخدام BM25 (أفضل مطابقة 25)، نفس خوارزمية ترتيب النصوص الكاملة المستخدمة في محركات البحث مثل Google وأدوات مثل Elasticsearch. يمكنك بعدها البحث في جميع وثائقك والحصول على نتائج مرتبة في أجزاء من الثانية.

المتطلبات المسبقة

ترخيص T-IA Connect PRO مع تفعيل الوثائق المخصصة
وثائق تقنية بصيغة PDF أو DOCX أو TXT أو HTML أو Markdown
مشروع مفتوح في TIA Portal (اختياري، للاستعلامات بمساعدة الذكاء الاصطناعي)

الخطوة 1: كيف تعمل الفهرسة

عند وضع مستند في مجلد الوثائق المخصصة، يعالجه T-IA Connect عبر خط أنابيب فهرسة كامل:

Architecture

// Pipeline

1. تحليل الوثيقة - استخراج النص من PDF/DOCX/TXT/HTML/MD

2. التقسيم - تقسيم إلى مقاطع متداخلة (~500 رمز لكل منها)

3. الترميز - تقسيم الكلمات، إزالة كلمات التوقف، الاشتقاق

4. فهرس BM25 - يُسجَّل كل مقطع ويُخزن للاسترجاع الفوري

// Supported: PDF, DOCX, TXT, HTML, Markdown

الخطوة 2: BM25 - كيف يرتب محرك البحث النتائج

BM25 (أفضل مطابقة 25) هي دالة ترتيب تستخدمها محركات البحث منذ التسعينيات. على عكس البحث البسيط بـ "يحتوي على"، تحسب درجة صلة لكل مقطع نصي بناءً على التحليل الإحصائي.

تأخذ الخوارزمية بعين الاعتبار ثلاثة عوامل رئيسية:

TF - Term Frequency

كلمة تظهر أكثر في مقطع تجعله أكثر صلة - لكن مع تناقص العوائد. 10 مرات ظهور ليست أفضل بـ 10 مرات من مرة واحدة.

IDF - Inverse Doc Frequency

الكلمات النادرة في كامل المجموعة تحصل على درجات أعلى. كلمة "HAS" تستحق أكثر من "the" أو "and".

طول الوثيقة

تطابق في مقطع قصير يحصل على درجة أعلى من نفس التطابق في مقطع طويل. هذا يمنع الوثائق الطويلة من هيمنة النتائج.

BM25 Parameters

k1 = 1.2 // تشبع تكرار المصطلح (أعلى = وزن أكبر للتكرار)

b = 0.75 // وزن التطبيع حسب الطول (0 = تجاهل الطول، 1 = تطبيع كامل)

الخطوة 3: ما وراء BM25 - ذكاء إضافي

فوق نواة BM25، يضيف T-IA Connect عدة تحسينات لرفع جودة البحث:

🛑

تصفية كلمات التوقف

يتم تجاهل ~150 كلمة شائعة باللغات الإنجليزية والفرنسية والألمانية ("the"، "le"، "de"، "und"...) تلقائيًا حتى يركز البحث على المصطلحات ذات المعنى.

🔤

الاشتقاق الأساسي

تُجمع أشكال الكلمة المختلفة معًا. البحث عن "alimentation" سيجد أيضًا "alimenté" و"alimenter"، مما يزيد الاستدعاء دون فقدان الدقة.

📍

تعزيز القرب

عند ظهور مصطلحات البحث بالقرب من بعضها في النص، تتضاعف درجة الصلة (×2). هذا يكافئ التطابقات الدقيقة للعبارات والمفاهيم المتجاورة.

الخطوة 4: مثال من الواقع

تخيل أنك فهرست وثائق محول تردد SEW MOVITRAC LTP-B (350 صفحة). تبحث عن:

مثال بحث

// User query:

"MOVITRAC LTP-B معامل أقصى تردد للخرج"

// BM25 result:

✓ الفصل 8.3 - المعامل P100: أقصى تردد خرج [النتيجة: 12.4]

✓ الفصل 5.1 - نطاق التردد وإعدادات المحرك [النتيجة: 8.7]

✓ الفصل 12 - جدول مرجعي للمعاملات [النتيجة: 6.2]

مدعوم بالذكاء الاصطناعي: اطرح أسئلة بلغة طبيعية

عند الجمع مع مساعد الذكاء الاصطناعي، يصبح البحث BM25 أكثر قوة. بدلًا من البحث عن كلمات مفتاحية، يمكنك طرح أسئلة مثل "ما الحد الأقصى لطول الكابل لـ MOVITRAC LTP-B؟" - يسترجع الذكاء الاصطناعي المقاطع الأكثر صلة عبر BM25 ويقرأها ويعطيك إجابة دقيقة مع مرجع المصدر. يُسمى هذا RAG (التوليد المعزز بالاسترجاع).

وثائقك، قابلة للبحث فورًا

توقف عن إضاعة الوقت في التمرير في ملفات PDF. استورد وثائقك، دع BM25 يفهرسها، وابحث عن أي معلومة في ثوانٍ - سواء من خلال البحث بالكلمات المفتاحية أو الاستعلامات بالذكاء الاصطناعي بلغة طبيعية.