استرجاع المعلومات

استرجاع المعلومات Information retrieval هو علم البحث عن الوثائق وعن المعلومات داخل الوثائق وعن المعطيات المترفعة (metadata) التي تصف الوثائق، بالاضافة الى البحث في قواعد البيانات وشبكة الانترنت. هناك لغط شائع بين كل من استرجاع البيانات واسترجاع الوثائق واسترجاع المعلومات واسترجاع النصوص، ولكن لكل منها كيانه العلمي الخاص ونظرياته وتقنياته.

إن علم استرجاع المعلومات عبر معرفي interdisciplinary، وهو يعتمد على كل من علم الحاسوب، الرياضيات، علم المكتبات، علم المعلومات، بنيان المعلومات information architecture، وعلم النفس الاستعرافي، واللسانيات، والإحصاء.


. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

نظم استرجاع المعلومات

ٍٍ

نظم استرجاع المعلومات هي النظم التي تسمح بتخزين مجموعة من الوثائق وإدارتها ومعالجتها، وذلك بطريقة تسمح للمستخدم باسترجاع تلك الوثائق التي يتوافق محتواها مع حاجته من المعلومات. تستخدم نظم استرجاع المعلومات لتخفيض حمل المعلومات الزائد، حيث يستخدم العديد من الجامعات والمكتبات العامة هذه النظم لتأمين الوصول إلى الكتب والمجلات والوثائق الأخرى.


الإطار العام لنظم استرجاع المعلومات

الإطار العام لنظم استرجاع المعلومات يتألف من ثلاث مراحل:

  1. استخلاص محتوى الوثائق وتوليد تمثيل لها.
  2. استخلاص محتوى الاستعلام وتوليد تمثيل له (معالجة الاستعلام).
  3. مقارنة تمثيل الوثائق مع تمثيل الاستعلام للحصول على الوثائق التي تطابق الاستعلام جزئياً، ثم ترتيبها وفقاً لدرجة موائمتها لحاجة المستخدم من المعلومات (عملية المطابقة والترتيب).

يتم إنجاز المرحلة الأولى عادةً قبل قيام المستخدم بطرح استعلامه (offline) بينما يتم إنجاز المرحلتين التاليتين بعد طرح الاستعلام (online).


نماذج استرجاع المعلومات

يوجد العديد من نماذج نظم استرجاع المعلومات، التي تختلف فيما بينها بطريقة تمثيل الوثائق والاستعلامات، وتابعي المطابقة والترتيب. يمكن تصنيف هذه النماذج وفقاً لبعدين:

  1. الأساس الرياضي
  2. خصائص النموذج

البعد الأول : الأساس الرياضي

  1. نماذج نظرية المعلومات: تمثّل هذه النماذج الوثائق كمجموعات. عادةً يُستمدّ التشابه من تطبيق عمليات المجموعات على هذه الوثائق. من النماذج الشائعة فيها:
  1. النماذج الجبرية: تمثل هذه النماذج الوثائق والاستعلامات كأشعةأو مصفوفات أو حدوديات. يتم تحويل هذه الأشعة أو المصفوفات أو الحدوديات باستخدام عدد محدود من العمليات الجبرية إلى قياس تشابه وحيد البعد. ومن النماذج الشائعة فيها:
  1. النماذج الاحتمالية: تعامل هذه النماذج عملية استرجاع الوثائق كتجربة عشوائية متعددة المراحل. ويتم تمثيل التشابه باحتمالات. عادة تستخدم النظريات الاحتمالية كنظرية Bayes في هذه النماذج.
  1. النماذج المنطقية : تستخدم المنطق بنوعية الكلاسيكي و غير الكلاسيكي

البعد الثاني: خصائص النموذج

تعامل بعض النماذج الكلمات المفتاحية كما لو أنها مستقلة فيما بينها من الناحية الدلالية، بينما تنظر نماذج أخرى إلى الترابط الدلالي بين هذه الكلمات، وتقوم بتمثيله بطريقة ما. ومن هذا المنظور تصنف نظم استرجاع المعلومات إلى:

  1. نماذج تعتمد استقلالية الكلمات المفتاحية (Models without term-interdependencies). تمثل استقلالية الكلمات المفتاحية في نماذج الفضاء الشعاعي بافتراض التعامد بين أشعة الكلمات المفتاحية (أي الاستقلال الخطي)، أما في النماذج الاحتمالية فتمثل بافتراض استقلالية متحولات الكلمات المفتاحية.
  2. نماذج تعتمد ترابط الكلمات المفتاحية في جوهرها (Models with immanent term-interdependencies). تسمح هذه النماذج بتمثيل الترابط بين الكلمات المفتاحية. ويقوم النموذج بتعريف درجة الترابط بين كلمتين مفتاحيتين. فهي تستند عادةً بشكل مباشر أو على نحو غير مباشر إلى الورود المشترك لهاتين الكلمتين المفتاحيتين ضمن مجموعة الوثائق كاملةً.
  3. نماذج تعتمد ترابط الكلمات المفتاحية على نحو مترفع (Models with transcendent term-interdependencies). تسمح هذه النماذج بتمثيل الترابط بين الكلمات المفتاحية، لكنها لا تفرض كيفية تعريف الترابط بين كلمتين مفتاحيتين. فهي تستخدم مصدراً خارجياً لقياس درجة الترابط بين كلمتين (مثلاً شخص خبير أو خوارزميات معقدة).


مقاييس تقييم الأداء

عملية التقييم من منظور نظم استرجاع المعلومات هي العمليّة التي تهدف إلى إعطاء قياس عددي يعبّر عن مدى قدرة النظام على تلبية حاجات المستخدمين بفعالية. وهنا لدينا ما يعرف بموائمة النظام (System Relevance)؛ بعبارة أخرى، هو قدرة النظام على استرجاع الوثائق الموائمة لحاجة المستخدم من المعلومات، وبنفس الوقت تجنب استرجاع الوثائق غير الموائمة. ويستخدم لذلك قياسات عديدة لقياس أداء نظم استرجاع المعلومات. بالنسبة للقياسات التي سنذكرها فإنها تفترض الموائمة الثنائية: أي إما أن تكون الوثيقة ملائمة أو غير موائمة على الإطلاق. من هذه القياسات:

  1. الدقة (Precision)
  2. الاستذكار (Recall)

الدقة

يعبر هذا المقياس عن دقة النظام، وهو عبارة عن نسبة الوثائق الموائمة المسترجعة إلى إجمالي الوثائق المسترجعة (أي نسبة الوثائق الموائمة من الوثائق المسترجعة).

الاستذكار

هي نسبة الوثائق الموائمة المسترجعة إلى إجمالي الوثائق الموائمة (أي نسبة الوثائق المسترجعة من الوثائق الموائمة). الاستذكار وحده غير كافٍ، إنما نحتاج لقياس عدد الوثائق غير الموائمة أيضاً، لذلك نستخدمه مع الدقة


التاريخ

But do you know that, although I have kept the diary [on a phonograph] for months past, it never once struck me how I was going to find any particular part of it in case I wanted to look it up?

د./ سوارد, برام ستوكر في قصته دراكولا، 1897

الشخصيات الرئيسية

جوائز في المجال

انظر أيضاً

الهامش


. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

وصلات خارجية

INFORMATION RETRIEVAL A book byC. J. van RIJSBERGEN