استرجاع المعلومات
علم المعلومات |
---|
سمات عامّة |
المجالات والفروع ذات الصلة |
بوابة |
استرجاع المعلومات Information retrieval هو علم البحث عن الوثائق وعن المعلومات داخل الوثائق وعن المعطيات المترفعة (metadata) التي تصف الوثائق، بالاضافة الى البحث في قواعد البيانات وشبكة الانترنت. هناك لغط شائع بين كل من استرجاع البيانات واسترجاع الوثائق واسترجاع المعلومات واسترجاع النصوص، ولكن لكل منها كيانه العلمي الخاص ونظرياته وتقنياته.
إن علم استرجاع المعلومات عبر معرفي interdisciplinary، وهو يعتمد على كل من علم الحاسوب، الرياضيات، علم المكتبات، علم المعلومات، بنيان المعلومات information architecture، وعلم النفس الاستعرافي، واللسانيات، والإحصاء.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
نظم استرجاع المعلومات
ٍٍ
مقالة مفصلة: نظام استرجاع المعلومات
نظم استرجاع المعلومات هي النظم التي تسمح بتخزين مجموعة من الوثائق وإدارتها ومعالجتها، وذلك بطريقة تسمح للمستخدم باسترجاع تلك الوثائق التي يتوافق محتواها مع حاجته من المعلومات. تستخدم نظم استرجاع المعلومات لتخفيض حمل المعلومات الزائد، حيث يستخدم العديد من الجامعات والمكتبات العامة هذه النظم لتأمين الوصول إلى الكتب والمجلات والوثائق الأخرى.
الإطار العام لنظم استرجاع المعلومات
الإطار العام لنظم استرجاع المعلومات يتألف من ثلاث مراحل:
- استخلاص محتوى الوثائق وتوليد تمثيل لها.
- استخلاص محتوى الاستعلام وتوليد تمثيل له (معالجة الاستعلام).
- مقارنة تمثيل الوثائق مع تمثيل الاستعلام للحصول على الوثائق التي تطابق الاستعلام جزئياً، ثم ترتيبها وفقاً لدرجة موائمتها لحاجة المستخدم من المعلومات (عملية المطابقة والترتيب).
يتم إنجاز المرحلة الأولى عادةً قبل قيام المستخدم بطرح استعلامه (offline) بينما يتم إنجاز المرحلتين التاليتين بعد طرح الاستعلام (online).
نماذج استرجاع المعلومات
يوجد العديد من نماذج نظم استرجاع المعلومات، التي تختلف فيما بينها بطريقة تمثيل الوثائق والاستعلامات، وتابعي المطابقة والترتيب. يمكن تصنيف هذه النماذج وفقاً لبعدين:
- الأساس الرياضي
- خصائص النموذج
البعد الأول : الأساس الرياضي
- نماذج نظرية المعلومات: تمثّل هذه النماذج الوثائق كمجموعات. عادةً يُستمدّ التشابه من تطبيق عمليات المجموعات على هذه الوثائق. من النماذج الشائعة فيها:
- النموذج البولياني (Standard Boolean Model)
- النموذج البولياني الممدد (Extended Boolean Model)
- (fuzzy retrieval)
- النماذج الجبرية: تمثل هذه النماذج الوثائق والاستعلامات كأشعةأو مصفوفات أو حدوديات. يتم تحويل هذه الأشعة أو المصفوفات أو الحدوديات باستخدام عدد محدود من العمليات الجبرية إلى قياس تشابه وحيد البعد. ومن النماذج الشائعة فيها:
- نموذج الفضاء الشعاعي (Vector Space Model)
- نموذج الفضاء الشعاعي المعمم (Generalized Vector Space Model)
- نموذج تحليل الدلالة الكامنة(Latent Semantic Analysis)
- النماذج الاحتمالية: تعامل هذه النماذج عملية استرجاع الوثائق كتجربة عشوائية متعددة المراحل. ويتم تمثيل التشابه باحتمالات. عادة تستخدم النظريات الاحتمالية كنظرية Bayes في هذه النماذج.
- النموذج الاحتمالي (Probabilistic Relevance Model)
- (Uncertain Inference)
- (Language Model)
- النماذج المنطقية : تستخدم المنطق بنوعية الكلاسيكي و غير الكلاسيكي
البعد الثاني: خصائص النموذج
تعامل بعض النماذج الكلمات المفتاحية كما لو أنها مستقلة فيما بينها من الناحية الدلالية، بينما تنظر نماذج أخرى إلى الترابط الدلالي بين هذه الكلمات، وتقوم بتمثيله بطريقة ما. ومن هذا المنظور تصنف نظم استرجاع المعلومات إلى:
- نماذج تعتمد استقلالية الكلمات المفتاحية (Models without term-interdependencies). تمثل استقلالية الكلمات المفتاحية في نماذج الفضاء الشعاعي بافتراض التعامد بين أشعة الكلمات المفتاحية (أي الاستقلال الخطي)، أما في النماذج الاحتمالية فتمثل بافتراض استقلالية متحولات الكلمات المفتاحية.
- نماذج تعتمد ترابط الكلمات المفتاحية في جوهرها (Models with immanent term-interdependencies). تسمح هذه النماذج بتمثيل الترابط بين الكلمات المفتاحية. ويقوم النموذج بتعريف درجة الترابط بين كلمتين مفتاحيتين. فهي تستند عادةً بشكل مباشر أو على نحو غير مباشر إلى الورود المشترك لهاتين الكلمتين المفتاحيتين ضمن مجموعة الوثائق كاملةً.
- نماذج تعتمد ترابط الكلمات المفتاحية على نحو مترفع (Models with transcendent term-interdependencies). تسمح هذه النماذج بتمثيل الترابط بين الكلمات المفتاحية، لكنها لا تفرض كيفية تعريف الترابط بين كلمتين مفتاحيتين. فهي تستخدم مصدراً خارجياً لقياس درجة الترابط بين كلمتين (مثلاً شخص خبير أو خوارزميات معقدة).
مقاييس تقييم الأداء
عملية التقييم من منظور نظم استرجاع المعلومات هي العمليّة التي تهدف إلى إعطاء قياس عددي يعبّر عن مدى قدرة النظام على تلبية حاجات المستخدمين بفعالية. وهنا لدينا ما يعرف بموائمة النظام (System Relevance)؛ بعبارة أخرى، هو قدرة النظام على استرجاع الوثائق الموائمة لحاجة المستخدم من المعلومات، وبنفس الوقت تجنب استرجاع الوثائق غير الموائمة. ويستخدم لذلك قياسات عديدة لقياس أداء نظم استرجاع المعلومات. بالنسبة للقياسات التي سنذكرها فإنها تفترض الموائمة الثنائية: أي إما أن تكون الوثيقة ملائمة أو غير موائمة على الإطلاق. من هذه القياسات:
- الدقة (Precision)
- الاستذكار (Recall)
الدقة
يعبر هذا المقياس عن دقة النظام، وهو عبارة عن نسبة الوثائق الموائمة المسترجعة إلى إجمالي الوثائق المسترجعة (أي نسبة الوثائق الموائمة من الوثائق المسترجعة).
الاستذكار
هي نسبة الوثائق الموائمة المسترجعة إلى إجمالي الوثائق الموائمة (أي نسبة الوثائق المسترجعة من الوثائق الموائمة). الاستذكار وحده غير كافٍ، إنما نحتاج لقياس عدد الوثائق غير الموائمة أيضاً، لذلك نستخدمه مع الدقة
التاريخ
“ | But do you know that, although I have kept the diary [on a phonograph] for months past, it never once struck me how I was going to find any particular part of it in case I wanted to look it up? | ” |
—د./ سوارد, برام ستوكر في قصته دراكولا، 1897 |
الشخصيات الرئيسية
- توماس بايز
- كلود شانون
- Gerard Salton
- Hans Peter Luhn
- W. Bruce Croft
- Karen Spärck Jones
- C. J. van Rijsbergen
- Stephen E. Robertson
- Ricardo Baeza-Yates
جوائز في المجال
انظر أيضاً
- Adversarial information retrieval
- Areas of IR application
- Clustering
- Compound term processing
- Controlled vocabulary
- Cross-language information retrieval
- Educational psychology
- European Summer School in Information Retrieval
- Free text search
- Gain
- Human Computer Information Retrieval
- Information extraction
- Information need
- Information Retrieval Facility
- Information science
- Knowledge visualization
- Multisearch
- Personal information management
- Relevance (Information Retrieval)
- Relevance feedback
- Rocchio Classification
- Subject indexing
- Search index
- Selection-based search
- Tf-idf
- XML-Retrieval
- تنقيب في المعطيات
الهامش
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
وصلات خارجية
- ACM SIGIR: Information Retrieval Special Interest Group
- BCS IRSG: British Computer Society - Information Retrieval Specialist Group
- Text Retrieval Conference (TREC)
- Chinese Web Information Retrieval Forum (CWIRF)
- Information Retrieval (online book) by C. J. van Rijsbergen
- Information Retrieval Wiki
- Information Retrieval Facility
- Introduction to Information Retrieval (online book) by Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Cambridge University Press. 2008.