التنقيب في المفهوم

التنقيب في المفهوم Concept mining هو إجراء ينتج عنه استخراج مفهوم من الوثائق المكتوبة. عادةً ما تتضمن حلول المهمة جوانب الذكاء الاصطناعي و الإحصائيات، مثل التنقيب في البيانات و التنقيب في النصوص.[1] نظراً لأن الوثائق المكتوبة عبارة عن تسلسل غير منظم من الكلمات والرموز الأخرى (بدلاً من المفاهيم)، فإن المسألة غير بديهية، ولكنها يمكن أن توفر رؤى قوية حول معنى المستندات ومنشأها وتشابهها.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

الأساليب

تقليدياً، تم إجراء تحويل الكلمات إلى مفاهيم باستخدام قاموس المرادفات،[2]وبالنسبة للتقنيات الحسابية، فإن الاتجاه هو أن تفعل الشيء نفسه. تم إنشاء قاموس المرادفات المستخدم خصيصاً للمهمة، أو نموذج لغة موجود مسبقاً، وعادة ما يكون مرتبطاً بـ ووردنت الخاص بپرنستون.\

غالباً ما تكون تعيينات الكلمات للمفاهيم[3] غامضة. وعادةً ما ترتبط كل كلمة في لغة معينة بالعديد من المفاهيم المحتملة. حيث يستخدم البشر السياق لإزالة الغموض عن المعاني المختلفة لجزء معين من النص، عندما لا تستطيع أنظمة الترجمة الآلية استنتاج السياق بسهولة.

ومع ذلك، لأغراض التنقيب في المفاهيم، تميل أوجه الغموض هذه إلى أن تكون أقل أهمية مما هي عليه في الترجمة الآلية، لأنه في المستندات الكبيرة يميل الغموض إلى التلاشي، كما هو الحال مع التنقيب في النصوص.

هناك العديد من أساليب توضيح الغموض التي يمكن استخدامها. ومن الأمثلة على ذلك التحليل اللغوي للنص واستخدام معلومات تردد ارتباط الكلمات والمفهوم التي يمكن استنتاجها من مجموعة نصية كبيرة. ففي الآونة الأخيرة، ظهرت التقنيات التي تستند إلى التشابه الدلالي بين المفاهيم الممكنة والسياق واكتسبت اهتماماً في المجتمع العلمي.


التطبيقات

كشف وفهرسة المستندات المتشابهة في مجموعات واسعة

أحد الفوائد الناتجة لحساب إحصائيات الوثائق في مجال المفهوم، بدلاً من مجال الكلمات، هو أن المفاهيم تشكل هياكل شجرة طبيعية بناءً على hypernymy و meronymy. يمكن استخدام هذه الهياكل لإنشاء إحصائيات بسيطة لعناصر الشجرة، والتي يمكن استخدامها لتحديد موقع أي مستند في فراغ المفهوم الإقليدية. إذا كان حجم المستند يعتبر أيضاً بُعداً آخر لهذا الفراغ، فيمكن إنشاء نظام فهرسة فعال للغاية. هذه التقنية قيد الاستخدام التجاري حالياً لتحديد موقع مستندات قانونية مماثلة في 2.5 مليون مستند.

تجميع الوثائق حسب الموضوع

يمكن استخدام تقنيات المجموعات الرقمية القياسية في "فراغ المفهوم" كما هو موضح أعلاه لتحديد موقع المستندات وفهرستها حسب الموضوع المستنتج. هؤلاء أكثر كفاءة من الناحية العددية من أبناء عمومتهم التنقيب في النصوص، ويميلون إلى التصرف بشكل حدسي أكثر، من حيث أنهم يرسمون بشكل أفضل مقاييس التشابه التي قد يولدها الإنسان.

انظر أيضاً

المراجع

  1. ^ Yuen-Hsien Tseng, Chun-Yen Chang, Shu-Nu Chang Rundgren, and Carl-Johan Rundgren, " Mining Concept Maps from News Stories for Measuring Civic Scientific Literacy in Media", Computers and Education, Vol. 55, No. 1, August 2010, pp. 165-177.
  2. ^ Yuen-Hsien Tseng, " Automatic Thesaurus Generation for Chinese Documents", Journal of the American Society for Information Science and Technology, Vol. 53, No. 13, Nov. 2002, pp. 1130-1138.
  3. ^ Yuen-Hsien Tseng, " Generic Title Labeling for Clustered Documents", Expert Systems With Applications, Vol. 37, No. 3, 15 March 2010, pp. 2247-2254 .