التعرف على كيان محدد

(تم التحويل من Named-entity recognition)

التعرف على كيان محدد Named-entity recognition (NER) (المعروف أيضاً ب تحديد الكيان (المُحدد)، تقطيع الكيان، و استخراج الكيان) هي مهمة فرعية لـ استخراج المعلومات التي تسعى إلى تحديد وتصنيف الكيانات المحددة المذكورة في نص غير منظم في فئات محددة مسبقاً مثل أسماء الأشخاص والمؤسسات والمواقع، الرموز الطبية، تعبيرات الوقت، الكميات، القيم النقدية، النسب المئوية، إلخ.

تم تنظيم معظم الأبحاث حول أنظمة NER / NEE على أنها تأخذ كتلة نصية غير مشروحة، مثل هذا:

اشترى جيم 300 سهم في مجموعة Acme. في عام 2006.

وإنتاج كتلة مشروحة من النص تُبرز أسماء الكيانات:

اشترى [جيم]شخص 300 سهم في [مجموعة Acme.]تنظيم في عام [2006]زمن.

في هذا المثال، تم اكتشاف وتصنيف اسم شخص يتكون من رمز واحد واسم شركة ذي رمزين وتعبير مؤقت.

تنتج أنظمة NER الحديثة للغة الإنگليزية أداءً قريباً من الإنسان. على سبيل المثال، سجل أفضل نظام دخل MUC-7 93.39٪ من مقياس F بينما سجل المعلقون البشريون 97.60٪ و 96.95٪.[1][2]

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

منصات التعرف على الكيانات المحددة

تشمل منصات NER البارزة:

  • تدعم GATE NER عبر العديد من اللغات والمجالات خارج الصندوق، ويمكن استخدامها عبر واجهة رسومية و جاڤا API.
  • تتضمن OpenNLP التعرف على الكيانات المحددة استناداً إلى القواعد والإحصائية.
  • يتميز SpaCy بإحصاء NER سريع بالإضافة إلى متصور الكيان مفتوح المصدر.


تحديد المشكلة

في التعبير الكيان المحدد، تقصر الكلمة المحدد المهمة على تلك الكيانات التي تشير (بشكل متساوي) إلى بعض السلاسل، مثل الكلمات أو العبارات، بشكل ثابت. يرتبط هذا ارتباطاً وثيقاً بـ محدد صارم، كما هو محدد بواسطة كريپك ،[3][4]على الرغم من أنه من الناحية العملية يتعامل NER مع العديد من الأسماء والمراجع التي ليست "جامدة" من الناحية الفلسفية. على سبيل المثال، يمكن الإشارة إلى "شركة السيارات التي أنشأها هنري فورد في عام 1903 باسم فورد أو شركة فورد موتور، على الرغم من أن فورد يمكن أن تشير إلى العديد من الكيانات الأخرى أيضًا (راجع فورد). تتضمن المحددات الصارمة أسماء العلم وكذلك مصطلحات لأنواع ومواد بيولوجية معينة،[5]لكن استبعد الضمائر (مثل "هو"؛ راجع تحليل المرجع)، والأوصاف التي تنتقي المرجع من خلال خصائصه (انظر أيضاً Deicto and de re)، وأسماء أنواع الأشياء على عكس للأفراد (على سبيل المثال "بنك").

غالباً ما يتم تقسيم التعرف الكامل على الكيانات المحددة، من الناحية المفاهيمية وربما أيضاً في عمليات التنفيذ،[6]كمشكلتين متميزتين: الكشف عن الأسماء و التصنيف للأسماء حسب نوع الكيان الذي يشيرون إليه (على سبيل المثال، الشخص والمنظمة والموقع وغير ذلك[7]). عادةً ما يتم تبسيط المرحلة الأولى إلى مشكلة التجزئة: يتم تعريف الأسماء على أنها امتدادات متجاورة من الرموز المميزة، بدون تداخل، بحيث يكون "بنك أميركا" اسمًا واحداً، بغض النظر عن حقيقة أن داخل هذا الاسم، السلسلة الفرعية "أميركا" هو في حد ذاته اسم. تشبه مشكلة التجزئة هذه بشكل رسمي التقسيم. تتطلب المرحلة الثانية اختيار الأنطولوجية لتنظيم تصنيفات الأشياء.

يمكن أيضاً اعتبار التعبير الزمني وبعض التعبيرات العددية (مثل المال والنسب المئوية وما إلى ذلك) ككيانات محددة في سياق مهمة NER. في حين أن بعض الأمثلة على هذه الأنواع هي أمثلة جيدة للتسميات الصارمة (على سبيل المثال، عام 2001)، فهناك أيضاً العديد من الأمثلة غير الصالحة (على سبيل المثال، آخذ إجازاتي في "يونيو"). في الحالة الأولى، يشير العام 2001 إلى العام 2001 من التقويم الگريگوري. في الحالة الثانية، قد يشير شهر يونيو إلى شهر عام غير محدد (يونيو الماضي، يونيو القادم، كل يونيو، إلخ.). يمكن القول إن تعريف الكيان المحدد قد تم تخفيفه في مثل هذه الحالات لأسباب عملية. وبالتالي، فإن تعريف المصطلح كيان محدد ليس صارماً وغالباً ما يجب شرحه في السياق الذي يتم استخدامه فيه.[8]

تم اقتراح التسلسلات الهرمية لأنواع الكيانات المحددة في الأدبيات. تُستخدم تصنيفات BBN، المقترحة في عام 2002، لـإجابة الأسئلة وتتكون من 29 نوعاً و 64 نوعاً فرعياً.[9] يتكون التسلسل الهرمي الممتد لسيكين، المقترح في عام 2002، من 200 نوع فرعي.[10] في الآونة الأخيرة، في عام 2011، استخدم ريتر التسلسل الهرمي استناداً إلى أنواع الكيانات الشائعة فري بيز في تجارب رائدة على NER عبر نص وسائل تواصل اجتماعي.[11]

التقييم الرسمي

لتقييم جودة مخرجات نظام NER، تم تحديد العديد من المقاييس. تسمى التدابير المعتادة الضبط، الاسترجاع، و درجة F1. ومع ذلك، لا تزال هناك العديد من القضايا في كيفية حساب تلك القيم.

تعمل هذه المقاييس الإحصائية بشكل جيد مع الحالات الواضحة لإيجاد أو فقدان كيان حقيقي بالضبط؛ ولإيجاد اللا الكيان. ومع ذلك، يمكن أن يفشل NER في العديد من الطرق الأخرى، يمكن القول إن العديد منها "صحيح جزئياً"، ولا ينبغي اعتباره نجاحاً أو فشلاً كاملاً. على سبيل المثال، تحديد كيان حقيقي، ولكن:

  • برموز محجوزة أقل من المطلوب (على سبيل المثا ، فقد الرمز المميز الأخير من "جون سميث، (دكتور في الطب).")
  • مع عدد أكبر من الرموز المحجوزة (على سبيل المثال، بما في ذلك الكلمة الأولى من "جامعة الطب")
  • تقسيم الكيانات المتجاورة بشكل مختلف (على سبيل المثال، معاملة "سميث، جونز روبنسن" ككيانين مقابل 3 كيانات)
  • تخصيص نوع خاطئ تماماً (على سبيل المثال، استدعاء اسم شخصي لتنظيم ما)
  • تعيين نوع مرتبط به ولكن غير دقيق (على سبيل المثال، "مادة" مقابل "عقار"، أو "مدرسة" مقابل "تنظيم")
  • تحديد كيان بشكل صحيح، عندما يكون ما يريده المستخدم كياناً أصغر أو أكبر نطاقاً (على سبيل المثال، تحديد "جيمس ماديسون" كاسم شخصي، عندما يكون جزءاً من "جامعة جيمس ماديسون". تفرض بعض أنظمة NER قيوداً أن الكيانات قد لا تتداخل أبداً أو قد تتداخل، مما يعني أنه في بعض الحالات يجب على المرء أن يتخذ اختيارات عشوائية أو خاصة بمهمة محددة.

إحدى الطرق البسيطة للغاية لقياس الدقة، هي مجرد حساب جزء جميع الرموز المحجوزة في النص التي تم تحديدها بشكل صحيح أو غير صحيح كجزء من مراجع الكيان (أو ككيانات من النوع الصحيح). يعاني هذا من مشكلتين على الأقل: أولاً، الغالبية العظمى من الرموز المميزة في نص العالم الحقيقي ليست جزءاً من أسماء الكيانات، وبالتالي فإن دقة خط الأساس (تتنبأ دائماً بـ "ليس كياناً") عالية جداً، وعادةً> 90٪ ؛ وثانياً، لا يتم تعويض الخطأ في التنبؤ بالنطاق الكامل لاسم الكيان بشكل صحيح (العثور على الاسم الأول للشخص فقط عندما يتبع اسمه الأخير قد يتم تسجيله بدقة ½).

في المؤتمرات الأكاديمية مثل CoNLL ، تم تحديد متغير من درجة F1 على النحو التالي[7]:

  • الدقة هي عدد امتدادات اسم الكيان المتوقع التي تتماشى "تماماً" مع الامتدادات في بيانات تقييم المعيار الذهبي. بمعنى آخر. عندما يتم توقع [شخص هانز] [شخص بليك] ولكن كان من المطلوب [الشخص هانز بليك] فإن دقة الاسم المتوقع صفر. ثم يتم حساب متوسط الدقة على جميع أسماء الكيانات المتوقعة.
  • الاستدعاء هو بالمثل عدد الأسماء في المعيار الذهبي التي تظهر في نفس الموقع بالضبط في التنبؤات.
  • درجة F1 هي الوسط التوافقي لهذين الاثنين.

ويترتب على التعريف أعلاه أن أي تنبؤ يفتقد رمزاً محجوزاً واحداً، أو يتضمن رمزاً محجوزاً زائفاً، أو يحتوي على فئة خاطئة، يعد خطأ فادحاً ولا يساهم بشكل إيجابي في الدقة أو الاسترجاع. وبالتالي، يمكن القول إن هذا الإجراء غير واعد: يمكن أن يكون هناك العديد من "الأخطاء" قريبة من التصحيح، وقد تكون كافية لغرض معين. على سبيل المثال، قد يحذف أحد الأنظمة دائماً عناوين مثل "Ms." أو "Ph.D."، ولكن يمكن مقارنتها بنظام أو بيانات حقيقة الأرض تتوقع تضمين العناوين. في هذه الحالة، يتم التعامل مع كل اسم على أنه خطأ. بسبب مثل هذه القضايا، من المهم في الواقع فحص أنواع الأخطاء، وتحديد مدى أهمية إعطائها لأهداف ومتطلبات الفرد.

تم اقتراح نماذج التقييم على أساس مطابقة رمزية برمز محجوز.[12] قد تمنح مثل هذه النماذج ائتماناً جزئياً للمطابقات المتداخلة (مثل استخدام معيار تقاطع مجموعات، فهي تسمح بإجراء تقييم دقيق ومقارنة بين أنظمة الاستخراج.

النهج

تم إنشاء أنظمة NER التي تستخدم تقنيات تعتمد على القواعد اللغوية بالإضافة إلى النموذج الإحصائي مثل التعلم الآلي. عادةً ما تحصل الأنظمة القائمة على القواعد التي تمت صياغتها يدوياً على دقة أفضل، ولكن على حساب استدعاء أقل وأشهر من العمل من قبل اللغويين الحاسوبيين.[13]تتطلب أنظمة NER الإحصائية عادةً قدرًا كبيراً من بيانات التدريب المشروحة يدوياً. تم اقتراح مناهج شبه إشرافية لتجنب جزء من جهد الشرح.[14][15]

تم استخدام العديد من أنواع المصنفات المختلفة لأداء NER المعلَّم آلياً، مع كون المجال العشوائي المشروط خياراً نموذجياً.[16]

مجالات المشكلة

في عام 2001، أشارت الأبحاث إلى أنه حتى أنظمة NER الحديثة كانت هشة، مما يعني أن أنظمة NER التي تم تطويرها لمجال واحد لم تعمل بشكل جيد في المجالات الأخرى.[17] يتم بذل جهد كبير في ضبط أنظمة NER لأداء جيد في مجال جديد؛ هذا صحيح لكل من الأنظمة الإحصائية القائمة على القواعد والقابلة للتدريب.

كان العمل الأولي في أنظمة NER في التسعينيات يهدف في المقام الأول إلى الاستخراج من المقالات الصحفية. ثم تحول الاهتمام إلى معالجة الإرساليات والتقارير العسكرية. تضمنت المراحل اللاحقة من تقييم الاستخراج التلقائي للمحتوى (ACE) أيضاً عدة أنواع من أنماط النص غير الرسمية، مثل مدونة الوب و نسخة نصية من المحادثات الهاتفية التخاطبية. منذ عام 1998، كان هناك قدر كبير من الاهتمام بتعريف الكيانات في مجتمعات علم الأحياء الجزيئي و المعلوماتية الحيوية ومعالجة اللغة الطبيعية الطبية. كان الكيان الأكثر شيوعاً للاهتمام في هذا المجال هو أسماء الجينات والمنتجات الجينية. كان هناك أيضًا اهتمام كبير بالاعتراف بـ الكيانات الكيميائية والأدوية في سياق منافسة CHEMDNER، بمشاركة 27 فريقاً في هذه المهمة.[18]

التحديات الحالية والبحوث

على الرغم من ارتفاع أرقام F1 التي تم الإبلاغ عنها في مجموعة بيانات MUC-7، إلا أن مشكلة التعرف على الكيانات المحددة بعيدة عن الحل. ويتم توجيه الجهود الرئيسية لتقليل العمل التوضيحي من خلال توظيف التعلم شبه إشرافي،[14][19] أداء قوي عبر المجالات[20][21] والارتقاء إلى أنواع الكيانات الدقيقة.[10][22] في السنوات الأخيرة، تحولت العديد من المشاريع إلى التوريد الجماعي، وهو حل واعد للحصول على أحكام مجمعة عالية الجودة لنهج التعلم الآلي الخاضع للإشراف وشبه الإشراف على NER.[23] هنالك مهمة أخرى صعبة تتمثل في ابتكار نماذج للتعامل مع السياقات المعقدة لغوياً مثل تويتر واستعلامات البحث.[24]

هناك بعض الباحثين الذين أجروا بعض المقارنات حول أداء NER من نماذج إحصائية مختلفة مثل HMM (نموذج ماركوڤ المخفي)، و ME ( أقصى إنتروپيا)، و CRF (المجالات العشوائي المشروط) ومجموعات الميزات.[25]واقترح بعض الباحثين مؤخراً نموذج تعلم شبه خاضع للإشراف قائم على الرسم البياني لمهام NER المحددة للغة.[26]

هتالك مهمة ناشئة مؤخراً لتحديد "التعبيرات المهمة" في النص و ربطهم عبر ويكيپيديا[27][28][29] يمكن اعتباره مثالاً على التعرف الدقيق للغاية على الكيانات المحددة، حيث تكون الأنواع هي صفحات ويكيپيديا الحالية التي تصف المفاهيم (التي قد تكون غامضة). يوجد أدناه مثال لإخراج نظام Wikification:

<ENTITY url="http://en.wikipedia.org/wiki/Michael_I._Jordan"> Michael Jordan </ENTITY> is a professor at <ENTITY url="http://en.wikipedia.org/wiki/University_of_California,_Berkeley"> Berkeley </ENTITY>

هناك مجال آخر شهد تقدماً ولكنه لا يزال يمثل تحدياً وهو تطبيق NER على تويتر والمدونات الصغيرة الأخرى.[30][vague]

انظر أيضاً

المراجع

  1. ^ Elaine Marsh, Dennis Perzanowski, "MUC-7 Evaluation of IE Technology: Overview of Results", 29 April 1998 PDF
  2. ^ MUC-07 Proceedings (Named Entity Tasks)
  3. ^ Kripke, Saul (1971). M.K. Munitz (ed.). Identity and Necessity. New York: New York University Press. pp. 135–64. {{cite book}}: Unknown parameter |booktitle= ignored (help)
  4. ^ LaPorte, Joseph, Rigid Designators, https://plato.stanford.edu/entries/rigid-designators/ 
  5. ^ (2007) "A survey of named entity recognition and classification" in Lingvisticae Investigationes.. 
  6. ^ (2003) "A simple named entity extractor using AdaBoost" in CoNLL.. 
  7. ^ أ ب (2003) "Introduction to the CoNLL-2003 shared task: Language-independent named entity recognition" in CoNLL.. 
  8. ^ Named Entity Definition. Webknox.com. Retrieved on 2013-07-21.
  9. ^ Brunstein, Ada. "Annotation Guidelines for Answer Types". LDC Catalog. Linguistic Data Consortium. Retrieved 21 July 2013.
  10. ^ أ ب Sekine's Extended Named Entity Hierarchy. Nlp.cs.nyu.edu. Retrieved on 2013-07-21.
  11. ^ (2011) "Named Entity Recognition in Tweets: An Experimental Study" in Proc. Empirical Methods in Natural Language Processing.. 
  12. ^ (2010) "Evaluating Information Extraction" in Cross-Language Evaluation Forum (CLEF).: 100–111. 
  13. ^ Kapetanios, Epaminondas; Tatar, Doina; Sacarea, Christian (2013-11-14). Natural Language Processing: Semantic Aspects (in الإنجليزية). CRC Press. p. 298. ISBN 9781466584969.
  14. ^ أ ب (2009) "Phrase clustering for discriminative learning" in Annual Meeting of the ACL and IJCNLP.: 1030–1038. 
  15. ^ Nothman, Joel; et al. (2013). "Learning multilingual named entity recognition from Wikipedia". Artificial Intelligence. 194: 151–175. doi:10.1016/j.artint.2012.03.006.
  16. ^ (2005) "Incorporating Non-local Information into Information Extraction Systems by Gibbs Sampling" in 43rd Annual Meeting of the Association for Computational Linguistics.: 363–370. 
  17. ^ Poibeau, Thierry; Kosseim, Leila (2001). "Proper Name Extraction from Non-Journalistic Texts" (PDF). Language and Computers. 37 (1): 144–157. doi:10.1163/9789004333901_011. S2CID 12591786.
  18. ^ Krallinger, M; Leitner, F; Rabal, O; Vazquez, M; Oyarzabal, J; Valencia, A. "Overview of the chemical compound and drug name recognition (CHEMDNER) task". Proceedings of the Fourth BioCreative Challenge Evaluation Workshop vol. 2. pp. 6–37. CiteSeerX 10.1.1.684.4118.
  19. ^ Turian, J., Ratinov, L., & Bengio, Y. (2010, July). Word representations: a simple and general method for semi-supervised learning. In Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (pp. 384-394). Association for Computational Linguistics. PDF
  20. ^ Ratinov, L., & Roth, D. (2009, June). Design challenges and misconceptions in named entity recognition. In Proceedings of the Thirteenth Conference on Computational Natural Language Learning (pp. 147-155). Association for Computational Linguistics.
  21. ^ "Frustratingly Easy Domain Adaptation" (PDF). Archived from the original (PDF) on 2010-06-13. Retrieved 2012-04-05.
  22. ^ Fine-Grained Named Entity Recognition Using Conditional Random Fields for Question Answering.
  23. ^ Web 2.0-based crowdsourcing for high-quality gold standard development in clinical Natural Language Processing
  24. ^ (2013) "A Two-Step Named Entity Recognizer for Open-Domain Search Queries" in IJCNLP.: 829–833. 
  25. ^ Han, Li-Feng Aaron, Wong, Fai, Chao, Lidia Sam. (2013). Chinese Named Entity Recognition with Conditional Random Fields in the Light of Chinese Characteristics. Proceeding of International Conference of Language Processing and Intelligent Information Systems. M.A. Klopotek et al. (Eds.): IIS 2013, LNCS Vol. 7912, pp. 57–68 [1]
  26. ^ Han, Li-Feng Aaron, Wong, Zeng, Xiaodong, Derek Fai, Chao, Lidia Sam. (2015). Chinese Named Entity Recognition with Graph-based Semi-supervised Learning Model. In Proceedings of SIGHAN workshop in ACL-IJCNLP. 2015. [2]
  27. ^ Linking Documents to Encyclopedic Knowledge.
  28. ^ "Learning to link with Wikipedia" (PDF). Archived from the original (PDF) on 2019-01-25. Retrieved 2014-07-21.
  29. ^ Local and Global Algorithms for Disambiguation to Wikipedia.
  30. ^ Derczynski, Leon and Diana Maynard, Giuseppe Rizzo, Marieke van Erp, Genevieve Gorrell, Raphael Troncy, Johann Petrak, and Kalian Botcheva (2014). “Analysis of named entity recognition and linking for tweets”. Information Processing and Management 51(2) : pages 32-49.