BERT (نموذج لغة)
تمثيلات التشفير ثنائي الاتجاه من المحولات Bidirectional Encoder Representations from Transformers (BERT) هي تقنية محول تعتمد على تعلم الآلة للتدريب المسبق على معالجة اللغة الطبيعية (NLP) التي طورتها گوگل. تم إنشاء BERT ونشره في 2018 بواسطة جيكوب دڤلن وزملاؤه من گوگل.[1][2] اعتبارا من 2019[تحديث]، استفادت گوگل من BERT لفهم عمليات بحث المستخدم بشكل أفضل.[3]
يأتي نموذج BERT الأصلي باللغة الإنگليزية مع نوعين عامين مدرَّبين مسبقاً:[1] (1) نموذج BERTBASE، وهو نموذج مكون من 12 طبقة و 768 مخفية و 12 رأساً وبنية شبكة عصبية بمعامل 110M و (2) نموذج BERTLARGE بنية شبكة عصبية ذات 24 طبقة، 1024 مخفية، 16 رأساً، 340M؛ كلاهما تم تدريبهما على BooksCorpus[4]مع 800 مليون كلمة، ونسخة من ويكيپيديا الإنگليزية بها 2500 مليون كلمة.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
الأداء
عندما تم نشر BERT، حققت أحدث ما توصلت إليه التكنولوجيا أداءً في عدد من مهام فهم اللغة الطبيعية:[1]
- مجموعة مهام GLUE (تقييم فهم اللغة العام) (تتكون من 9 مهام)
- SQuAD (مجموعة بيانات ستانفورد لإجابة الأسئلة) v1.1 و v2.0
- SWAG (مواقف الأجيال العدائية)
التحليل
أسباب أداء أحدث ما توصلت إليه التكنولوجيا ل بيرت في مهام فهم اللغة الطبيعية لم يتم فهمها جيداً بعد.[5][6] ركز البحث الحالي على التحقيق في العلاقة وراء مخرجات BERT نتيجة لتسلسلات الإدخال المختارة بعناية،[7][8] تحليل تمثيلات المتجه الداخلي من خلال فحص المصنفات،[9][10] والعلاقات التي تمثلها أوزان الملاحظة.[5][6]
تاريخ
تعود أصول BERT إلى التمثيلات السياقية قبل التدريب بما في ذلك التعلم التسلسلي شبه إشرافي،[11] Generative Pre-Training, ELMo,[12] و ULMFit.[13] على عكس النماذج السابقة، فإن BERT عبارة عن تمثيل لغوي ثنائي الاتجاه وغير خاضع للإشراف، وقد تم تدريبه مسبقاً باستخدام نص عادي فقط. النماذج الخالية من السياق مثل word2vec أو GloVeالتي تنشئ تمثيلًا واحداً لكل كلمة في المفردات، حيث يأخذ BERT في الاعتبار سياق كل تكرار لكلمة معينة. على سبيل المثال، في حين أن متجه "تشغيل" سيكون له نفس تمثيل متجه word2vec لكل من تكراراته في الجملتين "إنه يدير شركة" و "إنه يدير ماراثون"، فإن BERT سيوفر تضميناً سياقياً سيكون مختلفاً حسب الجملة.
في 25 أكتوبر 2019، أعلن بحث گوگل أنهم بدأوا تطبيق نماذج BERT لطلبات بحث اللغة الإنگليزية داخل الولايات المتحدة.[14] في 9 ديسمبر 2019، تم إقرار اعتماد BERT بواسطة بحث گوگل لأكثر من 70 لغة.[15]
الإدراك
فقد فازت BERT بجائزة أفضل ورقة بحثية طويلة في المؤتمر السنوي لعام 2019 لفرع أمريكا الشمالية لـ جمعية اللغويات الحاسوبية (NAACL).[16]
See also
المراجع
- ^ أ ب ت قالب:Cite arxiv
- ^ "Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing". Google AI Blog (in الإنجليزية). Retrieved 2019-11-27.
- ^ "Understanding searches better than ever before". Google (in الإنجليزية). 2019-10-25. Retrieved 2019-11-27.
- ^ قالب:Cite arxiv
- ^ أ ب Kovaleva, Olga; Romanov, Alexey; Rogers, Anna; Rumshisky, Anna (November 2019). "Revealing the Dark Secrets of BERT". Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP) (in الإنجليزية الأمريكية). pp. 4364–4373. doi:10.18653/v1/D19-1445. S2CID 201645145.
- ^ أ ب Clark, Kevin; Khandelwal, Urvashi; Levy, Omer; Manning, Christopher D. (2019). "What Does BERT Look at? An Analysis of BERT's Attention". Proceedings of the 2019 ACL Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. Stroudsburg, PA, USA: Association for Computational Linguistics: 276–286. doi:10.18653/v1/w19-4828.
- ^ Khandelwal, Urvashi; He, He; Qi, Peng; Jurafsky, Dan (2018). "Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use Context". Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA, USA: Association for Computational Linguistics: 284–294. arXiv:1805.04623. Bibcode:2018arXiv180504623K. doi:10.18653/v1/p18-1027. S2CID 21700944.
- ^ Gulordava, Kristina; Bojanowski, Piotr; Grave, Edouard; Linzen, Tal; Baroni, Marco (2018). "Colorless Green Recurrent Networks Dream Hierarchically". Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). Stroudsburg, PA, USA: Association for Computational Linguistics: 1195–1205. arXiv:1803.11138. Bibcode:2018arXiv180311138G. doi:10.18653/v1/n18-1108. S2CID 4460159.
- ^ Giulianelli, Mario; Harding, Jack; Mohnert, Florian; Hupkes, Dieuwke; Zuidema, Willem (2018). "Under the Hood: Using Diagnostic Classifiers to Investigate and Improve how Language Models Track Agreement Information". Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. Stroudsburg, PA, USA: Association for Computational Linguistics: 240–248. arXiv:1808.08079. Bibcode:2018arXiv180808079G. doi:10.18653/v1/w18-5426. S2CID 52090220.
- ^ Zhang, Kelly; Bowman, Samuel (2018). "Language Modeling Teaches You More than Translation Does: Lessons Learned Through Auxiliary Syntactic Task Analysis". Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. Stroudsburg, PA, USA: Association for Computational Linguistics: 359–361. doi:10.18653/v1/w18-5448.
- ^ قالب:Cite arxiv
- ^ قالب:Cite arxiv
- ^ قالب:Cite arxiv
- ^ Nayak, Pandu (25 October 2019). "Understanding searches better than ever before". Google Blog. Retrieved 10 December 2019.
- ^ Montti, Roger (10 December 2019). "Google's BERT Rolls Out Worldwide". Search Engine Journal. Search Engine Journal. Retrieved 10 December 2019.
- ^ "Best Paper Awards". NAACL. 2019. Retrieved Mar 28, 2020.
{{cite web}}
: CS1 maint: url-status (link)