تضمين الكلمات
جزء من سلسلة عن |
التعلم الآلي والتنقيب في البيانات |
---|
تضمين الكلمات Word embedding هو الاسم الجماعي لمجموعة من تقنيات نمذجة اللغة و ميزة التعلم في معالجة اللغة الطبيعية (NLP) حيث يتم تعيين الكلمات أو العبارات من المفردات إلى ناقلات من أرقام حقيقية. من الناحية المفاهيمية ، يتضمن التضمين الرياضي من مساحة ذات أبعاد عديدة لكل كلمة إلى مساحة متجهة ذات بعد أقل بكثير. تتضمن طرق إنشاء هذا التعيين الشبكات العصبية،[1] تقليل الأبعاد على كلمة مصفوفة التواجد المشترك،[2][3][4] النماذج الاحتمالية،[5] طريقة قاعدة المعرفة القابلة للتفسير،[6] وتمثيل صريح من حيث السياق الذي تظهر فيه الكلمات.[7]
أظهرت عمليات دمج الكلمات والعبارات، عند استخدامها كتمثيل إدخال أساسي، أنها تعزز الأداء في مهام البرمجة اللغوية العصبية مثل الإعراب النحوي[8] وتحليل المشاعر.[9]
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
تطوير وتاريخ النهج
في اللسانيات، تمت مناقشة تضمين الكلمة في مجال بحث دلالات التوزيع. ويهدف إلى تحديد وتصنيف أوجه التشابه الدلالية بين العناصر اللغوية بناءً على خصائص توزيعها في عينات كبيرة من بيانات اللغة. تم الترويج للفكرة الأساسية القائلة بأن "الكلمة تتميز من خلال الشركة التي تحتفظ بها" بواسطة فيرث.[10]
تعتمد فكرة الفضاء الدلالي مع العناصر المعجمية (الكلمات أو المصطلحات متعددة الكلمات) التي يتم تمثيلها كمتجهات أو تضمينات على التحديات الحسابية المتمثلة في التقاط خصائص التوزيع واستخدامها للتطبيق العملي لقياس التشابه بين الكلمات أو العبارات أو المستندات بأكملها. الجيل الأول من نماذج الفضاء الدلالية هو نموذج الفضاء المتجه لاسترجاع المعلومات.[11][12][13] ينتج عن نماذج فضاء المتجهات هذه للكلمات وبيانات توزيعها المطبقة في أبسط أشكالها مساحة متجهية متفرقة للغاية ذات أبعاد عالية (راجع إزعاج الأبعاد). أدى تقليل عدد الأبعاد باستخدام الطرق الجبرية الخطية مثل تحلل القيمة المفردة ثم إلى إدخال التحليل الدلالي الكامن في أواخر الثمانينيات و الفهرسة العشوائية تجميع سياقات تكرار الكلمات.[14][15][16][17][18] في عام 2000 قام بنجيو وآخرون بتقديم. في سلسلة من الأوراق "نماذج اللغة الاحتمالية العصبية" لتقليل الأبعاد العالية لتمثيل الكلمات في السياقات من خلال "تعلم التمثيل الموزع للكلمات".[19][20]تأتي عمليات تضمين الكلمات في نمطين مختلفين، أحدهما يتم التعبير عن الكلمات كنواقل للكلمات المتزامنة، والآخر يتم التعبير عن الكلمات فيها كمتجهات للسياقات اللغوية التي تحدث فيها الكلمات؛ تمت دراسة هذه الأنماط المختلفة عن طريق (لاڤيلي و آخرون، 2004).[21]نشر رويز و ساول في "ساينس" كيفية استخدام " التضمين الخطي الموضعي" (LLE) لاكتشاف تمثيلات هياكل البيانات عالية الأبعاد.[22]تعتمد معظم تقنيات تضمين الكلمات الجديدة بعد عام 2005 تقريباً على بنية الشبكة العصبية بدلاً من النماذج الاحتمالية والجبرية، نظراً لبعض الأعمال التأسيسية التي قام بها يوشوا بنجيو وزملاؤه.[23][24]
تم تبني هذا النهج من قبل العديد من المجموعات البحثية بعد التقدم الذي تم إحرازه في عام 2010 حول العمل النظري حول جودة المتجهات وسرعة تدريب النموذج وتطورات الأجهزة التي سمحت باستكشاف فضاء پارامتر أوسع بشكل مربح. في عام 2013، أنشأ فريق في گوگل بقيادة توماس ميكولوڤ word2vec، وهي عبارة عن مجموعة أدوات لتضمين الكلمات يمكنها تدريب نماذج الفضاء المتجه بشكل أسرع من الأساليب السابقة. تم استخدام نهج word2vec على نطاق واسع في التجارب وكان له دور فعال في زيادة الاهتمام بزخارف الكلمات كتقنية، ونقل مجال البحث من البحث المتخصص إلى تجارب أوسع وتمهيد الطريق في النهاية للتطبيق العملي.[25]
تقييدات
أحد القيود الرئيسية لتضمين الكلمات (كلمة نموذج الفضاء المتجه بشكل عام) هو أن الكلمات ذات المعاني المتعددة يتم دمجها في تمثيل واحد (متجه واحد في الفضاء الدلالي). بمعنى آخر، لا يتم التعامل مع تعدد المعاني والتماثل بشكل صحيح. على سبيل المثال، في الجملة "النادي الذي جربته بالأمس كان رائعاً!"، ليس من الواضح ما إذا كان مصطلح "النادي" مرتبطًا بكلمة نادي ساندويتش، نادي البيسبول، تجمع، نادي الجولف، أو أي معنى آخر لـ النادي. إن ضرورة استيعاب معاني متعددة لكل كلمة في متجهات مختلفة (تضمينات متعددة المعاني) هي الدافع للعديد من المساهمات في البرمجة اللغوية العصبية لتقسيم التضمينات ذات المعنى الفردي إلى تضمينات متعددة المعاني.[26][27]
يمكن تقسيم معظم الأساليب التي تنتج تضمينات متعددة الحواس إلى فئتين رئيسيتين لتمثيل معاني الكلمات، أي غير خاضعة للإشراف وقائمة على المعرفة.[28]بناءً على سكيپ گرام word2vec، سكيپ گرام متعدد المعاني (MSSG)[29] يقوم بتمييز معنى الكلمة وتضمينه في وقت واحد، مما يحسن وقت التدريب، مع افتراض عدد معين من المعاني لكل كلمة. في التخطي متعدد المعاني غير الپارامترية (NP-MSSG) يمكن أن يختلف هذا الرقم اعتماداً على كل كلمة. الجمع بين المعرفة السابقة بقواعد البيانات المعجمية (على سبيل المثال، WordNet ، ConceptNet BabelNet)، تضمين الكلمات وتوضيح معنى الكلمة، شرح توضيحي للمعنى الأنسب (MSSA)[30] يصنف حاسة الكلمات من خلال نهج غير خاضع للإشراف وقائم على المعرفة مع مراعاة سياق الكلمة في نافذة منزلقة محددة مسبقاً. بمجرد إزالة الغموض عن الكلمات، يمكن استخدامها في تقنية تضمين الكلمة القياسية، بحيث يتم إنتاج تضمينات متعددة المعاني. تسمح بنية MSSA بإجراء عملية إزالة اللبس والتعليقات التوضيحية بشكل متكرر بطريقة ذاتية التحسين.
من المعروف أن استخدام تضمينات متعددة المعاني يحسن الأداء في العديد من مهام البرمجة اللغوية العصبية، مثل تأشير أجزاء من الكلام، وتحديد العلاقة الدلالية، و الارتباط الدلالي. ومع ذلك، يبدو أن المهام التي تتضمن التعرف على الكيان المُحدد وتحليل المشاعر لا تستفيد من التمثيل المتجه المتعدد.[31]
للتسلسلات البيولوجية: المتجهات الحيوية
تم اقتراح تضمين الكلمات لـ n-grams في التسلسلات البيولوجية (مثل دنا و رنا والپروتينات) لتطبيقات المعلوماتية الحيوية بواسطة أصغري و مفرد.[32] المتجهات الحيوية المسماة (بيو ڤك) للإشارة إلى التسلسلات البيولوجية بشكل عام مع متجهات الپروتين (پروت ڤك) للپروتينات (متواليات الأحماض الأمينية) ومتجهات الجينات (جين ڤك) للتسلسلات الجينية، يمكن استخدام هذا التمثيل على نطاق واسع في تطبيقات التعلم في الپروتينات و الجينوميات. تشير النتائج التي قدمها أصغري ومفرد[32] إلى أن المتجهات الحيوية يمكن أن تميز التسلسلات البيولوجية من حيث التفسيرات البيوكيميائية والفيزيائية الحيوية للأنماط الأساسية.
متجهات الفكر
إن متجهات الفكر هي امتداد لتضمين الكلمات لجمل كاملة أو حتى مستندات. يأمل بعض الباحثين في أن يتمكن هذا من تحسين جودة الترجمة الآلية.[33]
البرمجيات
تتضمن برامج التدريب واستخدام تضمينات الكلمات التي صممها توماس ميكولوڤ Word2vec وجامعة ستانفورد GloVe ،[34] GN-GloVe[35]، AllenNLP's ELMo،[36] BERT,[37] fastText، Gensim،[38] Indra[39] والتعلم العميق4j. تحليل المكون الرئيسي (PCA) ويتم استخدام كل من تضمين المجاور العشوائي الموزع على شكل T (t-SNE) لتقليل أبعاد مسافات متجه الكلمات وتصور تضمين الكلمات و المجموعات العنقودية.[40]
أمثلة على تطبيق
على سبيل المثال، يتم استخدام fastText أيضاً لحساب عمليات دمج الكلمات لـ مجموعة نصية في محرك التخطيط المتوفر عبر الإنترنت.[41]
انظر أيضاً
المراجع
- ^ Mikolov, Tomas; Sutskever, Ilya; Chen, Kai; Corrado, Greg; Dean, Jeffrey (2013). "Distributed Representations of Words and Phrases and their Compositionality". arXiv:1310.4546 [cs.CL].
- ^ Lebret, Rémi; Collobert, Ronan (2013). "Word Emdeddings through Hellinger PCA". Conference of the European Chapter of the Association for Computational Linguistics (EACL). 2014. arXiv:1312.5542. Bibcode:2013arXiv1312.5542L.
- ^ (2014) "Neural Word Embedding as Implicit Matrix Factorization" in NIPS..
- ^ (2015) "Word Embedding Revisited: A New Representation Learning and Explicit Matrix Factorization Perspective" in Int'l J. Conf. on Artificial Intelligence (IJCAI)..
- ^ Globerson, Amir (2007). "Euclidean Embedding of Co-occurrence Data" (PDF). Journal of Machine Learning Research.
- ^ Qureshi, M. Atif; Greene, Derek (2018-06-04). "EVE: explainable vector based embedding technique using Wikipedia". Journal of Intelligent Information Systems (in الإنجليزية). 53: 137–165. arXiv:1702.06891. doi:10.1007/s10844-018-0511-x. ISSN 0925-9902. S2CID 10656055.
- ^ (2014) "Linguistic Regularities in Sparse and Explicit Word Representations" in CoNLL.: 171–180.
- ^ (2013) "Parsing with compositional vector grammars" in Proc. ACL Conf...
- ^ (2013) "Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank" in EMNLP..
- ^ Firth, J.R. (1957). "A synopsis of linguistic theory 1930-1955". Studies in Linguistic Analysis: 1–32.
{{cite journal}}
: Invalid|ref=harv
(help) Reprinted in F.R. Palmer, ed. (1968). Selected Papers of J.R. Firth 1952-1959. London: Longman. - ^ Salton, Gerard (1962). "Some experiments in the generation of word and document associations". Proceeding AFIPS '62 (Fall) Proceedings of the December 4–6, 1962, fall joint computer conference: 234–250. Retrieved 18 October 2020.
- ^ Salton, Gerard; Wong, A; Yang, C S (1975). "A Vector Space Model for Automatic Indexing". Communications of the Association for Computing Machinery (CACM): 613–620.
- ^ Dubin, David (2004). "The most influential paper Gerard Salton never wrote". Retrieved 18 October 2020.
- ^ Sahlgren, Magnus. "A brief history of word embeddings".
- ^ Kanerva, Pentti, Kristoferson, Jan and Holst, Anders (2000): Random Indexing of Text Samples for Latent Semantic Analysis, Proceedings of the 22nd Annual Conference of the Cognitive Science Society, p. 1036. Mahwah, New Jersey: Erlbaum, 2000.
- ^ Karlgren, Jussi; Sahlgren, Magnus (2001). Uesaka, Yoshinori; Kanerva, Pentti; Asoh, Hideki (eds.). "From words to understanding". Foundations of Real-World Intelligence. CSLI Publications: 294–308.
- ^ Sahlgren, Magnus (2005) An Introduction to Random Indexing, Proceedings of the Methods and Applications of Semantic Indexing Workshop at the 7th International Conference on Terminology and Knowledge Engineering, TKE 2005, August 16, Copenhagen, Denmark
- ^ Sahlgren, Magnus, Holst, Anders and Pentti Kanerva (2008) Permutations as a Means to Encode Order in Word Space, In Proceedings of the 30th Annual Conference of the Cognitive Science Society: 1300-1305.
- ^ Bengio, Yoshua; Ducharme, Réjean; Vincent, Pascal; Jauvin, Christian (2003). "A Neural Probabilistic Language Model" (PDF). Journal of Machine Learning Research. 3: 1137–1155.
- ^ Bengio, Yoshua; Schwenk, Holger; Senécal, Jean-Sébastien; Morin, Fréderic; Gauvain, Jean-Luc (2006). A Neural Probabilistic Language Model. Vol. 194. pp. 137–186. doi:10.1007/3-540-33486-6_6. ISBN 978-3-540-30609-2.
{{cite book}}
:|journal=
ignored (help) - ^ (2004) "Distributional term representations: an experimental comparison" in 13th ACM International Conference on Information and Knowledge Management.: 615–624. doi:10.1145/1031171.1031284.
- ^ Roweis, Sam T.; Saul, Lawrence K. (2000). "Nonlinear Dimensionality Reduction by Locally Linear Embedding". Science. 290 (5500): 2323–6. Bibcode:2000Sci...290.2323R. CiteSeerX 10.1.1.111.3313. doi:10.1126/science.290.5500.2323. PMID 11125150.
- ^ Morin, Fredric; Bengio, Yoshua (2005). "Hierarchical probabilistic neural network language model". AIstats. 5: 246–252.
- ^ Mnih, Andriy; Hinton, Geoffrey (2009). "A Scalable Hierarchical Distributed Language Model". Advances in Neural Information Processing Systems 21 (NIPS 2008). Curran Associates, Inc.: 1081–1088.
- ^ word2vec
- ^ Reisinger, Joseph; Mooney, Raymond J. (2010). Multi-Prototype Vector-Space Models of Word Meaning. Vol. Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Los Angeles, California: Association for Computational Linguistics. pp. 109–117. ISBN 978-1-932432-65-7. Retrieved October 25, 2019.
- ^ Huang, Eric. (2012). Improving word representations via global context and multiple word prototypes. OCLC 857900050.
- ^ (2018) "From Word to Sense Embeddings: A Survey on Vector Representations of Meaning"..
- ^ Neelakantan, Arvind; Shankar, Jeevan; Passos, Alexandre; McCallum, Andrew (2014). "Efficient Non-parametric Estimation of Multiple Embeddings per Word in Vector Space". Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Stroudsburg, PA, USA: Association for Computational Linguistics: 1059–1069. arXiv:1504.06654. doi:10.3115/v1/d14-1113. S2CID 15251438.
- ^ Ruas, Terry; Grosky, William; Aizawa, Akiko (2019-12-01). "Multi-sense embeddings through a word sense disambiguation process". Expert Systems with Applications. 136: 288–303. doi:10.1016/j.eswa.2019.06.026. hdl:2027.42/145475. ISSN 0957-4174.
- ^ Li, Jiwei; Jurafsky, Dan (2015). "Do Multi-Sense Embeddings Improve Natural Language Understanding?". Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: Association for Computational Linguistics: 1722–1732. arXiv:1506.01070. doi:10.18653/v1/d15-1200. S2CID 6222768.
- ^ أ ب Asgari, Ehsaneddin; Mofrad, Mohammad R.K. (2015). "Continuous Distributed Representation of Biological Sequences for Deep Proteomics and Genomics". PLOS ONE. 10 (11): e0141287. arXiv:1503.05140. Bibcode:2015PLoSO..1041287A. doi:10.1371/journal.pone.0141287. PMC 4640716. PMID 26555596.
{{cite journal}}
: CS1 maint: unflagged free DOI (link) - ^ Kiros, Ryan; Zhu, Yukun; Salakhutdinov, Ruslan; Zemel, Richard S.; Torralba, Antonio; Urtasun, Raquel; Fidler, Sanja (2015). "skip-thought vectors". arXiv:1506.06726 [cs.CL].
- ^ "GloVe".
- ^ قالب:Cite arxiv
- ^ "Elmo".
- ^ قالب:Cite arxiv
- ^ "Gensim".
- ^ "Indra". 2018-10-25.
- ^ Ghassemi, Mohammad; Mark, Roger; Nemati, Shamim (2015). "A Visualization of Evolving Clinical Sentiment Using Vector Representations of Clinical Notes" (PDF). Computing in Cardiology.
- ^ "Embedding Viewer". Embedding Viewer. Lexical Computing. Retrieved 7 Feb 2018.