بايگرام
بايگرام Bigram أو دايگرام Digram عبارة عن تتابع من عنصرين متجاورين من سلسلة من الرموز المميزة، والتي تكون عادةً أحرفاً أو مقاطع لفظية أو كلمات. بايگرام هو n-gram لـn=2. يتم استخدام توزيع التردد لكل بايگرام في سلسلة بشكل شائع للتحليل الإحصائي البسيط للنص في العديد من التطبيقات، بما في ذلك في اللغويات الحاسوبية والتشفير والتعرف على الكلام وما إلى ذلك.
بايگرام الفجوي أو بايگرامز المتخطي هي أزواج من الكلمات تسمح بالفجوات (ربما تجنب الكلمات المتصلة، أو السماح ببعض محاكاة التبعيات والاعتماديات، كما في قواعد التبعية).
الكلمات الرئيسية الكبيرة هي بايگرامز كبيرة الحجم مع علاقة تبعية صريحة.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
التفاصيل
تساعد بايگرام في توفير الاحتمال الشرطي للرمز المحجوز في ضوء الرمز السابق، عند تطبيق علاقة الاحتمال الشرطي:
أي الاحتمال من الرمز المحجوز المعطى بالنظر إلى الرمز السابق يساوي احتمال بايگرام الخاص بهم، أو التواجد المشترك للرمزين المحجوزين ، مقسوماً على احتمال الرمز المحجوز السابق.
التطبيقات
يتم استخدام بايگرامز في أنجح نماذج اللغة لـ التعرف على الكلام.[1] فهي حالة خاصة من N-gram.
يمكن استخدام مهمات تكرار بايگرام في التشفير لحل رموز التشفير. انظر تحليل التردد.
يعد تكرار بايگرام أحد أساليب تحديد اللغة الإحصائي.
تتضمن بعض الأنشطة في علم اللغة أو اللغويات الترفيهية. تتضمن هذه المحاولات للعثور على الكلمات الإنگليزية بدءاً من كل بايگرام ممكن،[2] أو الكلمات التي تحتوي على سلسلة من الأحرف الكبيرة المتكررة، مثل logogogue.[3]
تكرار بايگرام باللغة الإنگليزية
تكرار الحروف الكبيرة الأكثر شيوعاً في مجموعة صغيرة باللغة الإنگليزية هو:[4]
th 1.52 en 0.55 ng 0.18 he 1.28 ed 0.53 of 0.16 in 0.94 to 0.52 al 0.09 er 0.94 it 0.50 de 0.09 an 0.82 ou 0.50 se 0.08 re 0.68 ea 0.47 le 0.08 nd 0.63 hi 0.46 sa 0.06 at 0.59 is 0.46 si 0.05 on 0.57 or 0.43 ar 0.04 nt 0.56 ti 0.34 ve 0.04 ha 0.56 as 0.33 ra 0.04 es 0.56 te 0.27 ld 0.02 st 0.55 et 0.19 ur 0.02
حيث تتوفر تكرارات بايگرام كاملة لمجموعة نصية أكبر.[5][6]
انظر أيضاً
المراجع
- ^ Collins, Michael John (1996-06-24). "A new statistical parser based on bigram lexical dependencies". Proceedings of the 34th annual meeting on Association for Computational Linguistics -. Association for Computational Linguistics. pp. 184–191. arXiv:cmp-lg/9605012. doi:10.3115/981863.981888. Retrieved 2018-10-09.
- ^ Cohen, Philip M. (1975). "Initial Bigrams". Word Ways. 8 (2). Retrieved 11 September 2016.
- ^ Corbin, Kyle (1989). "Double, Triple, and Quadruple Bigrams". Word Ways. 22 (3). Retrieved 11 September 2016.
- ^ Cornell Math Explorer's Project – Substitution Ciphers
- ^ Jones, Michael N; D J K Mewhort (August 2004). "Case-sensitive letter and bigram frequency counts from large-scale English corpora". Behavior Research Methods, Instruments, and Computers. 36 (3): 388–396. doi:10.3758/bf03195586. ISSN 0743-3808. PMID 15641428.
- ^ "English Letter Frequency Counts: Mayzner Revisited or ETAOIN SRHLDCU". norvig.com. Retrieved 2019-10-28.