باي‌گرام

باي‌گرام Bigram أو داي‌‌گرام Digram عبارة عن تتابع من عنصرين متجاورين من سلسلة من الرموز المميزة، والتي تكون عادةً أحرفاً أو مقاطع لفظية أو كلمات. باي‌گرام هو n-gram لـn=2. يتم استخدام توزيع التردد لكل باي‌گرام في سلسلة بشكل شائع للتحليل الإحصائي البسيط للنص في العديد من التطبيقات، بما في ذلك في اللغويات الحاسوبية والتشفير والتعرف على الكلام وما إلى ذلك.

باي‌گرام الفجوي أو باي‌گرامز المتخطي هي أزواج من الكلمات تسمح بالفجوات (ربما تجنب الكلمات المتصلة، أو السماح ببعض محاكاة التبعيات والاعتماديات، كما في قواعد التبعية).

الكلمات الرئيسية الكبيرة هي باي‌گرامز كبيرة الحجم مع علاقة تبعية صريحة.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

التفاصيل

تساعد باي‌گرام في توفير الاحتمال الشرطي للرمز المحجوز في ضوء الرمز السابق، عند تطبيق علاقة الاحتمال الشرطي:

أي الاحتمال من الرمز المحجوز المعطى بالنظر إلى الرمز السابق يساوي احتمال باي‌گرام الخاص بهم، أو التواجد المشترك للرمزين المحجوزين ، مقسوماً على احتمال الرمز المحجوز السابق.


التطبيقات

يتم استخدام باي‌گرامز في أنجح نماذج اللغة لـ التعرف على الكلام.[1] فهي حالة خاصة من N-gram.

يمكن استخدام مهمات تكرار باي‌گرام في التشفير لحل رموز التشفير. انظر تحليل التردد.

يعد تكرار باي‌گرام أحد أساليب تحديد اللغة الإحصائي.

تتضمن بعض الأنشطة في علم اللغة أو اللغويات الترفيهية. تتضمن هذه المحاولات للعثور على الكلمات الإنگليزية بدءاً من كل باي‌گرام ممكن،[2] أو الكلمات التي تحتوي على سلسلة من الأحرف الكبيرة المتكررة، مثل logogogue.[3]

تكرار باي‌گرام باللغة الإنگليزية

تكرار الحروف الكبيرة الأكثر شيوعاً في مجموعة صغيرة باللغة الإنگليزية هو:[4]

th 1.52       en 0.55       ng 0.18
he 1.28       ed 0.53       of 0.16
in 0.94       to 0.52       al 0.09
er 0.94       it 0.50       de 0.09
an 0.82       ou 0.50       se 0.08
re 0.68       ea 0.47       le 0.08
nd 0.63       hi 0.46       sa 0.06
at 0.59       is 0.46       si 0.05
on 0.57       or 0.43       ar 0.04
nt 0.56       ti 0.34       ve 0.04
ha 0.56       as 0.33       ra 0.04
es 0.56       te 0.27       ld 0.02
st 0.55       et 0.19       ur 0.02

حيث تتوفر تكرارات باي‌گرام كاملة لمجموعة نصية أكبر.[5][6]

انظر أيضاً

المراجع

  1. ^ Collins, Michael John (1996-06-24). "A new statistical parser based on bigram lexical dependencies". Proceedings of the 34th annual meeting on Association for Computational Linguistics -. Association for Computational Linguistics. pp. 184–191. arXiv:cmp-lg/9605012. doi:10.3115/981863.981888. Retrieved 2018-10-09.
  2. ^ Cohen, Philip M. (1975). "Initial Bigrams". Word Ways. 8 (2). Retrieved 11 September 2016.
  3. ^ Corbin, Kyle (1989). "Double, Triple, and Quadruple Bigrams". Word Ways. 22 (3). Retrieved 11 September 2016.
  4. ^ Cornell Math Explorer's Project – Substitution Ciphers
  5. ^ Jones, Michael N; D J K Mewhort (August 2004). "Case-sensitive letter and bigram frequency counts from large-scale English corpora". Behavior Research Methods, Instruments, and Computers. 36 (3): 388–396. doi:10.3758/bf03195586. ISSN 0743-3808. PMID 15641428.
  6. ^ "English Letter Frequency Counts: Mayzner Revisited or ETAOIN SRHLDCU". norvig.com. Retrieved 2019-10-28.
الكلمات الدالة: