n-gram
This article includes a list of references, but its sources remain unclear because it has insufficient inline citations. (February 2011) |
في مجالات اللسانيات الحاسوبية و الاحتمالية، n-gram عبارة عن تسلسل متجاور لعناصر n من عينة معينة من النص أو الكلام. يمكن أن تكون العناصر صوتيات، مقاطع لفظية، أحرف، كلمات أو أزواج أساسية وفقاً للتطبيق. عادةً ما يتم جمع n-grams من نص أو مجموعة كلام. عندما تكون العناصر عبارة عن كلمات، n-grams قد يُطلق على الگرام أيضاً اسم الحصى الصغيرة[مطلوب توضيح].[1]
باستخدام المقدمات العددية اللاتينية، يشار إلى n-gram بالحجم 1 باسم "يونيگرام"؛ الحجم 2 هو "بايگرام" (أو، أقل شيوعاً، "دايگرام")؛ الحجم 3 هو "تريگرام". الأرقام الأساسية الإنگليزية تُستخدم أحياناً، على سبيل المثال، "أربعة گرام"، "خمسة گرام"، وهكذا. في علم الأحياء الحاسوبي، يُطلق على پوليمر أو أوليگومر ذي حجم معروف اسم k-mer بدلاً من n-gram، مع أسماء محددة باستخدام مقدمات عددية يونانية مثل "مونومر"، "دايمر"، "تريمر"، "تيترامر"، "پنتامر"، إلخ، أو أرقام أساسية إنگليزية، "واحد-مر"، "اثنان-مر "، "ثلاثة-مر "، إلخ.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
التطبيقات
نموذج n-gram هو نوع من نموذج اللغة الاحتمالية للتنبؤ بالعنصر التالي في مثل هذا التسلسل في شكل ترتيب-(n − 1) نموذج ماركوڤ.[2]تُستخدم نماذج n-gram الآن على نطاق واسع في الاحتمال، نظرية الاتصالات، اللسانيات الحاسوبية (على سبيل المثال، معالجة اللغة الطبيعية الإحصائية)، علم الأحياء الحاسوبي (على سبيل المثال ، تحليل التسلسل البيولوجي، و ضغط البيانات. تتمثل فائدتان لنماذج n-gram (والخوارزميات التي تستخدمها) في البساطة وقابلية التوسع - باستخدام حرف n أكبر، يمكن للنموذج تخزين المزيد من السياق مع مبادلة زمان-مكان، مما يمكّن التجارب الصغيرة من الارتقاء بكفاءة.
أمثلة
المجال | الوحدات | تسلسل العينة | تسلسل الگرام-1 | تسلسل الگرام-2 | تسلسل الگرام-3 |
---|---|---|---|---|---|
الاسم العامي | يونيگرام | بايگرام | تريگرام | ||
ترتيب النتائج نموذج ماركوڤ | 0 | 1 | 2 | ||
تسلسل الپروتين | حمض أميني | … Cys-Gly-Leu-Ser-Trp … | …, Cys, Gly, Leu, Ser, Trp, … | …, Cys-Gly, Gly-Leu, Leu-Ser, Ser-Trp, … | …, Cys-Gly-Leu, Gly-Leu-Ser, Leu-Ser-Trp, … |
تسلسل الدنا | زوج أساسي | …AGCTTCGA… | …, A, G, C, T, T, C, G, A, … | …, AG, GC, CT, TT, TC, CG, GA, … | …, AGC, GCT, CTT, TTC, TCG, CGA, … |
اللسانيات الحاسوبية | الصفة | …to_be_or_not_to_be… | …, t, o, _, b, e, _, o, r, _, n, o, t, _, t, o, _, b, e, … | …, to, o_, _b, be, e_, _o, or, r_, _n, no, ot, t_, _t, to, o_, _b, be, … | …, to_, o_b, _be, be_, e_o, _or, or_, r_n, _no, not, ot_, t_t, _to, to_, o_b, _be, … |
اللسانيات الحاسوبية | الكلمة | … to be or not to be … | …, to, be, or, not, to, be, … | …, to be, be or, or not, not to, to be, … | …, to be or, be or not, or not to, not to be, … |
يوضح الشكل 1 العديد من أمثلة التسلسلات والتسلسلات المقابلة 1-گرام و 2-گرام و 3-گرام.
فيما يلي أمثلة أخرى؛ هذه عبارة عن 3-گرام و 4-گرام على مستوى الكلمات (وعدد مرات ظهورها) من من نصوص n-gram من گوگل.[3]
3-گرام
- مقنيات السيراميك (55)
- غرامة مقتنيات السيراميك (130)
- تم تجميع السيراميك بواسطة (52)
- خزفيات السيراميك (50)
- عملية تصنيع السيراميك (45)
4-گرام
- بمثابة واردة (92)
- بمثلبة الحاضنة (99)
- تعمل كمستقل (794)
- بمثابة الفهرس (223)
- بمثابة إشارة (72)
- بمثابة المؤشر (120)
نماذج n-gram
متواليات نماذج n-gram، خاصة اللغات الطبيعية، باستخدام الخصائص الإحصائية لـn- grams.
يمكن إرجاع هذه الفكرة إلى تجربة من خلال عمل كلود شانون في نظرية المعلومات. طرح شانون السؤال التالي: بالنظر إلى تسلسل الحروف (على سبيل المثال، التسلسل "على سبيل المثال") ، ما هو احتمال الحرف التالي؟ من بيانات التدريب، يمكن للمرء أن يشتق توزيع الاحتمالات للحرف التالي بالنظر إلى تاريخ الحجم: a = 0.4, b = 0.00001, c = 0, ....، حيث يبلغ مجموع احتمالات جميع "الأحرف التالية" الممكنة 1.0.
بشكل أكثر إيجازاً، يتنبأ نموذج بناءً على . من حيث الاحتمالية، يكون . عند استخدامها في نمذجة اللغة، يتم وضع افتراضات الاستقلال بحيث تعتمد كل كلمة فقط على آخر كلمة n − 1. يتم استخدام نموذج ماركوڤ كتقريب للغة الأساسية الحقيقية. هذا الافتراض مهم لأنه يبسط بشكل كبير مشكلة تقدير نموذج اللغة من البيانات. بالإضافة إلى ذلك، نظراً للطبيعة المفتوحة للغة، فمن الشائع تجميع الكلمات غير المعروفة لنموذج اللغة معاً.
لاحظ أنه في نموذج n-gram بسيط، يمكن وصف احتمالية كلمة، بشرط عدد معين من الكلمات السابقة (كلمة واحدة في نموذج بايگرام، كلمتان في نموذج ثلاثي گرام، وما إلى ذلك) على أنها بعد التوزيع التصنيفي (غالباً ما يطلق عليه بشكل غير دقيق "التوزيع متعدد الحدود").
عملياً، يتم تسوية توزيعات الاحتمالات عن طريق تعيين احتمالات غير صفرية للكلمات غير المرئية أو n-gram؛ راجع تقنيات التنعيم.
التطبيقات والاعتبارات
تستخدم نماذج n-gram على نطاق واسع في معالجة اللغة الطبيعية. في التعرف على الكلام، يتم نمذجة الصوتيات وتسلسلات الصوتيات باستخدام توزيع n-gram. للتحليل، يتم نمذجة الكلمات بحيث يتكون كل گرام من كلمات "n". بالنسبة إلى تحديد اللغة، يتم نمذجة تسلسل الأحرف / الحرف اليدوية ( مثل ، أحرف الأبجدية) للغات مختلفة.[4] بالنسبة إلى تسلسلات الأحرف، فإن 3 گرامات (يشار إليها أحياناً باسم "أشكال ثلاثية الأبعاد") التي يمكن إنشاؤها من "صباح الخير" هي "goo" و "ood" و "od" و "dm" و "mo" و "mor "وما إلى ذلك، حساب حرف المسافة كگرام (في بعض الأحيان يتم صياغة بداية ونهاية النص بشكل صريح، مع إضافة" _ _g "و" _go "و" ng_ "و" g_ _ "). بالنسبة لتسلسل الكلمات، فإن الأشكال ثلاثية الأبعاد (الحصيات) التي يمكن إنشاؤها من "رائحة الكلب مثل الظربان" هي "# الكلب"، و "رائحة الكلب"، و "رائحة الكلب مثل"، و "رائحته مثل"، "مثل الظربان "و" الظربان # ".
قد يقوم المستخدون[من؟] الأكثر اهتماماً بمصطلحات كلمات متعددة بمعالجة السلاسل مسبقاً لإزالة المسافات.[من؟] ينهار العديد من مسافة بيضاء إلى مسافة واحدة مع الاحتفاظ بعلامات الفقرات، لأن المسافة البيضاء غالباً ما تكون إما عنصراً في نمط الكتابة أو تقدم تنسيقاً أو عرضاً لا تتطلبه منهجية التنبؤ والاستنتاج. يتم أيضاً تقليل علامات الترقيم أو إزالتها بشكل شائع عن طريق المعالجة المسبقة وغالباً ما يتم استخدامها لتشغيل الوظائف.
يمكن أيضًا استخدام n-grams لتسلسل الكلمات أو أي نوع من البيانات تقريباً. على سبيل المثال، تم استخدامها لاستخراج ميزات لتجميع مجموعات كبيرة من صور الأرض الساتلية ولتحديد أي جزء من الأرض جاءت منه صورة معينة.[5] لقد كانت أيضاً ناجحة جداً كأول مسار في البحث عن التسلسل الجيني وفي تحديد الأنواع التي نشأت منها التسلسلات القصيرة للحمض النووي.[6]
غالبًا ما تم انتقاد نماذج n-gram لأنها تفتقر إلى أي تمثيل واضح للتبعية بعيدة المدى. هذا لأن نطاق التبعية الصريح الوحيد هو (n − 1) الرموز المميزة لنموذج n-gram، وبما أن اللغات الطبيعية تتضمن العديد من حالات التبعيات غير المحدودة (مثل انتقال-wh)، هذا يعني أن نموذج n-gram لا يمكن من حيث المبدأ التمييز بين التبعيات غير المحدودة والتشويش (نظراً لأن الارتباطات طويلة المدى تنخفض بشكل كبير مع المسافة لأي نموذج ماركوڤ). لهذا السبب، لم يكن لنماذج الجرام تأثير كبير على النظرية اللغوية ، حيث يتمثل جزء من الهدف الصريح في نمذجة مثل هذه التبعيات.
نقد آخر تم توجيهه هو أن نماذج ماركوڤ للغة، بما في ذلك نماذج n-gram، لا تلتقط صراحة تمييز الأداء / الكفاءة. هذا لأن نماذج n-gram ليست مصممة لنمذجة المعرفة اللغوية على هذا النحو، ولا تدعي أنها (حتى من المحتمل) نماذج كاملة للمعرفة اللغوية؛ بدلاً من ذلك، يتم استخدامها في التطبيقات العملية.
من الناحية العملية، فقد ثبت أن نماذج n-gram فعالة للغاية في نمذجة بيانات اللغة، والتي تعد مكوناً أساسياً في التطبيقات الإحصائية الحديثة اللغة.
لا تعتمد معظم التطبيقات الحديثة التي تعتمد على النماذج القائمة على n-gram، مثل تطبيقات الترجمة الآلية، حصرياً على مثل هذه النماذج؛ بدلاً من ذلك، فإنها عادةً ما تدمج أيضاً الاستدلال البايزي. تتكون النماذج الإحصائية الحديثة عادةً من جزأين، التوزيع المسبق يصف الاحتمال الكامن لنتيجة محتملة و تابع الاحتمال المستخدم لتقييم توافق نتيجة محتملة مع البيانات التي تمت ملاحظتها. عند استخدام نموذج لغوي، يتم استخدامه كجزء من التوزيع السابق (على سبيل المثال لقياس "الجودة" المتأصلة في ترجمة محتملة)، وحتى في هذه الحالة، غالباً ما لا يكون المكون الوحيد في هذا التوزيع.
كما يتم استخدام أنواع مختلفة من السمات المصنوعة يدوياً، على سبيل المثال المتغيرات التي تمثل موضع الكلمة في الجملة أو الموضوع العام للخطاب. بالإضافة إلى ذلك، غالباً ما يتم استخدام الميزات القائمة على بنية النتيجة المحتملة، مثل الاعتبارات النحوية. تُستخدم هذه الميزات أيضًا كجزء من تابع الاحتمال، والتي تستخدم البيانات التي تمت ملاحظتها. يمكن دمج النظرية اللغوية التقليدية في هذه الميزات (على الرغم من أنه من النادر في الممارسة العملية أن يتم دمج ميزات خاصة بالنظريات التوليدية أو غيرها من النظريات الخاصة بالقواعد، حيث تميل علماء اللغة الحاسوبية إلى أن تكون "محايدة" تجاه النظريات الفردية للقواعد[بحاجة لمصدر]).
كلمات خارجة عن المفردات
نلاحظ وجود مشكلة عند استخدام نماذج لغة n-gram وهي كلمات خارج المفردات (OOV). يتم العثور عليها في اللسانيات الحاسوبية و معالجة اللغة الطبيعية عندما يتضمن الإدخال كلمات لم تكن موجودة في قاموس النظام أو قاعدة البيانات أثناء إعداده. بشكل افتراضي، عندما يتم تقدير نموذج اللغة، يتم استخدام المفردات المرصودة بالكامل. في بعض الحالات، قد يكون من الضروري تقدير نموذج اللغة بمفردات محددة ثابتة. في مثل هذا السيناريو، يتم تجاهل n-grams في مجموعة النصوص التي تحتوي على كلمة خارج المفردات. يتم تسوية احتمالات n-gram على جميع الكلمات الموجودة في المفردات حتى لو لم يتم ملاحظتها.[7]
ومع ذلك، من الضروري في بعض الحالات وضع نموذج واضح لاحتمالية الكلمات خارج المفردات من خلال إدخال رمز خاص (على سبيل المثال<unk>) في المفردات. يتم استبدال الكلمات خارج نطاق المفردات بشكل فعال مع هذا الرمز المميز الخاص قبل تراكم عدد n-grams. باستخدام هذا الخيار، من الممكن تقدير احتمالات الانتقال لـ n-grams التي تتضمن كلمات خارج المفردات.[8]
n-grams للمطابقة التقريبية
يمكن أيضًا استخدام n-grams للمطابقة التقريبية الفعالة. من خلال تحويل تسلسل العناصر إلى مجموعة من n-grams، يمكن تضمينها في فضاء متجه، مما يسمح بمقارنة التسلسل بالتسلسلات الأخرى بطريقة فعالة. على سبيل المثال، إذا قمنا بتحويل السلاسل التي تحتوي على أحرف فقط في الأبجدية الإنجليزية إلى حرف واحد 3 گرامات، فسنحصل على مسافة - ذات بُعد (يقيس البعد الأول عدد مرات ظهور "aaa" "aab" الثاني، وهكذا دواليك لجميع التركيبات الممكنة المكونة من ثلاثة أحرف). باستخدام هذا التمثيل ، نفقد المعلومات حول السلسلة. على سبيل المثال، كل من السلاسل "abc" و "bca" تؤدي إلى نفس 2 گرام "bc" (على الرغم من أنه من الواضح أن {"ab"، "bc"} ليست هي نفسها {"bc"، "ca"}). ومع ذلك، فنحن نعلم تجريبياً أنه إذا كان لسلسلتين من النص الحقيقي تمثيل متجه مماثل (كما تم قياسه بواسطة مسافة جيب التمام، فمن المحتمل أن يكونا متشابهين. تم تطبيق مقاييس أخرى أيضاً على متجهات n-grams بنتائج متفاوتة، وأحياناً أفضل. على سبيل المثال، تم استخدام z-Score لمقارنة المستندات من خلال فحص عدد الانحرافات المعيارية لكل n-grams يختلف عن متوسط حدوثه في مجموعة كبيرة، أو مجموعة نصوص، من المستندات (التي تشكل متجه "الخلفية"). في حالة الأعداد الصغيرة، قد تعطي g-Score (المعروفة أيضًا باسم g-test) نتائج أفضل لمقارنة النماذج البديلة.
من الممكن أيضًا اتباع نهج أكثر مبادئاً لإحصاءات n-grams، نمذجة التشابه على أنها احتمالية أن سلسلتين جاءت من نفس المصدر مباشرة من حيث مشكلة في الاستدلال البايزي.
يمكن أيضًا استخدام البحث المستند إلى n-grams في كشف السرقة الأدبية.
تطبيقات أخرى
تستخدم n-grams في العديد من مجالات علوم الحاسب، اللغويات الحاسوبية، والرياضيات التطبيقية. لقد تم استخدامها من أجل:
- تصميم الأنوية الذي يسمح تعلم الآلة الخوارزميات مثل آلات متجهات الدعم بالتعلم من بيانات السلسلة
- البحث عن مرشحين محتملين للتهجئة الصحيحة للكلمة التي بها أخطاء إملائية
- تحسين الضغط في خوارزميات الضغط حيث تتطلب مساحة صغيرة من البيانات n-grams ذات طول أكبر
- تقييم احتمالية ظهور تسلسل كلمات معين في نص لغة ذات أهمية في أنظمة التعرف على الأنماط، التعرف على الكلام، التعرف الضوئي على الحروف (التعرف الضوئي على الأحرف)، التعرف الذكي على الأحرف ( ICR)، الترجمة الآلية وتطبيقات مماثلة
- تحسين الاسترجاع في أنظمة استرجاع المعلومات عندما يكون من المأمول العثور على "مستندات" مماثلة (وهو المصطلح الذي يتم توسيع المعنى التقليدي له أحياناً، اعتماداً على مجموعة البيانات) بالنظر إلى مستند استعلام واحد وقاعدة بيانات للمستندات المرجعية
- تحسين أداء الاسترجاع في تحليل التسلسل الجيني كما هو الحال في بلاست عائلة البرامج
- تحديد اللغة التي ينتمي إليها النص أو الأنواع التي تم أخذ تسلسل صغير من الحمض النووي منها
- توقع الأحرف أو الكلمات بشكل عشوائي من أجل إنشاء نص، كما هو الحال في خوارزمية الصحافة المنفصلة.
- تحليل الشفرات
الفضاء المطلوب ل n-gram
ضع في اعتبارك حرف n-gram حيث تكون الوحدات أحرفاً ونصًا يحتوي على أحرف t. الفضاء الذي يتطلبه هذا n-gram الأسي:
يمكن تركيب القطع المكافئ من خلال كل نقطة بيانات منفصلة عن طريق الحصول على ثلاثة أزواج من الإحداثيات وحل نظام خطي بثلاثة متغيرات، مما يؤدي إلى الصيغة العامة:
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
موازنة الانحياز مقابل التباين
لاختيار قيمة لـ n في نموذج n-gram، من الضروري إيجاد الموازنة الصحيحة بين ثبات التقدير مقابل ملاءمته. هذا يعني أن الشكل الثلاثي (أي الكلمات الكلمات الثلاثية) هو خيار شائع مع مجموعات التدريب الكبيرة (ملايين الكلمات)، بينما تُستخدم بايگرام غالباً مع مجموعات أصغر.
تقنيات التنعيم والتجانس
توجد مشاكل في وزن التعادل بين الگرامات النادرة (على سبيل المثال، إذا ظهر اسم علم في بيانات التدريب) و الگرامات المتكررة. أيضاً، سيتم إعطاء العناصر التي لم يتم عرضها في بيانات التدريب احتمال بقيمة 0.0 بدون تجانس. بالنسبة للبيانات غير المرئية ولكن الظاهرية من عينة، يمكن للمرء تقديم عد زائف. عادة ما يتم تحفيز العد الزائف على أسس بايزية.
من الناحية العملية، من الضروري تنعيم التوزيعات الاحتمالية عن طريق تعيين احتمالات غير صفرية أيضاً للكلمات غير المرئية أو n-gram. والسبب هو أن النماذج المشتقة مباشرة من عدد مرات التكرار n-gram تواجه مشاكل خطيرة عند مواجهتها بأي n-gram لم يتم رؤيته بوضوح من قبل - التردد الصفري مشكلة. يتم استخدام طرق تنعيم مختلفة، بدءاً من تجانس "إضافة واحد" (لابلاس) البسيط (تعيين عدد 1 إلى عدد غير مرئي n-gram؛ راجع قاعدة التعاقب) إلى نماذج أكثر تطورًا، مثل [ [حذف جيد - تورنگ]] أو نماذج التراجع. بعض هذه الطرق مكافئة لتخصيص التوزيع السابق لاحتمالات n-gram واستخدام الاستدلال البايزي لحساب احتمالات n-gram اللاحقة. ومع ذلك، لم يتم اشتقاق نماذج التنعيم الأكثر تعقيداً بهذه الطريقة، ولكن بدلاً من ذلك من خلال اعتبارات مستقلة.
- الاستيفاء الخطي (على سبيل المثال، أخذ الوسط الموزون من أحادي گرام، وبايگرام، وتريگرام)
- خصم تورنگ الجيد
- خصم ويتن بيل
- تجانس لدستون
- نموذج تراجع كاتز (تريگرام)
- تجانس كنسر-ني
سكيپ گرام
في مجال اللسانيات الحاسوبية، على وجه الخصوص نمذجة اللغة،[9] سكيپ گرامز عبارة عن تعميم لـ n-grams حيث لا يلزم أن تكون المكونات (الكلمات عادةً) متتالية في النص قيد الدراسة، ولكنها قد تترك فجوات يتم تخطيها.[10] أنها توفر طريقة واحدة للتغلب على مشكلة تناثر البيانات الموجودة في تحليل الگرام التقليدي.
اصطلاحياً، n-gram هو تتابع متتالي لطول n لبعض التسلسلات المميزة w1 … wn. k-skip-n-gram هو طول n الذي يظهر على مسافة k على الأكثر من بعضها البعض .
على سبيل المثال، في نص الإدخال:
- يتساقط المطر في إسبانيا بشكل رئيسي على السهل
مجموعة 1-skip-2-grams تشمل كل بايگرام (2-grams) بالإضافة إلى ما يليها
- في، مطر إسبانيا، في هطولات، إسبانيا بشكل رئيسي، يسقط على، بشكل رئيسي وعلى السهل
n-grams النحوية
n-grams النحوية هي n-grams محددة بواسطة المسارات في التبعية النحوية أو الأشجار المكونة بدلاً من البنية الخطية للنص.[11][12][13] على سبيل المثال، يمكن تحويل الجملة "للأخبار الاقتصادية تأثير ضئيل على الأسواق المالية" إلى صيغة n-grams بعد هيكل الشجرة علاقات التبعية: أخبار-اقتصادية، تأثير ضئيل، تأثير على الأسواق المالية.[11]
تهدف n-grams النحوية إلى عكس البنية النحوية بشكل أكثر أمانةً من n-grams الخطية، ولها العديد من التطبيقات نفسها، خاصةً كميزات في نموذج فضاء المتجه. تعطي n-grams النحوية لمهام معينة نتائج أفضل من استخدام n-grams النحوية، على سبيل المثال، لإسناد المؤلف.[14]
نوع آخر من n-grams النحوية هي n-grams جزء من الكلام، يتم تعريفها على أنها متداخلة متجاورة بطول ثابت يتم استخلاصها من تسلسلات جزء من النص. n-grams جزء من الكلام لها عدة تطبيقات، أكثرها شيوعاً في استرجاع المعلومات.[15]
انظر أيضاً
- Collocation
- Hidden Markov model
- n-tuple
- String kernel
- MinHash
- Feature extraction
- Longest common substring problem
المراجع
- ^ Broder, Andrei Z.; Glassman, Steven C.; Manasse, Mark S.; Zweig, Geoffrey (1997). "Syntactic clustering of the web". Computer Networks and ISDN Systems. 29 (8): 1157–1166. doi:10.1016/s0169-7552(97)00031-7.
- ^ https://www.coursera.org/learn/natural-language-processing/lecture/UnEHs/07-01-noisy-channel-model-8-33
- ^ Alex Franz and Thorsten Brants (2006). "All Our N-gram are Belong to You". Google Research Blog. Retrieved 16 ديسمبر 2011.
- ^ Ted Dunning (1994). "Statistical Identification of Language". Technical Report MCCS. New Mexico State University: 94–273. CiteSeerX 10.1.1.48.1958.
- ^ Soffer, A (1997). "Image categorization using texture features". Proceedings of the Fourth International Conference on Document Analysis and Recognition. Vol. 1. p. 237. CiteSeerX 10.1.1.31.1649. doi:10.1109/ICDAR.1997.619847. ISBN 978-0-8186-7898-1. S2CID 16285579.
{{cite book}}
:|journal=
ignored (help) - ^ Tomović, Andrija; Janičić, Predrag; Kešelj, Vlado (2006). "n-Gram-based classification and unsupervised hierarchical clustering of genome sequences". Computer Methods and Programs in Biomedicine. 81 (2): 137–153. doi:10.1016/j.cmpb.2005.11.007. PMID 16423423.
- ^ Wołk, K.; Marasek, K.; Glinkowski, W. (2015). "Telemedicine as a special case of Machine Translation". Computerized Medical Imaging and Graphics. 46 Pt 2: 249–56. arXiv:1510.04600. Bibcode:2015arXiv151004600W. doi:10.1016/j.compmedimag.2015.09.005. PMID 26617328. S2CID 12361426.
- ^ Wołk K., Marasek K. (2014). "Polish-English Speech Statistical Machine Translation Systems for the IWSLT 2014" in Proceedings of the 11th International Workshop on Spoken Language Translation. Tahoe Lake, USA..
- ^ Huang, Xuedong; Alleva, Fileno; Hon, Hsiao-wuen; Hwang, Mei-yuh; Rosenfeld, Ronald (1 يناير 1992). "The SPHINX-II Speech Recognition System: An Overview". Computer Speech & Language. 7 (2): 137–148. CiteSeerX 10.1.1.45.1629. doi:10.1006/csla.1993.1007.
- ^ David Guthrie; et al. (2006). "A Closer Look at Skip-gram Modelling" (PDF). Archived from the original (PDF) on 17 مايو 2017. Retrieved 27 أبريل 2014.
- ^ أ ب Sidorov, Grigori; Velasquez, Francisco; Stamatatos, Efstathios; Gelbukh, Alexander; Chanona-Hernández, Liliana (2013). "Syntactic Dependency-Based N-grams as Classification Features" (PDF). In Batyrshin, I.; Mendoza, M. G. (eds.). Advances in Computational Intelligence. Lecture Notes in Computer Science. Vol. 7630. pp. 1–11. doi:10.1007/978-3-642-37798-3_1. ISBN 978-3-642-37797-6.
- ^ Sidorov, Grigori (2013). "Syntactic Dependency-Based n-grams in Rule Based Automatic English as Second Language Grammar Correction". International Journal of Computational Linguistics and Applications. 4 (2): 169–188.
- ^ Figueroa, Alejandro; Atkinson, John (2012). "Contextual Language Models For Ranking Answers To Natural Language Definition Questions". Computational Intelligence. 28 (4): 528–548. doi:10.1111/j.1467-8640.2012.00426.x.
- ^ Sidorov, Grigori; Velasquez, Francisco; Stamatatos, Efstathios; Gelbukh, Alexander; Chanona-Hernández, Liliana (2014). "Syntactic n-Grams as Machine Learning Features for Natural Language Processing". Expert Systems with Applications. 41 (3): 853–860. doi:10.1016/j.eswa.2013.08.015.
- ^ Lioma, C.; van Rijsbergen, C. J. K. (2008). "Part of Speech n-Grams and Information Retrieval" (PDF). French Review of Applied Linguistics. XIII (1): 9–22 – via Cairn.
للاستزادة
- Christopher D. Manning, Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press: 1999. ISBN 0-262-13360-1.
- White, Owen; Dunning, Ted; Sutton, Granger; Adams, Mark; Venter, J.Craig; Fields, Chris (1993). "A quality control algorithm for dna sequencing projects". Nucleic Acids Research. 21 (16): 3829–3838. doi:10.1093/nar/21.16.3829. PMC 309901. PMID 8367301.
- Frederick J. Damerau, Markov Models and Linguistic Theory. Mouton. The Hague, 1971.
- Figueroa, Alejandro; Atkinson, John (2012). "Contextual Language Models For Ranking Answers To Natural Language Definition Questions". Computational Intelligence. 28 (4): 528–548. doi:10.1111/j.1467-8640.2012.00426.x.
- Brocardo, Marcelo Luiz (2013). "Authorship Verification for Short Messages Using Stylometry" in IEEE Intl. Conference on Computer, Information and Telecommunication Systems (CITS)..
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
وصلات خارجية
- Google's Google Book n-gram viewer and Web n-grams database (September 2006)
- Microsoft's web n-grams service
- STATOPERATOR N-grams Project Weighted n-gram viewer for every domain in Alexa Top 1M
- 1,000,000 most frequent 2,3,4,5-grams from the 425 million word Corpus of Contemporary American English
- Peachnote's music ngram viewer
- Stochastic Language Models (n-Gram) Specification (W3C)
- Michael Collins's notes on n-Gram Language Models
- OpenRefine: Clustering In Depth
- CS1 errors: periodical ignored
- Articles with hatnote templates targeting a nonexistent page
- Articles lacking in-text citations from February 2011
- All articles lacking in-text citations
- جميع الصفحات التي تحتاج تنظيف
- مقالات بالمعرفة تحتاج توضيح from December 2017
- جميع المقالات الحاوية على عبارات مبهمة
- جميع المقالات الحاوية على عبارات مبهمة from June 2014
- Articles with unsourced statements from November 2011
- Use dmy dates from April 2017
- معالجة اللغات الطبيعية
- لسانيات حاسوبية
- Language modeling
- Speech recognition
- Corpus linguistics
- Probabilistic models