تاريخ برمجيات التعرف على الكلام

بظهور أحدث برمجيات تعرُّف الكلام، يصبح صوتُك أمرا للحاسوب

في الشهر5/2002قمتُ بتركيب مقياس مسافات odometer على فأرة حاسوبي الشخصي. وهي في واقع الأمر ليست الفأرة المعهودة، بالنظر إلى أنني تحوَّلت عام 2001 إلى استعمال ما يسمى كرَة المسار trackball 1 ، وذلك بعد أن أصيبت خنصر يدي التي تستعمل الفأرة بألم شديد منعني من ثنيها. ثم إن ما ركَّبته ليس مقياس مسافات حقيقيا، بل برنامجا مجانيا (متاحا لنظام ويندوز على الموقع www.modometer.com) يتعقب حركات مؤشر الشاشة cursor ونقرات الأزرار والمفاتيح. وقد ذُهلت حقا عندما دققت في النتائج فوجدت أن أناملي قد حركت ذلك السهم المؤشِّر الصغير اللعين، في غضون خمسة أيام، مسافة 2440 قدما في أرجاء الشاشة، وأن إبهامي أدى 719 21نقرة. فلا غرو بعد كل ذلك أن ينتشر الألم إلى سائر يدي.

كنت مدركا ما سيؤول إليه الأمر. فزوجتي من قبل عانت أذية ناشئة عن الضغط المتكرر باليد على فأرة حاسوبها. ولستة أشهر كانت حالها تسوء، إلى درجة جعلتها تجفل لمجرد التقاط مجلة ما. لقد دامت معاناتها مدة طويلة تعاطت في أثنائها العلاج الفيزيائي، وتبريد اليد بالثلج كل ليلة، والنوم بسناد للرسغ، واستعمال أداة تأشير غريبة لها شكل عصا التحكم joystick تسمى الفأرة M3 الحديثة، وذلك قبل أن تسترد كامل قدرتها على استعمال ذراعها. ولم أكن أنا بالطبع تواقا لأن أحذو حذوها، بل كان الوقت قد حان ـ بعد كل تلك المعاناة ـ لاختبار طريقة جديدة للتحكم في حاسوبي الشخصي: عن طريق الصوت!

كنت حريصا على تقييم الحالة الراهنة لأحدث التطورات في هذه الطريقة الفنية المثيرة. وكنت قد جربت أسلوب التحكم في الصوت أول مرة منذ نحو عشر سنوات، عندما أدخلته الشركة آپل Apple في نظام التشغيل لحواسيب ماكنتوش، ولم تتمكن البرمجيات وقتها من تعرف أكثر من بضع عشرات من الأوامر المنطوقة، وببطء شديد، كان من شأنه أن يحيل هذه الطريقة إلى مجرد أُلهيةٍ ليس إلا.

اهمس إلى حاسوبك بأمر ما ـ كما يفعل كل منا أحيانا ـ تجد أنه غالبا ما يتجاهل أمرك. زوِّده ببرنامج حديث من برامج التحكم في الصوت تَرَ أنه قد انقاد لأوامرك الشفهية تماما

.

على أن وكالة مشروعات أبحاث الدفاع المتقدمة (DARPA) شرعت بعد ذلك في توظيف ملايين الدولارات سنويا في مضمار التدوين المؤتمت للكلام automated speech transcription. وانطلق المشروع فعلا، وبدأت معدلات الأخطاء تتناقص بنسبة 10 إلى 15% سنويا. وبحلول عام 1996 تمكنت الحزمة البرمجية Naturally Speaking التي أصدرتها الشركة دراگون سيستمز Dragon Systems، والتي تعمل على أحدث الحواسيب الشخصية تقانة، من أن تتمثل إملاءً على درجة من الفاعلية تعادل ما يتمثله طالب جامعي غلب عليه النعاس. أما بالنسبة إلى المهمات الحاسوبية التي تتخطى إدخال نص، فقد أخفقت تقريبا.

إلا أن هذا الواقع تغير بظهور أحدث إصدارات الحزمة NaturallySpeaking ومنافستها الرئيسية ڤياڤويس ViaVoice من IBM، وكلتاهما لاتزالان قيد إجرائيات التحسين وصولا إلى الفاعلية المثلى في الإملاء. إلا أنهما تتيحان حاليا الانتقاء من قائمة الخيارات، والضغط على الأزرار، وتدقيق البريد الإلكتروني، وتصفح الوِبْ، بل وحتى دفع المؤشر على الشاشة دون تطبيق أي ضغط بالإصبع.

وقد آثرتُ اختبار حزمة ڤياڤويس بالذات لثلاثة أسباب: فكلفة الإصدار التاسع من ViaVoice Pro USB ـ البالغة 219 دولارا ـ هي أقل من ثلث كلفة الإصدار السادس الاحترافي من حزمة NaturallySpeaking. ومع أنه بالإمكان الحصول على مكبِّر صوت (ميكروفون) رأسي مع أي من الحزمتين، إلا أن للحزمة الموسومة ViaVoice Pro شيپة لمعالجة الإشارة حسب الطلب custom signal-processing chip للتخلص من ضجيج الخلفية background noise الذي من شأنه أن يُحدِث في الحاسوب تشويشا إلى حد بعيد.

ثم إنه لا يسعني إلا أن أشعر بعدم الثقة لمستقبل حزمة NaturallySpeaking. فقد آلت ملكية الشركة Dragon Systems برمتها إلى الشركة Lernout & Hauspie التي كانت متورطة عام 2001 في فضيحة محاسبية. ومع أن منتجات الكلام speech products لهذه الشركة قد بيعت إلى الشركة ScanSoft في الشهر12/2001، فليس من المحتمل فيما يبدو أن تكون هذه الشركة الصغيرة نسبيا قادرة على مجاراة أعمال الشركة IBM الواسعة في شتى مجالات البحث والتطوير.

وبالفعل، أعلنت الشركة IBM في الشهر3/2002عن زيادة عدد الباحثين العاملين لديها في تقانات الكلام، سعيا إلى تحقيق هدفها الطموح، الذي يستغرق عشر سنوات، المتمثل في بناء نُظُم تستطيع ـ بوثوقية كاملة ـ تدوين (ومعالجة) المحادثات التي تجري في غرف ضاجة، بين أفراد لم تُعرَض أصواتُهم من قبل على الحاسوب البتة. ويقول <D.ناهامو>[مدير مجموعة البحث في الشركة IBM]: «لدينا اليوم أكثر من مئة باحث يعملون في مجال تقانات الكلام، وعدد مماثل ممن يعملون في مجال فهم اللغة الطبيعية».

إن إدراك الكلمة المنطوقة هو، شئنا أم أبينا، غاية ما ننتظره من حواسيب «تصغي» إلينا. وقد رأينا في السينما والتلفاز آلاف المرات كيف يتعين علينا أن نكون قادرين على مخاطبة حواسيبنا. ها هو الربان <پيكارد> يخاطب شاشة الحاسوب: «افتح قناة مأمونة للأميرال نيتشاييڤ»، وهذا رائد الفضاء <ديڤ> يناشد نظام HAL 9000: «هلا فتحت أبواب حُجيرة الحواضن!» إذن علينا إعطاء الأمر وعلى الآلة التنفيذ، فإذا أخفقتْ أعلنت عن إخفاقها بأدب جم، كأن تقول: «عذرا يا ديڤ، يؤسفني أن ليس بمقدوري فعلُ ذلك.»

إن حزمة ڤياڤويس لا تعي اللغة الإنكليزية، بل تستعين بما يسمى «قواعد غير مقيدة بالسياق» context-free grammar، وهي ـ من حيث المبدأ ـ لائحة بالعبارات التي يمكن أن تستمع إليها الحزمة، مقرونة بضوابط بسيطة تربط العبارات بعضها ببعض؛ وهذا يتيح لها أن تتصنع الفهم.

وقد قمت بتركيب حزمة ڤياڤويس على حاسوبي الشخصي في المكتب، ثم عكفت على البرمجيات أدربها على تعرف أسلوبي في الكلام. فإذا قلتُ: «دققي رسائلي» أطلقت البرمجيات برنامج البريد الإلكتروني الخاص بي المسمى Microsoft Outlook، علما بأن ڤياڤويس صممت لتعمل مع البرنامج Outlook وغيره من برامج المجموعة Microsoft Office. ومن ثم بإمكاني أيضا أن أطلب «تدقيق البريد الإلكتروني» أو «استعراض البريد الإلكتروني» أو حتى «إرسال رسالة إلكترونية إلى <J.ريني> » أو إلى شخص آخر أُدرِجَ اسمه في دفتر العناوين address book 2 الخاص بي، إذ إن بإمكان الحزمة تمييز مثل هذه اللائحة الشاملة من المترادفات بصورة تُظهرها ـ في سياق البرنامج Outlook ـ أقرب إلى الذكاء.

ومع ذلك، علينا الآن أن نتهيأ لشيء من الإحباط إذا ما حاولنا مخاطبة البرامج الأخرى بهذه الدرجة من التبسط. فعندما أعطيتُ الأمر: «افتح مجلد (وثائقي الشخصية)» "Open (My Documents) folder"، كانت تلك هي المحاولة الثالثة للإيعاز إلى ڤياڤويس لحمل مستكشف ويندوز اكسپلورر على فتح الملف الذي أحفظ فيه جميع أعمالي؛ إذ لم تستجب الحزمة لمحاولتيَّ السابقتين. أما الآن فهي تعرض فعلا ما توهَّمَت أن طلبي هو: "Open new document and its alter"، وتحاول تنفيذ هذا الأمر المحيِّر! وهذا يدل على أن مبرمجي حزمة ڤياڤويس لم يكوِّدوا عبارات كثيرة في مدير ملفات ويندوز كما فعلوا في برنامج Outlook.

لكن حزمة ڤياڤويس، في كل تطبيق فتحْته، كانت تستجيب استجابة وثيقة لأسماء خيارات القائمة menu options، والعناوين على أزرار مربعات الحوار dialogue boxes (وهي المستطيلات المزعجة الرمادية اللون التي تظهر لِتَعْرِض أخطاءً وتطرح أسئلة). فما إن تعلمتُ إعطاء الأوامر بالصيغة الدقيقة التي تتوقعها حزمة ڤياڤويس، حتى صار بإمكاني تقليب الشاشة نحو الأعلى ونحو الأسفل، وضبط حجم النوافذ، وفتح البرامج وإغلاقها، وكذلك إجراء عمليات تبديل بين مختلف المهام دون الحاجة إلى استعمال كرة المسار. يجدر بالذكر أن التحكم في الصوت كان أكثر الوسائل فائدة للتجول في صفحات شبكة الوب. فما عليك إلا أن تقرأ الكلمات الأولى من الرابط (الوصلة) link لتفتح الصفحة، وأن تنطق باسم أي موقع حددته ليظهر. فلو طلبت بالنطق «إظهار الأوامر» لوجدت أن حزمة ڤياڤويس قد وسمت جميع الروابط البيانية الفائقة graphic hyperlinks على الصفحة الحالية بأرقام تتيح لك «النقر» على صور وكلمات بمجرد النطق بالأرقام المناسبة.

وسرعان ما اكتسبت حزمة ڤياڤويس المهارة في إدراك معنى أوامري بغض النظر عن درجة انخفاض صوتي أو سرعة كلامي، بل لقد ازدادت دقة تمييزها عندما نطقت كلماتي بسرعة. وانقضى أسبوع وأنا أستعمل هذه البرمجيات، ثم نظرت إلى مقياس المسافات على فأرة حاسوبي، فظهر عليه الرقم 1564 قدما. وهذا يعني أن حزمة ڤياڤويس قد اختصرت استعمال الفأرة ـ حتى وأنا في مراحل التعلم الأولى ـ بنحو الثلث في البريد الإلكتروني، وبما يزيد على النصف في إدارة الملفات، وبمقدار الثلثين في مجال التجول في شبكة الوب. وهكذا انقطع الألم في ذراعي وتحسّنت حالها كثيرا. وأدركت الآن تماما أن التحكم في الصوت ـ مع كل عيوبه وعدم اكتماله ـ له مزايا ترجح على مثالبه وكلفته المادية. وأعتقد أنني سوف أستخدم هذه البرمجيات في بيتي كذلك، فقد تغني عن النماذج المتعددة الأصوات، ومن ثم سيكون بإمكاني وزوجتي الهمس إلى حاسوبنا الشخصي والتعامل معه على هذا النحو بشعور من الرضا والاطمئنان.

الأبحاث والتطوير


سيري هو نتيجة الأبحاث من SRI الدولية مركز الذكاء الاصطناعي، وهي فرع من المشروع كالو التى تقوم بتمويله داربا .[1][2]

المناطق الفنية الأولية التى تركز علىها سيري هى واجهة المحادثة الشخصية سياق التوعية وخدمة الوفود.[3]

سيري في التعرف على الكلام ويعتقد محرك الواجب تقديمها من قبل نيوانس للإتصالات، وهي شركة تكنولوجيا الكلام، رغم انه لم يتم الاعتراف رسميا بها من قبل أي من أبل أو نيوانس.[4]

يسمى صوت الذكر في خدمة سيرى تحت اللغة الإنجليزية بلكنة المملكة المتحدة هو "دانيال" الذى يلقيها جون بريغز ، وهو صحفي سابق في مجال التكنولوجيا. تم تسجيل صوته لScansoft ، التي اندمجت مع نيوانس اتصالات في أكتوبر 2005، على الرغم من ان أبل لم تؤكد أي إرتباط مع نيوانس بخصوص سيري.[5]

ويسمى الصوت الاسترالية النسائى "كارين" والتي تلقيها كارين جاكوبسن، وهو أسترالية المولد ومقرها نيويورك وهى مغنية وفى مجال الترفيه والتسلية ، فنانة وشاعرة.[6] جاكوبسن هو أيضا الصوت الاسترالي في جهاز الملاحة GPS للشركة الألمانية، نافمان، توم توم و ميو ورلدوايد.[7]

تطبيق سيري الأصلي الاعتماد عليها عدد من الشركاء، بما في ذلك:

مصادر في تنفيذ أبل سيري من تختلف من تطبيق اي فون الأصلي. أنها تدمج مع وظيفة نظام التشغيل Iosالافتراضي ، مثل التقويمات وجهات الاتصال والرسائل النصية. كما أنها تدعم البحث من جوجل، بنج، وياهو، ويكيبيديا ولفرام ألفا.[9] بالإضافة إلى ذلك يعمل سيري مع خرائط Google وYelp! البحث في الولايات المتحدة فقط.[9]


. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

الهامش

  1. ^ ACM المعاملات على الأنظمة الذكية والتكنولوجيا (ACM TIST), http://tist.acm.org 
  2. ^ Berry, Pauline M.; Gervasio, Melinda; Peintner, Bart; Yorke-Smith, Neil (July 2011), "PTIME: Personalized assistance for calendaring", ACM TIST 2 (4), doi:10.1145/1989734.1989744, http://doi.acm.org/10.1145/1989734.1989744 
  3. ^ "What is Siri? Apple's iPhone 4S assistant explained". October 5, 2011. Retrieved November 23, 2011.
  4. ^ "Nuance Exec on iPhone 4S, Siri, and the Future of Speech". Tech.pinions. October 10, 2011. Retrieved November 23, 2011.
  5. ^ Warman, Matt (November 10, 2011). "The voice behind Siri breaks his silence". London: The Telegraph. Retrieved November 23, 2011.
  6. ^ "Karen Jacobsen - The GPS Girl". Retrieved August 27, 2012.
  7. ^ "Journal Book". Retrieved August 27, 2012.
  8. ^ "Apple Siri". Apple.com. Retrieved October 5, 2011.
  9. ^ أ ب خطأ استشهاد: وسم <ref> غير صحيح؛ لا نص تم توفيره للمراجع المسماة FAQ