إيمِج نت

(تم التحويل من ImageNet)

إيمِج نت ImageNet، هي قاعدة بيانات بصرية ضخمة مخصصة لتستخدم في أبحاث برمجيات تمييز الأشياء بصرياً. هناك أكثر من 14 مليون[1][2] صورة تم شرحها يدوياً بواسطة المشروع للإشارة إلى الأشياء التي تم تصويرها وفي ما لا يقل عن مليون صورة، يتم توفير المربعات المحيطة أيضاً.[3] يحتوي إيمِج نت على أكثر من 20000 تصنيف[2] بتصنيف نموذجيي، مثل "بالون" أو "فراولة"، وتتألف من عدة مئات من الصور.[4]قاعدة بيانات التعليقات التوضيحية لصور الطرف الثالث sURL متاحة مجاناً مباشرة من إيمِج نت، على الرغم من أن الصور الفعلية ليست مملوكة لشركة إيمِج نت.[5] منذ عام 2010، يدير مشروع إيمِج نت مسابقة برمجية سنوية، تحدي التعرف البصري على نطاق واسع من إيمِج نت ( ILSVRC)، حيث تتنافس البرامج لتصنيف الأشياء والمشاهد واكتشافها بشكل صحيح. يستخدم التحدي قائمة "مقصوصة" من ألف فئة غير متداخلة.[6]

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

أهمية التعلم العميق

في 30 سبتمبر 2012، أطلقت الشبكة العصبية التلافيفية (CNN) اسم AlexNet[7] والذي حقق أعلى 5 خطأ بنسبة 15.3٪ في تحدي إيمِج نت 2012، أي أقل بأكثر من 10.8 نقطة مئوية من خطأ الوصيف. أصبح هذا ممكناً بسبب استخدام وحدات معالجة الرسومات (GPUs) أثناء التدريب،[7] عنصر أساسي في ثورة التعلم العميق. وفقًا لـالإكونومست، "فجأة بدأ الناس في الانتباه، ليس فقط داخل مجتمع الذكاء الاصطناعي ولكن عبر صناعة التكنولوجيا ككل."[4][8][9]

في عام 2015، تفوقت شبكة CNN العميقة جداً التابعة لشركة مايكروسوفت على AlexNet بأكثر من 100 طبقة، والتي فازت في مسابقة إيمِج نت 2015.[10]


تاريخ قاعدة البيانات

بدأ باحث الذكاء الاصطناعي فاي-فاي لي العمل على فكرة إيمِج نت في عام 2006. في الوقت الذي ركزت فيه معظم أبحاث الذكاء الاصطناعي على النماذج والخوارزميات، أراد لي توسيع وتحسين البيانات المتاحة لتدريب خوارزميات الذكاء الاصطناعي.[11] في عام 2007، التقى لي بأستاذ جامعة پرينستون كريستيان فيلبوم، أحد مبتكري وورد نت لمناقشة المشروع. نتيجة لهذا الاجتماع، استمر لي في بناء إيمِج نت بدءاً من قاعدة بيانات الكلمات في وورد نت وباستخدام العديد من ميزاتها.[12]

بصفته أستاذاً مساعداً في جامعة پرينستون، قام لي بتجميع فريق من الباحثين للعمل في مشروع إيمِج نت. وقد استخدموا Amazon Mechanical Turk للمساعدة في تصنيف الصور.[12]

وقاموا بتقديم قاعدة البيانات الخاصة بهم لأول مرة كملصق إعلان في 2009 مؤتمر حول رؤية الحاسوبية والتعرف على الأنماط (CVPR) في فلوريدا.[12][13][14]

مجموعة البيانات

يحشد إيمِج نت عملية التعليق التوضيحي. تشير التعليقات التوضيحية على مستوى الصورة إلى وجود أو عدم وجود فئة كائن في صورة ما، مثل "هناك نمور في هذه الصورة" أو "لا توجد نمور في هذه الصورة". توفر التعليقات التوضيحية على مستوى الكائن مربعاً محيطاً حول (الجزء المرئي من) الكائن المشار إليه. تستخدم إيمِج نت مجموعة متنوعة من مخطط وورد نت الواسع لتصنيف الكائنات، معززاً بـ 120 فئة من سلالات الكلاب لعرض التصنيف الدقيق.[6] أحد الجوانب السلبية لاستخدام وورد نت هو أن التصنيفات قد تكون "مرتفعة" أكثر مما قد تكون مثالية لـ إيمِج نت: "يهتم معظم الأشخاص بـ ليدي گاگا أو آي پود ميني أكثر من هذا النوع النادر من ديپلودوكس."[مطلوب توضيح] في عام 2012، كانت إيمِج نت أكبر مستخدم أكاديمي في العالم لبرنامج Mechanical Turk. حيث حدد العامل العادي 50 صورة في الدقيقة.[2]

History of the ImageNet challenge

سجل معدل الخطأ على إيمِج نت (حيث يعرض أفضل نتيجة لكل فريق وما يصل إلى 10 إدخالات في السنة)

يهدف ILSVRC إلى "اتباع خطى" تحدي PASCAL VOC الأصغر حجماً، والذي تم إنشاؤه في عام 2005، والذي احتوى فقط على حوالي 20000 صورة وعشرين فئة كائن.[6] من أجل "إضفاء الطابع الديمقراطي" على ImageNet، اقترح فاي-فاي لي على فريق PASCAL VOC تعاوناً، بدءاً من عام 2010، حيث ستقوم فرق البحث بتقييم الخوارزميات الخاصة بهم على مجموعة البيانات المحددة، والتنافس لتحقيق دقة أعلى في العديد من مهام التعرف البصري.[12]

تُعرف المنافسة السنوية الناتجة الآن باسم تحدي التعرف البصري على نطاق واسع على إيمِج نت (ILSVRC). يستخدم ILSVRC قائمة "مقصوصة" من 1000 تصنيف أو "فئة" للصور فقط، بما في ذلك 90 سلالة من 120 سلالة كلاب مصنفة حسب مخطط إيمِج نت الكامل.[6]شهد العقد الأول من القرن الحادي والعشرين تقدماً هائلاً في معالجة الصور. حوالي عام 2011، كان تصنيف ILSVRC الجيد من أعلى 5 معدلات خطأ 25 ٪. في عام 2012، حققت الشبكة العصبية التلافيفية العميقة المسماة AlexNet 16٪؛ في العامين المقبلين، انخفضت معدلات الخطأ الخمسة الأولى إلى نسبة مئوية قليلة.[15] في حين أن الإنجاز الذي حققه عام 2012 "جمع القطع التي كانت موجودة من قبل"، كان التحسن الكمي الهائل بمثابة بداية لازدهار الذكاء الاصطناعي على مستوى الصناعة.[4]بحلول عام 2015، أفاد باحثون في مايكروسوفت أن شبكات CNN الخاصة بهم تجاوزت القدرة البشرية في مهام ILSVRC المحدودة.[10][16] ومع ذلك، وكما أشارت إحدى منظمي التحدي، أولگا روساكوڤسكي، في عام 2015، يجب على البرامج فقط تحديد الصور على أنها تنتمي إلى تصنيف من ألف تصنيف؛ يمكن للبشر التعرف على عدد أكبر من التصنيفات، وأيضاً (على عكس البرامج) يمكنهم الحكم على سياق الصورة.[17]

بحلول عام 2014، شاركت أكثر من خمسين مؤسسة في ILSVRC.[6] في عام 2015، تم حظر علماء باي‌دو لمدة عام لاستخدامهم حسابات مختلفة لتتجاوز حداً محدداً لتقديم رسالتين في الأسبوع.[18][19] وقد صرحت باي‌دو لاحقاً أنها فصلت قائد الفريق المعني وأنها ستنشئ لجنة استشارية علمية.[20]

في عام 2017، كان لدى 29 فريقاً من أصل 38 فريقاً متنافساً دقة تزيد عن 95٪.[21] في عام 2017، ذكرت إيمِج نت أنها ستطرح تحدياً جديداً أكثر صعوبة في عام 2018 يتضمن تصنيف كائنات ثلاثية الأبعاد باستخدام لغة طبيعية. نظراً لأن إنشاء بيانات ثلاثية الأبعاد يعد أكثر تكلفة من التعليق التوضيحي على صورة ثنائية الأبعاد موجودة مسبقًا، فمن المتوقع أن تكون مجموعة البيانات أصغر. تتراوح تطبيقات التقدم في هذا المجال من الملاحة الآلية إلى الواقع المعزز.[1]

التحيز في إيمِج نت

وصفت دراسة لتاريخ الطبقات المتعددة ( التصنيف، وفئات الكائنات ووضع العلامات) في إيمِج نت و وورد نت في عام 2019 كيف أن التحيز مضمّن بعمق في معظم مناهج التصنيف لجميع أنواع الصور.[22][23][24][25] حيث تعمل إيمِج نت على معالجة مختلف مصادر التحيز.[26]

انظر أيضاً

References

  1. ^ أ ب "New computer vision challenge wants to teach robots to see in 3D". New Scientist. 7 April 2017. Retrieved 3 February 2018.
  2. ^ أ ب ت Markoff, John (19 November 2012). "For Web Images, Creating New Technology to Seek and Find". The New York Times. Retrieved 3 February 2018.
  3. ^ "ImageNet Summary and Statistics". ImageNet. Retrieved 22 June 2016.
  4. ^ أ ب ت "From not working to neural networking". The Economist. 25 June 2016. Retrieved 3 February 2018.
  5. ^ "ImageNet Overview". ImageNet. Retrieved 22 June 2016.
  6. ^ أ ب ت ث ج Olga Russakovsky*, Jia Deng*, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, Alexander C. Berg and Li Fei-Fei. (* = equal contribution) ImageNet Large Scale Visual Recognition Challenge. IJCV, 2015.
  7. ^ أ ب Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E. (June 2017). "ImageNet classification with deep convolutional neural networks" (PDF). Communications of the ACM. 60 (6): 84–90. doi:10.1145/3065386. ISSN 0001-0782. S2CID 195908774. Retrieved 24 May 2017.
  8. ^ "Machines 'beat humans' for a growing number of tasks". Financial Times. 30 November 2017. Retrieved 3 February 2018.
  9. ^ Gershgorn, Dave; Gershgorn, Dave. "The inside story of how AI got good enough to dominate Silicon Valley". Quartz. Retrieved 10 December 2018.
  10. ^ أ ب He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). "Deep Residual Learning for Image Recognition". 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR): 770–778. arXiv:1512.03385. doi:10.1109/CVPR.2016.90. ISBN 978-1-4673-8851-1. S2CID 206594692.
  11. ^ Hempel, Jesse (13 November 2018). "Fei-Fei Li's Quest to Make AI Better for Humanity". Wired. Retrieved 5 May 2019. When Li, who had moved back to Princeton to take a job as an assistant professor in 2007, talked up her idea for ImageNet, she had a hard time getting faculty members to help out. Finally, a professor who specialized in computer architecture agreed to join her as a collaborator.
  12. ^ أ ب ت ث Gershgorn, Dave (26 July 2017). "The data that transformed AI research—and possibly the world". Quartz. Atlantic Media Co. Retrieved 26 July 2017. Having read about WordNet's approach, Li met with professor Christiane Fellbaum, a researcher influential in the continued work on WordNet, during a 2006 visit to Princeton.
  13. ^ Deng, Jia; Dong, Wei; Socher, Richard; Li, Li-Jia; Li, Kai; Fei-Fei, Li (2009), "ImageNet: A Large-Scale Hierarchical Image Database", 2009 conference on Computer Vision and Pattern Recognition 
  14. ^ Li, Fei-Fei, How we're teaching computers to understand pictures, https://www.ted.com/talks/fei_fei_li_how_we_re_teaching_computers_to_understand_pictures?language=en, retrieved on 16 December 2018 
  15. ^ Robbins, Martin (6 May 2016). "Does an AI need to make love to Rembrandt's girlfriend to make art?". The Guardian. Retrieved 22 June 2016.
  16. ^ Markoff, John (10 December 2015). "A Learning Advance in Artificial Intelligence Rivals Human Abilities". The New York Times. Retrieved 22 June 2016.
  17. ^ Aron, Jacob (21 September 2015). "Forget the Turing test – there are better ways of judging AI". New Scientist. Retrieved 22 June 2016.
  18. ^ Markoff, John (3 June 2015). "Computer Scientists Are Astir After Baidu Team Is Barred From A.I. Competition". The New York Times. Retrieved 22 June 2016.
  19. ^ "Chinese search giant Baidu disqualified from AI test". BBC News. 14 June 2015. Retrieved 22 June 2016.
  20. ^ "Baidu fires researcher involved in AI contest flap". PC World. 11 June 2015. Retrieved 22 June 2016.
  21. ^ Gershgorn, Dave (10 September 2017). "The Quartz guide to artificial intelligence: What is it, why is it important, and should we be afraid?". Quartz. Retrieved 3 February 2018.
  22. ^ "The Viral App That Labels You Isn't Quite What You Think". Wired. ISSN 1059-1028. Retrieved 22 September 2019.
  23. ^ Wong, Julia Carrie (18 September 2019). "The viral selfie app ImageNet Roulette seemed fun – until it called me a racist slur". The Guardian. ISSN 0261-3077. Retrieved 22 September 2019.
  24. ^ Crawford, Kate; Paglen, Trevor (19 September 2019). "Excavating AI: The Politics of Training Sets for Machine Learning". -. Retrieved 22 September 2019.{{cite web}}: CS1 maint: url-status (link)
  25. ^ Lyons, Michael (4 September 2020). "Excavating "Excavating AI": The Elephant in the Gallery". arXiv:2009.01215 [cs.CY].
  26. ^ "Towards Fairer Datasets: Filtering and Balancing the Distribution of the People Subtree in the ImageNet Hierarchy". image-net.org. 17 September 2019. Retrieved 22 September 2019.{{cite web}}: CS1 maint: url-status (link)

وصلات خارجية