پيدج رانك

(تم التحويل من PageRank)
يتم التعبير عن پيدج رانك\نظام ترتيب الصفحات الرياضياتي لشبكة بسيطة كنسب مئوية. (يستخدم محرك بحث گوگل مقياس لوغاريتمي.) تتمتع الصفحة "C" بترتيب صفحات أعلى من الصفحة "E"، على الرغم من وجود عدد أقل من الروابط المؤدية إلى C؛ يأتي الرابط الوحيد إلى C من صفحة مهمة، وبالتالي فهى ذات قيمة عالية. إذا كان لدى متصفحي الوب الذين يبدأون في صفحة عشوائية احتمالية بنسبة 85٪ لاختيار رابط عشوائي من الصفحة التي يزورونها حالياً، ونسبة 15٪ للقفز إلى صفحة تم اختيارها عشوائياً من الوب بالكامل، فسوف يصلون إلى الصفحة "E". 8.1٪ من الزمن. (إن احتمال القفز إلى صفحة عشوائية بنسبة 15٪ يتوافق مع معامل التخميد بنسبة 85٪.) بدون التخميد، سينتهي الأمر بجميع متصفحي الوب في النهاية على الصفحات A وB أو C، وستكون جميع الصفحات الأخرى پيدج رانك صفر. في ظل وجود التخميد، ترتبط الصفحة A بشكل فعال بجميع الصفحات على الوب، على الرغم من عدم وجود روابط صادرة خاصة بها.

پيدج رانك PageRank (PR) هي خوارزمية مستخدمة بواسطة بحث گوگل لترتيب صفحات الوب في نتائج محرك البحث . پيدج رانك هي طريقة لقياس أهمية صفحات الموقع. وفقاً لگوگل:

يعمل پيدج رانك عن طريق حساب عدد وجودة الروابط المؤدية إلى الصفحة لتحديد تقدير تقريبي لمدى أهمية موقع الوب. الافتراض الأساسي هو أنه من المحتمل أن تتلقى مواقع الوب الأكثر أهمية المزيد من الروابط من مواقع الوب الأخرى.[1]

في الوقت الحالي، لا تعد پيدج رانك الخوارزمية الوحيدة التي تستخدمها گوگل لطلب نتائج البحث، ولكنها أول خوارزمية تستخدمها الشركة، وهي أشهرها.[2][3] اعتباراً من 24 سبتمبر 2019، انتهت صلاحية نظام پيدج رانك\ترتيب الصفحات وجميع براءات الاختراع المرتبطة به.[4]

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

الوصف

رسم كارتوني يوضح المبدأ الأساسي لنظام پيدج رانك\ترتيب الصفحات. يتناسب حجم كل وجه مع الحجم الإجمالي للوجوه الأخرى التي تشير إليه.

پيدج رانك هي خوارزمية تحليل الروابط وتقوم بتعيين ترجيح رقمي لكل عنصر من عناصر محرر مجموعة من المستندات المرتبطة تشعبياً، مثل الشبكة العالمية، بهدف "قياس" أهميتها النسبية داخل المجموعة. يمكن تطبيق الخوارزمية على أي مجموعة من الكيانات ذات الاقتباسات والمراجع التبادلية. يشار إلى الترجيح العددي الذي يعينه لأي عنصر E على أنه پيدج رانك E ويشار إليه بواسطة

ينتج نظام پيدج رانك عن خوارزمية رياضية تستند إلى مخطط الوب ، تم إنشاؤها بواسطة جميع صفحات الوب العالمية كعقد و الارتباطات الفائقة كحواف، مع مراعاة محاور الاستناد مثل سي إن إن دوت كوم أو مايو كلنك. تشير قيمة الترتيب إلى أهمية صفحة معينة. يعتبر الارتباط التشعبي إلى صفحة بمثابة تصويت على الدعم. يتم تعريف پيدج رانك لصفحة ما بشكل متكرر ويعتمد على عدد ومقياس ترتيب الصفحات لجميع الصفحات التي ترتبط بها ("روابط واردة"). الصفحة التي يتم ربطها بالعديد من الصفحات ذات نظام ترتيب الصفحات المرتفع تحصل هي نفسها على مرتبة عالية.

تم نشر العديد من الأوراق الأكاديمية المتعلقة بـ پيدج رانك منذ ورقة پيدج وبرين الأصلية.[5]من الناحية العملية ، قد يكون مفهوم پيدج رانك عرضة للتلاعب\المعالجة. تم إجراء بحث لتحديد تصنيفات پيدج رانك المتأثرة بشكل خاطئ. الهدف هو إيجاد وسيلة فعالة لتجاهل الروابط من المستندات ذات نظام ترتيب الصفحات الذي تم تأثيره بشكل خاطئ.[6]

تتضمن خوارزميات الترتيب الأخرى المعتمدة على الارتباط لصفحات الوب خوارزمية الروابط الفائقة الناجمة عن البحث الموضوعي التي اخترعها جون كلينبرگ (يستخدمها كل من تيوما والآن أسك دوت كوم ، مشروع آي بي إم مشروع كليڤر وخوارزمية ترست رانك وخوارزمية الطائر الطنان.[7]


تاريخ

تم اقتراح مشكلة القيم والمتجهات الذاتية في عام 1976 من قبل گابرييل بينسكي وفرانسس نارين، اللذين عملا على تصنيف المجلات العلمية في ساينتومترك،[8] في عام 1977 من قِبل توماس ساعاتي في مفهومه عملية التحليل الهرمي الذي قيّم الخيارات البديلة،[9] وفي عام 1995 بواسطة برادلي لوڤ وستيڤن سلومان كـنموذج معرفي للمفاهيم، وهي خوارزمية المركزية.[10][11]

طور محرك بحث يسمى "رانك‌دكس" من خدمات معلومات IDD، صممه روبن لي في عام 1996، استراتيجية لتسجيل المواقع وترتيب الصفحات.[12] أشار لي إلى آلية البحث الخاصة به باسم "تحليل الارتباط"، والتي تضمنت تصنيف شعبية موقع الوب بناءً على عدد المواقع الأخرى التي تم ربطها به.[13]تم إطلاق رانك‌دكس، محرك البحث الأول الذي يحتوي على خوارزميات ترتيب الصفحات وتسجيل النقاط في الموقع، في عام 1996.[14] حصل لي على براءة اختراع التكنولوجيا في رانك‌دكس، مع تسجيل براءة اختراعه في عام 1997 ومنحت في عام 1999.[15]استخدمها لاحقاً عندما أسس باي‌دو في الصين عام 2000.[16][17]أشار مؤسس گوگل لاري پيدج إلى عمل لي على أنه اقتباس في بعض براءات الاختراع الأمريكية الخاصة بنظام پيدج رانك.[18][14][19]

طور لاري پيدج و سرگي برين پيدج رانك في جامعة ستانفورد في عام 1996 كجزء من مشروع بحثي حول نوع جديد من محركات البحث. مقابلة مع هيكتور گارثيا مولينا: أستاذ علوم الحاسب بجامعة ستانفورد ومستشار سرگي[20] يوفر خلفية عن تطوير خوارزمية ترتيب الصفحات.[21]كان لدى سرگي برين فكرة أن المعلومات الموجودة على الوب يمكن ترتيبها في تسلسل هرمي من خلال "شعبية الارتباط": يتم تصنيف الصفحة في مرتبة أعلى نظراً لوجود المزيد من الروابط المؤدية إليها.[22]تم تطوير النظام بمساعدة سكوت هاسن وآلان ستريمبيرگ، وكلاهما ذكرهما پيدج وبرين على أنهما عاملان حاسمان في تطوير گوگل.[5] قام راجيڤ موتواني و تيري ڤينگراد بتأليف أول ورقة بحثية حول المشروع مع پيدج و برين، والتي تصف نظام ترتيب الصفحات والنموذج الأولي لـ محرك بحث گوگل، الذي تم نشره في عام 1998.[5] بعد فترة وجيزة، أسس پيدج وبرين گوگل، الشركة التي تقف وراء محرك بحث گوگل. على الرغم من كونه أحد العوامل العديدة التي تحدد ترتيب نتائج بحث گوگل، إلا أن پيدج رانك يواصل توفير الأساس لجميع أدوات بحث الوب من گوگل.[23]

يتم تشغيل اسم "پيدج رانك" على اسم المطور لاري پيدج، بالإضافة إلى مفهوم صفحة وب.[24][25] الكلمة هي علامة تجارية لشركة گوگل، وقد تم تسجيل براءة اختراع عملية پيدج رانك (U.S. Patent 6٬285٬999 ). ومع ذلك، يتم تعيين براءة الاختراع إلى جامعة ستانفورد وليس لشركة گوگل. تمتلك گوگل حقوق ترخيص حصرية لبراءة الاختراع من جامعة ستانفورد. تلقت الجامعة 1.8 مليون سهم من گوگل مقابل استخدام براءة الاختراع؛ باعت الأسهم في عام 2005 مقابل 336 مليون دولار.[26][27]

تأثر نظام پيدج رانك بـ تحليل الاقتباس، الذي طوره في وقت مبكر يوجين گارفيلد في الخمسينيات من القرن الماضي في جامعة پنسلفانيا، وبواسطة البحث الفائق، الذي طوره ماسيمو مارشيوري في جامعة پادوا. في نفس العام تم تقديم پيدج رانك (1998)، نشر جون كلينبرگ عمله على HITS. ويستشهد مؤسسو گوگل بگارفيلد وماركيوري وكلينبرگ في أوراقهم الأصلية.[5][28]

الخوارزمية

تُخرج خوارزمية پيدج رانك توزيع الاحتمالات تُستخدم لتمثيل احتمال وصول شخص ما بشكل عشوائي عندما ينقر على الروابط إلى أي صفحة معينة. يمكن حساب نظام ترتيب الصفحات\پيدج رانك لمجموعات المستندات من أي حجم. يفترض في العديد من الأوراق البحثية أن التوزيع مقسم بالتساوي بين جميع الوثائق في المجموعة في بداية العملية الحسابية. تتطلب حسابات پيدج رانك عدة مرورات\زيارات، تسمى "التكرارات\الإعادات"، من خلال المجموعة لضبط قيم پيدج رانك التقريبية لتعكس القيمة الحقيقية النظرية بشكل أوثق.

يتم التعبير عن الاحتمال كقيمة عددية بين 0 و 1. يتم التعبير عن احتمال 0.5 بشكل عام على أنه "فرصة بنسبة 50٪" لحدوث شيء ما. وبالتالي، فإن المستند الذي يحتوي على نظام ترتيب الصفحات 0.5 يعني أن هناك احتمال بنسبة 50٪ أن يتم توجيه الشخص الذي ينقر على رابط عشوائي إلى المستند المذكور.

الخوارزمية المبسطة

افترض كوناً صغيراً من أربع صفحات وب: A و B و C و D. يتم تجاهل الروابط من صفحة إلى نفسها. يتم التعامل مع الارتباطات الصادرة المتعددة من صفحة إلى صفحة أخرى على أنها ارتباط واحد. تتم تهيئة نظام ترتيب الصفحات إلى نفس القيمة لجميع الصفحات. في الشكل الأصلي لـ پيدج رانك، كان مجموع پيدج رانكعلى جميع الصفحات هو العدد الإجمالي للصفحات على الوب في ذلك الوقت، لذلك سيكون لكل صفحة في هذا المثال قيمة أولية قدرها 1. ومع ذلك، فإن الإصدارات اللاحقة من پيدج رانك و في الجزء المتبقي من هذا القسم، افترض توزيع الاحتمالات بين 0 و 1. ومن ثم فإن القيمة الأولية لكل صفحة في هذا المثال هي 0.25.

يتم تقسيم پيدج رانك المنقولة من صفحة معينة إلى أهداف روابطها الخارجية عند التكرار التالي بالتساوي بين جميع الروابط الصادرة.

إذا كانت الروابط الوحيدة في النظام من الصفحات B، C و D' إلى A، فسيؤدي كل ارتباط إلى نقل 0.25 پيدج رانك إلى A في التكرار التالي، ليصبح المجموع 0.75.

افترض بدلاً من ذلك أن الصفحة B بها ارتباط إلى الصفحات C و A، والصفحة C بها ارتباط إلى الصفحة A والصفحة D على روابط لجميع الصفحات الثلاث. وبالتالي، عند التكرار الأول، ستنقل الصفحة B نصف قيمتها الحالية، أو 0.125، إلى الصفحة A والنصف الآخر، أو 0.125، إلى الصفحة C. ستنقل الصفحة C كل قيمتها الحالية، 0.25، إلى الصفحة الوحيدة التي ترتبط بها، A. نظراً لأن D لديه ثلاثة ارتباطات خارجية، فإنه سينقل ثلث قيمته الحالية، أو حوالي 0.083، إلى A. عند الانتهاء من هذا التكرار، ستحتوي الصفحة A على نظام پيدج رانك بما يقرب من 0.458.

بمعنى آخر، فإن پيدج رانك الممنوح من خلال ارتباط صادر يساوي درجة پيدج رانك الخاصة بالمستند مقسومة على عدد الروابط الصادرة L( ).

في الحالة العامة، يمكن التعبير عن قيمة پيدج رانك لأي صفحة u على النحو التالي:

,

على سبيل المثال، تعتمد قيمة پيدج رانك لصفحة u على قيم پيدج رانك لكل صفحة v الموجودة في المجموعة Bu (المجموعة التي تحتوي على جميع الصفحات المرتبطة بالصفحة u)، مقسومة على عدد L(v) من الروابط من الصفحة v.

معامل التخميد

تنص نظرية پيدج رانك على أن المتصفح الوهمي الذي ينقر بشكل عشوائي على الروابط سيتوقف في النهاية عن النقر. الاحتمال، في أي خطوة، أن الشخص سيستمر هو عامل تخميد d. لقد اختبرت دراسات مختلفة عوامل التخميد المختلفة، ولكن من المفترض عموماً أن معامل التخميد سيتم ضبطه حول 0.85.[5]

يُطرح معامل التخميد من 1 (وفي بعض الاختلافات في الخوارزمية، يتم تقسيم النتيجة على عدد المستندات (N) في المجموعة) ثم يُضاف هذا المصطلح إلى منتج عامل التخميد و مجموع درجات نظام ترتيب الصفحات الواردة. هذا هو،

لذلك فإن أي نظام پيدج رانك لأي صفحة مشتق في جزء كبير منه من پيدج رانكس في الصفحات الأخرى. يضبط عامل التخميد القيمة المشتقة إلى أسفل. لكن الورقة الأصلية أعطت الصيغة التالية التي أدت إلى بعض الالتباس:

الفرق بينهما هو أن مجموع قيم پيدج رانك في الصيغة الأولى يساوي واحداً، بينما في الصيغة الثانية، يتم ضرب كل پيدج رانك في N ويصبح المجموع N. بيان في ورقة برين وپيدج أن "مجموع كل ترتيب الصفحات هو واحد"[5] والمطالبات من قبل موظفي گوگل الآخرين[29] دعم المتحول الأول للصيغة أعلاه.

خلط پيدج وبرين بين الصيغتين في ورقتهما الأكثر شيوعاً "تشريح محرك بحث الوب فائقي النص واسع النطاق"، حيث زعما خطأً أن الصيغة الأخيرة شكلت توزيعاً احتمالياً على صفحات الوب.[5]

تعيد گوگل حساب نتائج پيدج رانك في كل مرة يزحف فيها إلى الوب ويعيد بناء فهرسها. نظراً لأن گوگل تزيد من عدد المستندات في مجموعتها، فإن التقريب الأولي لنظام پيدج رانك ينخفض لجميع المستندات.

تستخدم الصيغة نموذجاً لـ المتصفح العشوائي الذي يصل إلى موقعه المستهدف بعد عدة نقرات، ثم ينتقل إلى صفحة عشوائية. تعكس قيمة پيدج رانك لصفحة ما فرصة وصول المتصفّح العشوائي إلى تلك الصفحة من خلال النقر على رابط. يمكن فهمها على أنها سلسلة ماركوڤ تكون فيها الحالات عبارة عن صفحات، والانتقالات هي الروابط بين الصفحات - وكلها محتملة بالتساوي.

إذا لم تحتوِ الصفحة على روابط لصفحات أخرى، فإنها تصبح مجالاً فارغاً وبالتالي تنهي عملية التصفح العشوائي. إذا وصل المتصفّح العشوائي إلى صفحة المجال الفارغ، فإنه يختار URL بشكل عشوائي ويستمر في التصفح مرة أخرى.

عند حساب پيدج رانك، يُفترض أن الصفحات التي لا تحتوي على روابط صادرة مرتبطة بجميع الصفحات الأخرى في المجموعة. لذلك يتم تقسيم درجات پيدج رانك الخاصة بهم بالتساوي بين جميع الصفحات الأخرى. بعبارة أخرى، لكي نكون منصفين مع الصفحات غير المغمورة، تتم إضافة هذه الانتقالات العشوائية إلى جميع العقد في الوب. عادة ما يتم تعيين هذا الاحتمال المتبقي، d، على 0.85 ، مقدّراً من التردد الذي يستخدمه متصفّح الإنترنت العادي لميزة الإشارة المرجعية في متصفحه. إذن المعادلة كالتالي:

حيث هي الصفحات قيد الدراسة، هي مجموعة الصفحات التي ترتبط بـ ، هو عدد الروابط الصادرة على الصفحة ، و هو العدد الإجمالي للصفحات.

قيم پيدج رانك هي إدخالات متجه ذاتي الأيمن السائد من مصفوفة المجاورة معاد قياسها بحيث يضيف كل عمود ما يصل إلى واحد. هذا يجعل پيدج رانك مقياساً أنيقاً بشكل خاص: إن المتجه الذاتي هو

حيث R هو حل المعادلة

حيث تكون دالة الجوار هي النسبة بين عدد الروابط الصادرة من الصفحة j إلى الصفحة i إلى العدد الإجمالي للروابط الصادرة للصفحة j. دالة الجوار هي 0 إذا كانت الصفحة لا ترتبط بـ ، وتم تسويتها مثل هذا، لكل منهما j

,

على سبيل المثال، مجموع عناصر كل عمود يصل إلى 1، وبالتالي فإن المصفوفة هي مصفوفة عشوائية (لمزيد من التفاصيل، راجع قسم الحساب أدناه). وبالتالي، يعد هذا متغيراً من مقياس مركزية المتجه الذاتي المستخدم بشكل شائع في تحليل الشبكة.

بسبب الفجوة الذاتية الكبير لمصفوفة الجوار المعدلة أعلاه،[30]يمكن تقريب قيم المتجهات الذاتية لـ پيدج رانك ضمن درجة عالية من الدقة ضمن عدد قليل من التكرارات.

أفاد مؤسسو گوگل، في ورقتهم الأصلية،[28]أن خوارزمية پيدج رانك لشبكة تتكون من 322 مليون رابط (حواف داخلية وخارجية) تتقارب ضمن حد مقبول في 52 تكراراً. استغرق التقارب في شبكة نصف الحجم أعلاه حوالي 45 تكراراً. من خلال هذه البيانات، استنتجوا أن الخوارزمية يمكن تحجيمها جيداً وأن عامل التحجيم للشبكات الكبيرة للغاية سيكون خطياً تقريباً في ، حيث n هو حجم الشبكة.

نتيجة لـ نظرية ماركوڤ، يمكن إثبات أن نظام پيدج رانك للصفحة هو احتمال الوصول إلى تلك الصفحة بعد عدد كبير من النقرات. يحدث هذا ليساوي حيث هي التوقع لعدد النقرات (أو القفزات العشوائية) المطلوبة للحصول من الصفحة تعود إلى نفسها.

أحد العيوب الرئيسية في نظام پيدج رانك هو أنه يفضل الصفحات القديمة. لن تحتوي الصفحة الجديدة، حتى لو كانت جيدة جداً، على العديد من الروابط ما لم تكن جزءاً من موقع موجود (الموقع عبارة عن مجموعة صفحات كثيفة الاتصال، مثل ويكي‌پيديا).

تم اقتراح العديد من الاستراتيجيات لتسريع حساب پيدج رانك.[31]

تم استخدام استراتيجيات مختلفة لمعالجة نظام پيدج رانك في الجهود المتضافرة لتحسين تصنيفات نتائج البحث واستثمار الروابط الإعلانية. لقد أثرت هذه الاستراتيجيات بشدة على موثوقية مفهوم پيدج رانك،[بحاجة لمصدر] الذي يهدف إلى تحديد المستندات التي تحظى بتقدير عالٍ من قبل مجتمع الوب.

منذ ديسمبر 2007، عندما بدأت گوگل بنشاط في استبعاد المواقع التي تبيع الروابط النصية المدفوعة، كافحت مجموعات الروابط وغيرها من المخططات المصممة لتضخيم نظام پيدج رانك بشكل مصطنع. تعتبر كيفية تحديد گوگل لمجموعات الروابط وأدوات المعالجة الأخرى في نظام پيدج رانك من بين الأسرار التجارية الخاصة بـ گوگل.

الحساب

يمكن حساب پيدج رانك إما تكرارياً أو جبرياً. يمكن النظر إلى الطريقة التكرارية على أنها طريقة power iteration[32][33] أو طريقة الطاقة. فتكون العمليات الحسابية الأساسية التي يتم إجراؤها متطابقة.

التكرارية

عند ، يُفترض عادةً توزيع احتمالي أولي

.

حيث N هو العدد الإجمالي للصفحات، و هي الصفحة الأولى في الزمن 0.

في كل خطوة زمنية، ينتج عن الحساب، كما هو مفصل أعلاه

حيث d معامل التخميد،

أو في مجموعة رموز المصفوفة

,

 

 

 

 

(1)

حيث و هو متجه طول العمود تحتوي على فقط منها.

المصفوفة يعرف بـ

على سبيل المثال،

,

حيث تشير إلى مصفوفة المجاورة للرسم البياني و هي المصفوفة القطرية مع الدرجات الخارجية في القطر.

يتم حساب الاحتمالية لكل صفحة في نقطة زمنية، ثم يتم تكرارها للنقطة الزمنية التالية. ينتهي الحساب عند حوالي الصغيرة

,

أي عند افتراض التقارب.


. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

الجبرية

—من أجل (أي في الحالة الثابتة)، تقرأ المعادلة (1)

.

 

 

 

 

(2)

الحل معطى من قبل

,

مع مصفوفة الوحدة .

الحل موجود وفريد من نوعه لـ . يمكن ملاحظة ذلك من خلال ملاحظة أن هو من خلال تشكيل مصفوفة عشوائية ومن ثم فإن لها قيمة ذاتية تساوي واحد كنتيجة لـ مبرهنة برون فروبانيوس .

طريقة الطاقة

إذا كانت المصفوفة هو احتمالية انتقالية، على سبيل المثال، عمود عشوائي و هو توزيع احتمالي (على سبيل المثال، , حيث هي مصفوفة كل منها)، فإن المعادلة (2) تعادل

.

 

 

 

 

(3)

ومن ثم فإن هي المتجه الذاتي الرئيسي لـ .هناك طريقة سريعة وسهلة لحساب ذلك وهي استخدام power method: بدءاً من متجه عشوائي ، يتم تطبيق العامل على التوالي، على سبيل المثال،

,

حتى

.

لاحظ ذلك في المعادلة (3) يمكن تفسير المصفوفة الموجودة على الجانب الأيمن من الأقواس على أنها

,

حيث هو توزيع احتمالي أولي. في الحالة الحالية

.

أخيراً، إذا احتوت على أعمدة بقيم صفرية فقط، فيجب استبدالها بمتجه الاحتمال الأولي . بعبارات أخرى،

,

حيث أن المصفوفة تعرف بـ

,

مع

في هذه الحالة، فإن الحسابين المذكورين أعلاه باستخدام يعطيان نفس پيدج رانك فقط إذا تمت تسوية نتائجهما:

.

التنفيذ

سكالا/أپاتشي سپارك

مثال نموذجي هو استخدام البرمجة الوظيفية لـ سكالا مع أپاتشي سپارك RDDs لحساب پيدج رانك بشكل تكراري. [34] [35]

object SparkPageRank {
  def main(args: Array[String]) {
    val spark = SparkSession
      .builder
      .appName("SparkPageRank")
      .getOrCreate()

    val iters = if (args.length > 1) args(1).toInt else 10
    val lines = spark.read.textFile(args(0)).rdd
    val links = lines.map{ s =>
      val parts = s.split("\\s+")
      (parts(0), parts(1))
    }.distinct().groupByKey().cache()
    
    var ranks = links.mapValues(v => 1.0)

    for (i <- 1 to iters) {
      val contribs = links.join(ranks).values.flatMap{ case (urls, rank) =>
        val size = urls.size
        urls.map(url => (url, rank / size))
      }
      ranks = contribs.reduceByKey(_ + _).mapValues(0.15 + 0.85 * _)
    }

    val output = ranks.collect()
    output.foreach(tup => println(tup._1 + " has rank: " + tup._2 + "."))

    spark.stop()
  }
}

ماتلاب/أوكتاڤ

% Parameter M adjacency matrix where M_i,j represents the link from 'j' to 'i', such that for all 'j'
%     sum(i, M_i,j) = 1
% Parameter d damping factor
% Parameter v_quadratic_error quadratic error for v
% Return v, a vector of ranks such that v_i is the i-th rank from [0, 1]

function [v] = rank2(M, d, v_quadratic_error)

N = size(M, 2); % N is equal to either dimension of M and the number of documents
v = rand(N, 1);
v = v ./ norm(v, 1);   % This is now L1, not L2
last_v = ones(N, 1) * inf;
M_hat = (d .* M) + (((1 - d) / N) .* ones(N, N));

while (norm(v - last_v, 2) > v_quadratic_error)
	last_v = v;
	v = M_hat * v;
        % removed the L2 norm of the iterated PR
end

end %function

مثال على رمز استدعاء دالة الترتيب المحددة أعلاه:

M = [0 0 0 0 1 ; 0.5 0 0 0 0 ; 0.5 0 0 0 0 ; 0 1 0.5 0 0 ; 0 0 0.5 1 0];
rank2(M, 0.80, 0.001)

پايثون

"""PageRank algorithm with explicit number of iterations.

Returns
-------
ranking of nodes (pages) in the adjacency matrix

"""

import numpy as np

def pagerank(M, num_iterations: int = 100, d: float = 0.85):
    """PageRank: The trillion dollar algorithm.

    Parameters
    ----------
    M : numpy array
        adjacency matrix where M_i,j represents the link from 'j' to 'i', such that for all 'j'
        sum(i, M_i,j) = 1
    num_iterations : int, optional
        number of iterations, by default 100
    d : float, optional
        damping factor, by default 0.85

    Returns
    -------
    numpy array
        a vector of ranks such that v_i is the i-th rank from [0, 1],
        v sums to 1

    """
    N = M.shape[1]
    v = np.random.rand(N, 1)
    v = v / np.linalg.norm(v, 1)
    M_hat = (d * M + (1 - d) / N)
    for i in range(num_iterations):
        v = M_hat @ v
    return v

M = np.array([[0, 0, 0, 0, 1],
              [0.5, 0, 0, 0, 0],
              [0.5, 0, 0, 0, 0],
              [0, 1, 0.5, 0, 0],
              [0, 0, 0.5, 1, 0]])
v = pagerank(M, 100, 0.85)

يأخذ هذا المثال ≈13 تكرارات لتتقارب.

الاختلافات\البدائل

پيدج رانك للرسم البياني الغير موجه

إن پيدج رانك لـ الرسم البياني غير موجه إحصائياً قريب من توزيع درجات الرسم البياني ،[36] لكنها ليست متطابقة بشكل عام: إذا كان هو متجه پيدج رانك المحدد أعلاه، و هو متجه توزيع الدرجات

حيث تشير على درجة الذروة ، و هي مجموعة هامش الرسم البياني، إذن، مع،[37] يوضح أن:

أي أن پيدج رانك لرسم بياني غير موجه يساوي متجه توزيع الدرجات فقط إذا كان الرسم البياني منتظماً، أي أن كل ذروة لها نفس الدرجة.

تعميم مركزية پيدج رانك و المتجهات الذاتية لتصنيف الكائنات من نوعين

وصف دوگلس تعميماً لـ پيدج رانك في حالة تصنيف مجموعتين متفاعلتين من الكائنات.[38]في التطبيقات ، قد يكون من الضروري نمذجة الأنظمة التي تحتوي على كائنات من نوعين حيث يتم تحديد العلاقة الموزونة على أزواج الكائنات. هذا يؤدي إلى النظر في الرسوم البيانية ثنائية التجزئة. بالنسبة لمثل هذه الرسوم البيانية، يمكن تحديد مصفوفتين غير قابلتين للاختزال موجبتين أو غير سالبين تتوافقان مع مجموعات أقسام الذروة. يمكن للمرء أن يحسب تصنيفات الكائنات في كلتا المجموعتين كمتجهات ذاتية تتوافق مع القيم الذاتية الإيجابية القصوى لهذه المصفوفات. توجد المتجهات الذاتية المعيارية وهي فريدة من نوعها بواسطة مبرهنة برونأو برون فروبانيوس. مثال: المستهلكين والمنتجات. وزن\ترجيح العلاقة هو معدل استهلاك المنتج.

الخوارزمية الموزعة لحساب پيدج رانك

وصف سارما وآخرون. سلوكاً عشوائياً معتمدين على الخوارزميات الموزعة لحساب نظام پيدج رانك للعقد في الشبكة.[39] تأخذ خوارزمية واحدة جولة باحتمالية عالية على أي رسم بياني (موجه أو غير موجه)، حيث يمثل n حجم الشبكة و إعادة تعيين الاحتمال (، والذي يسمى عامل التخميد) المستخدم في حساب پيدج رانك. كما أنها تقدم خوارزمية أسرع تأخذ جولة في الرسوم البيانية غير الموجهة. في كل من الخوارزميتين، تعالج كل عقدة وترسل عدداً من البتات في كل جولة والتي تكون متعددة اللوغاريتمية في n، وهو حجم الشبكة.


. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

شريط أدوات گوگل

لطالما كان شريط أدوات گوگل ميزة پيدج رانك التي تعرض نظام ترتيب الصفحات للصفحة التي تمت زيارتها كرقم كامل بين 0 (الأقل شيوعاً) و 10 (الأكثر شيوعاً). لم تكشف گوگل عن الطريقة المحددة لتحديد قيمة پيدج رانك الخاصة بشريط الأدوات، والتي كان من المقرر اعتبارها مجرد مؤشر تقريبي على قيمة موقع الوب. كان "شريط الأدوات پيدج رانك" متاحاً لمشرفي المواقع المعتمدين من خلال واجهة أدوات مشرفي المواقع من گوگل. ومع ذلك، في 15 أكتوبر 2009، أكد أحد موظفي گوگل أن الشركة قد أزالت PageRank من قسم "أدوات مشرفي المواقع" ، قائلاً: "لقد أخبرنا الأشخاص منذ فترة طويلة أنه لا ينبغي عليهم التركيز على PageRank يبدو أن العديد من مالكي المواقع يعتقدون أنها أهم مقياس بالنسبة لهم لتتبعها، وهذا ببساطة ليس صحيحاً."[40]

نادراً ما تم تحديث "الصفحة الرئيسية لشريط الأدوات". تم تحديثه آخر مرة في نوفمبر 2013. في أكتوبر 2014، أعلن مات كاتس أنه لن يتم إصدار تحديث صفحة وب مرئي آخر.[41] في مارس 2016، أعلنت گوگل أنها لن تدعم هذه الميزة بعد الآن، وستتوقف واجهة برمجة التطبيقات الأساسية عن العمل قريباً.[42] في 15 أبريل 2016، أوقفت گوگل رسمياً عرض بيانات پيدج رانك في شريط أدوات گوگل. [43] ولكن ستظل گوگل تستخدم نقاط پيدج رانك عند تحديد كيفية ترتيب المحتوى في نتائج البحث.[44]

ترتيب SERP

تعتبر صفحة نتائج محرك البحث (SERP) هي النتيجة الفعلية التي يتم إرجاعها بواسطة محرك البحث استجابةً لاستعلام عن كلمة رئيسية. يتكون SERP من قائمة روابط لصفحات الوب مع مقتطفات نصية مرتبطة. يشير ترتيب SERP لصفحة الوب إلى موضع الرابط المقابل في SERP، حيث يعني الموضع الأعلى تصنيفاً أعلى في SERP. يعتبر ترتيب SERP لصفحة الوب تابعاً ليس فقط في پيدج رانك، ولكن لمجموعة كبيرة نسبياً ومعدلة باستمرار من العوامل (أكثر من 200).[45]يهدف تحسين محركات البحث (SEO) إلى التأثير على تصنيف SERP لموقع وب أو مجموعة من صفحات الوب.

يعتمد وضع صفحة وب على گوگل SERPs لكلمة رئيسية على الملاءمة والمكانة\الشهرة، والمعروف أيضاً باسم السلطة والشعبية. پيدج رانك هي إشارة من گوگل لتقييمها لسمعة\شهرة صفحة الوب: إنها ليست خاصة بالكلمات الرئيسية. تستخدم گوگل مجموعة من صفحات الوب وهيمنة موقع الوب لتحديد السلطة العامة لصفحة وب تتنافس على كلمة رئيسية.[46] يعد نظام پيدج رانك في الصفحة الرئيسية لموقع وب أفضل مؤشر تقدمه گوگل لهيمنة موقع الوب.[47]

بعد إدخال أماكن گوگل في صفحة نتائج محرك البحث العضوية الرئيسية، تؤثر العديد من العوامل الأخرى بالإضافة إلى نظام پيدج رانك على تصنيف النشاط التجاري في نتائج الأعمال المحلية.[48] عندما شرحت گوگل بالتفصيل أسباب إهمال نظام پيدج رانك في سؤال وجواب #مارس 2016، فقد أعلنوا أن الروابط والمحتوى هما أهم عوامل الترتيب. وقد تم الإعلان عن رانك برين في وقت سابق في أكتوبر 2015 كعامل التصنيف رقم 3، لذلك تم تأكيد أهم 3 عوامل رسمياً بواسطة گوگل.[49]

پيدج رانك الخاص بدليل گوگل

كان پيدج رانك الخاص بـ دليل گوگل عبارة عن قياس مكون من 8 وحدات. على عكس شريط أدوات گوگل، الذي يعرض قيمة پيدج رانك رقمية عند تمرير الماوس فوق الشريط الأخضر، حيث يعرض دليل گوگل الشريط فقط، وليس القيم الرقمية مطلقاً. وقد تم إغلاق دليل گوگل في 20 يوليو 2011.[50]

نظام پيدج رانك كاذب أو مخادع

في الماضي، كان من السهل التعامل مع نظام پيدج رانك الذي يظهر في شريط الأدوات. أدت إعادة التوجيه من صفحة إلى أخرى، إما عن طريق استجابة HTTP 302 أو "تحديث" meta tag، إلى حصول الصفحة المصدر على پيدج رانك للصفحة الوجهة. ومن ثم، فإن صفحة جديدة تحتوي على PR 0 ولا توجد روابط واردة يمكن أن تحصل على PR 10 عن طريق إعادة التوجيه إلى صفحة گوگل الرئيسية. كانت تقنية الانتحال ثغرة أمنية معروفة. يمكن اكتشاف الانتحال عموماً عن طريق إجراء بحث في گوگل عن عنوان URL المصدر؛ إذا تم عرض عنوان URL لموقع مختلف تماماً في النتائج، فقد يمثل عنوان URL الأخير وجهة إعادة التوجيه.

التلاعب بنظام پيدج رانك

لأغراض تحسين محركات البحث، تعرض بعض الشركات بيع روابط پيدج رانك عالية لمشرفي المواقع.[51]نظراً لأنه يُعتقد أن الروابط من صفحات العلاقات العامة الأعلى أكثر قيمة، فإنها تميل إلى أن تكون أكثر تكلفة. يمكن أن تكون استراتيجية تسويقية فعالة وقابلة للتطبيق لشراء إعلانات الارتباط على صفحات المحتوى ذات الجودة والمواقع ذات الصلة لزيادة حركة المرور وزيادة شعبية ارتباط مشرف الموقع. ومع ذلك، فقد حذرت گوگل مشرفي المواقع علناً من أنهم إذا تم اكتشافهم أو اكتشافهم لبيع روابط بغرض تداول نظام پيدج رانك وشهره، فسيتم تقليل قيمة روابطهم (يتم تجاهلها في حساب پيدج رانك في الصفحات الأخرى). تتم مناقشة ممارسة البيع والشراء [52] بشكل مكثف عبر مجتمع مشرفي المواقع. حيث تنصح گوگل مشرفي المواقع باستخدام قيمة سمة HTML نوفولو على الروابط الإعلانية. وفقاً لـ مات كاتس، تهتم گوگل بمشرفي المواقع الذين يحاولون التلاعب بالنظام، وبالتالي تقليل جودة وأهمية نتائج بحث گوگل.[51] على الرغم من أن نظام پيدج رانك أصبح أقل أهمية لأغراض تحسين محركات البحث (SEO)، إلا أن وجود الروابط الخلفية من مواقع الوب الأكثر شهرة يستمر في دفع صفحة الوب إلى أعلى مرتبة في تصنيفات البحث.[53]

نموذج المتصفح الموجه

ينتقل المتصفح أكثر ذكاءً احتمالياً من صفحة إلى أخرى اعتماداً على محتوى الصفحات ومصطلحات الاستعلام عن المتصفّح الذي يبحث عنه. يعتمد هذا النموذج على درجة پيدج رانك المعتمدة على الاستعلام لصفحة والتي كما يوحي الاسم هي أيضاً دالة للاستعلام. عند تقديم استعلام متعدد المصطلحات، ، يختار المتصفّح وفقاً لبعض توزيع الاحتمالات، ، ويستخدم هذا المصطلح لتوجيه سلوكه لعدد كبير من الخطوات. ثم يختار مصطلحاً آخر وفقاً للتوزيع لتحديد سلوكه، وما إلى ذلك. يكون التوزيع الناتج على صفحات الوب التي تمت زيارتها هو QD-PageRank.[54]

المكونات الاجتماعية

تنظر كاتيا ماير إلى PageRank كشبكة اجتماعية لأنها تربط وجهات النظر والأفكار المختلفة في مكان واحد.[55] يلجأ الناس إلى پيدج رانك للحصول على المعلومات ويتم إغراقهم بـ الاقتباسات من المؤلفين الآخرين الذين لديهم أيضاً رأي حول هذا الموضوع. هذا يخلق جانباً اجتماعياً حيث يمكن مناقشة كل شيء وجمعه لتحفيز التفكير. توجد علاقة اجتماعية بين نظام پيدج رانك والأشخاص الذين يستخدمونه لأنه يتكيف ويتغير باستمرار مع التحولات في المجتمع الحديث. يتيح عرض العلاقة بين نظام پيدج رانك والفرد من خلال القياس الاجتماعي إلقاء نظرة متعمقة على الاتصال الناتج. [56]يعتقد ماتيو پاسكينيلي أن أساس الاعتقاد بأن نظام پيدج رانك له مكون اجتماعي يكمن في فكرة اقتصاد الانتباه. مع الاقتصاد في الاهتمام، يتم وضع القيمة على المنتجات التي تتلقى قدراً أكبر من الاهتمام البشري والنتائج في الجزء العلوي من پيدج رانك تحصل على قدر أكبر من التركيز عن تلك الموجودة في الصفحات اللاحقة. ستدخل النتائج مع نظام پيدج رانك الأعلى إلى الوعي البشري إلى حد كبير. يمكن أن تؤثر هذه الأفكار على عملية صنع القرار، كما أن تصرفات المشاهد لها علاقة مباشرة بنظام ترتيب الصفحات PageRank. لديهم إمكانات أعلى لجذب انتباه المستخدم لأن موقعهم يزيد من اقتصاد الانتباه المرتبط بالموقع. فمن خلال هذا الموقع، يمكنهم تلقي المزيد من حركة المرور وسيشهد سوقهم عبر الإنترنت المزيد من عمليات الشراء. يتيح نظام پيدج رانك لهذه المواقع الوثوق بهم ويمكنهم استغلال هذه الثقة في زيادة الأعمال.

استخدامات اخرى

تعتبر رياضيات پيدج رانك عامة تماماً وتنطبق على أي رسم بياني أو شبكة في أي مجال. وبالتالي، يتم استخدام پيدج رانك الآن بشكل منتظم في القياسات الببليومترية، وتحليل الشبكات الاجتماعية والمعلوماتية، وللتنبؤ بالارتباط والتوصية. حتى أنها تستخدم لتحليل أنظمة شبكات الطرق، بالإضافة إلى علم الأحياء والكيمياء وعلم الأعصاب والفيزياء.[57]

البحث العلمي والأكاديمي

تم استخدام پيدج رانك مؤخرًا لتقدير التأثير العلمي للباحثين. تُستخدم شبكات الاقتباس والتعاون الأساسية جنباً إلى جنب مع خوارزمية پيدج رانك من أجل التوصل إلى نظام تصنيف للمنشورات الفردية التي تنتشر إلى المؤلفين الفرديين. تم إثبات أن المؤشر الجديد المعروف باسم فهرس-پيدج رانك (Pi) أكثر عدلاً مقارنةً بمؤشر -h في سياق العديد من العيوب التي أظهرها مؤشر- h.[58]

لتحليل شبكات البروتين في علم الأحياء، يعتبر نظام پيدج رانك أيضاً أداة مفيدة.[59][60]

في أي نظام بيئي، يمكن استخدام نسخة معدلة من پيدج رانك لتحديد الأنواع الضرورية لاستمرار صحة البيئة.[61]

استخدام جديد مشابه لـ پيدج رانك هو تصنيف برامج الدكتوراه الأكاديمية بناءً على سجلاتها الخاصة بوضع خريجيها في مناصب أعضاء هيئة التدريس. في مصطلحات پيدج رانك، ترتبط الأقسام الأكاديمية ببعضها البعض من خلال توظيف أعضاء هيئة التدريس الخاصة بهم من بعضهم البعض (ومن أنفسهم).[62]

تم اقتراح نسخة من پيدج رانك مؤخراً كبديل لـ عامل التأثير التقليدي لـ معهد المعلومات العلمية (ISI)،[63]ونُفذت في عامل ذاتي وكذلك في SCImago. بدلاً من مجرد احتساب إجمالي الاقتباس في إحدى المجلات، يتم تحديد "أهمية" كل اقتباس بطريقة پيدج رانك.

في علوم عصبية، تم العثور على پيدج رانك من العصبونات في شبكة عصبية مرتبطة بمعدل إطلاق النار\الحرق النسبي.[64]

استخدام الانترنت

يستخدم تويتر نظام پيدج رانك المخصص لتقديم حسابات أخرى للمستخدمين قد يرغبون في متابعتها.[65]

ينشئ منتج بحث موقع سويفت تايپ "نظام ترتيب الصفحات خاصاً بمواقع الوب الفردية" من خلال النظر في إشارات الأهمية لكل موقع وب وتحديد أولويات المحتوى استناداً إلى عوامل مثل عدد الروابط من الصفحة الرئيسية.[66]

قد يستخدم زاحف الشبكة پيدج رانك كأحد مقاييس الأهمية التي يستخدمها لتحديد عنوان URL الذي يجب زيارته أثناء زحف الوب. إحدى أوراق العمل الأولية[67] التي تم استخدامها في إنشاء گوگل هي الزحف الفعال من خلال ترتيب عناوين URL،[68]الذي يناقش استخدام عدد من مقاييس الأهمية المختلفة لتحديد مدى العمق ومقدار الموقع الذي سيزحف إليه محرك بحث گوگل. يتم تقديم پيدج رانك كواحد من عدد من مقاييس الأهمية هذه، على الرغم من وجود مقاييس أخرى مدرجة مثل عدد الروابط الواردة والصادرة لعنوان URL والمسافة من الدليل الجذر على الموقع إلى عنوان URL.

يمكن أيضاً استخدام پيدج رانك كمنهجية لقياس التأثير الواضح لمجتمع مثل عالم المدونات على الوب ككل. ولذلك يستخدم هذا النهج نظام پيدج رانك PageRank لقياس توزيع الاهتمام في انعكاس نموذج شبكة خالية المقاييس.[بحاجة لمصدر]

تطبيقات أخرى

في عام 2005 ، في دراسة تجريبية في باكستان، الهيكلية العميقة للديمقراطية، SD2 [69][70]التي تم استخدامها لاختيار القيادة في مجموعة الزراعة المستدامة تسمى شباب التواصل. يستخدم SD2 پيدج رانك لمعالجة أصوات الوكلاء متعدية الأطراف، مع القيود الإضافية المتمثلة في تفويض وكلاء أوليين على الأقل لكل ناخب، وجميع الناخبين هم مرشحون بالوكالة. يمكن إنشاء متغيرات أكثر تعقيداً فوق SD2، مثل إضافة وكلاء متخصصين وأصوات مباشرة لقضايا محددة، ولكن SD2 كنظام شامل أساسي، يفرض استخدام الوكلاء العامين دائماً.

في الرياضة، تم استخدام خوارزمية پيدج رانك لتصنيف أداء: الفرق في الدوري الوطني لكرة القدم (NFL) في الولايات المتحدة الأمريكية;[71] لاعبي كرة القدم الفرديين;[72] والرياضيين في الدوري الماسي.[73]

تم استخدام نظام ترتيب الصفحات PageRank لتصنيف المساحات أو الشوارع للتنبؤ بعدد الأشخاص (المشاة أو المركبات) الذين يأتون إلى المساحات أو الشوارع الفردية.[74][75] وفي الدلالات المفرداتية تم استخدامه لأداء توضيح معنى كلمة،[76] التشابه الدلالي،[77] وكذلك لترتيب المجموعات المتزامنة لـ وورد نت تلقائياً وفقاً لمدى قوة امتلاكها لخاصية دلالية معينة، مثل الإيجابية أو السلبية.[78]

نوفولو

في أوائل عام 2005، نفذت گوگل قيمة جديدة، "نوفولو[79]بالنسبة إلى السمة rel لرابط HTML وعناصر الربط، بحيث يمكن لمطوري مواقع الوب و المدونات إنشاء روابط لن تأخذها گوگل في الاعتبار لأغراض پيدج رانك - فهي روابط لم تعد تشكل "تصويت" في نظام پيدج رانك. تمت إضافة علاقة نوفولو في محاولة للمساعدة في مكافحة الفهرسة المتعسفة.

على سبيل المثال، كان بإمكان الأشخاص سابقاً إنشاء العديد من منشورات لوحة الرسائل مع روابط إلى مواقع الوب الخاصة بهم لتضخيم نظام پيدج رانك الخاص بهم بشكل مصطنع. باستخدام قيمة نوفولو، يمكن لمسؤولي لوحة الرسائل تعديل التعليمات البرمجية الخاصة بهم لإدراج "rel='nofollow'" تلقائياً في جميع الارتباطات التشعبية في المنشورات، وبالتالي منع نظام پيدج رانك من التأثر بهذه المنشورات المحددة. ومع ذلك، فإن طريقة التجنب هذه لها عيوب مختلفة، مثل تقليل قيمة الارتباط للتعليقات المشروعة. (See: سخام إلكتروني#نوفولو)

في محاولة للتحكم يدوياً في تدفق پيدج رانك بين الصفحات داخل موقع وب، يمارس العديد من مشرفي المواقع ما يُعرف باسم تمثيل پيدج رانك[80]—وهو فعل وضع السمة نوفولو بشكل استراتيجي على روابط داخلية معينة لموقع وب من أجل توجيه پيدج رانك نحو تلك الصفحات التي يعتبرها مشرف الموقع الأكثر أهمية. تم استخدام هذا الأسلوب منذ بداية السمة نوفولو، ولكنه قد لا يكون فعالاً بعد أن أعلنت گوگل أن حظر نقل پيدج رانك باستخدام نوفولو لا يؤدي إلى إعادة توجيه پيدج رانك إلى روابط أخرى.[81]

انظر أيضاً

المراجع

الاقتباسات

  1. ^ "Facts about Google and Competition". Archived from the original on 4 November 2011. Retrieved 12 July 2014.
  2. ^ Sullivan, Danny (2007-04-26). "What Is Google PageRank? A Guide For Searchers & Webmasters". Search Engine Land. Archived from the original on 2016-07-03.
  3. ^ Cutts, Matt. "Algorithms Rank Relevant Results Higher". Archived from the original on July 2, 2013. Retrieved 19 October 2015.
  4. ^ "US7058628B1 - Method for node ranking in a linked database - Google Patents". Google Patents. Archived from the original on January 16, 2020. Retrieved September 14, 2019.
  5. ^ أ ب ت ث ج ح خ Brin, S.; Page, L. (1998). "The anatomy of a large-scale hypertextual Web search engine" (PDF). Computer Networks and ISDN Systems. 30 (1–7): 107–117. CiteSeerX 10.1.1.115.5930. doi:10.1016/S0169-7552(98)00110-X. ISSN 0169-7552. Archived (PDF) from the original on 2015-09-27.
  6. ^ Gyöngyi, Zoltán; Berkhin, Pavel; Garcia-Molina, Hector; Pedersen, Jan (2006), "Link spam detection based on mass estimation", Proceedings of the 32nd International Conference on Very Large Data Bases (VLDB '06, Seoul, Korea), pp. 439–450, http://ilpubs.stanford.edu:8090/697/1/2005-33.pdf .
  7. ^ "FAQ: All About The New Google "Hummingbird" Algorithm". Search Engine Land. 26 September 2013. Archived from the original on 23 December 2018. Retrieved 18 December 2018.
  8. ^ Gabriel Pinski & Francis Narin (1976). "Citation influence for journal aggregates of scientific publications: Theory, with application to the literature of physics". Information Processing & Management. 12 (5): 297–312. doi:10.1016/0306-4573(76)90048-0.
  9. ^ Thomas Saaty (1977). "A scaling method for priorities in hierarchical structures". Journal of Mathematical Psychology. 15 (3): 234–281. doi:10.1016/0022-2496(77)90033-5. hdl:10338.dmlcz/101787.
  10. ^ Bradley C. Love & Steven A. Sloman. "Mutability and the determinants of conceptual transformability" (PDF). Proceedings of the Seventeenth Annual Conference of the Cognitive Science Society. pp. 654–659. Archived (PDF) from the original on 2017-12-23. Retrieved 2017-12-23.
  11. ^ "How a CogSci undergrad invented PageRank three years before Google". bradlove.org. Archived from the original on 2017-12-11. Retrieved 2017-12-23.
  12. ^ Li, Yanhong (August 6, 2002). "Toward a qualitative search engine". IEEE Internet Computing. 2 (4): 24–29. doi:10.1109/4236.707687.
  13. ^ "The Rise of Baidu (That's Chinese for Google)". The New York Times. 17 September 2006. Archived from the original on 27 June 2019. Retrieved 16 June 2019.
  14. ^ أ ب "About: RankDex" Archived 2015-05-25 at the Wayback Machine, RankDex; accessed 3 May 2014.
  15. ^ USPTO, "Hypertext Document Retrieval System and Method" Archived 2011-12-05 at the Wayback Machine, U.S. Patent number: 5920859, Inventor: Yanhong Li, Filing date: Feb 5, 1997, Issue date: Jul 6, 1999
  16. ^ Greenberg, Andy, "The Man Who's Beating Google" Archived 2013-03-08 at the Wayback Machine, Forbes magazine, October 05, 2009
  17. ^ "About: RankDex" Archived 2012-02-02 at WebCite, rankdex.com
  18. ^ "Method for node ranking in a linked database". Google Patents. Archived from the original on 15 October 2015. Retrieved 19 October 2015.
  19. ^ Altucher, James (March 18, 2011). "10 Unusual Things About Google". Forbes. Archived from the original on 16 June 2019. Retrieved 16 June 2019.
  20. ^ Greg Wientjes. "Hector Garcia-Molina: Stanford Computer Science Professor and Advisor to Sergey". pp. minutes 25.45-32.50, 34.00–38.20. Retrieved 2019-12-06.
  21. ^ Page, Larry, "PageRank: Bringing Order to the Web". Archived from the original on May 6, 2002. Retrieved 2016-09-11., Stanford Digital Library Project, talk. August 18, 1997 (archived 2002)
  22. ^ 187-page study from Graz University, Austria Archived 2014-01-16 at the Wayback Machine, includes the note that also human brains are used when determining the page rank in Google.
  23. ^ "Our products and services". Archived from the original on 2008-06-23. Retrieved 2011-05-27.
  24. ^ David Vise & Mark Malseed (2005). The Google Story. p. 37. ISBN 978-0-553-80457-7.
  25. ^ "Google Press Center: Fun Facts". Archived from the original on 2001-07-15.
  26. ^ Lisa M. Krieger (1 December 2005). "Stanford Earns $336 Million Off Google Stock". San Jose Mercury News. Archived from the original on 8 April 2009. Retrieved 2009-02-25 – via cited by redOrbit.
  27. ^ Richard Brandt. "Starting Up. How Google got its groove". Stanford magazine. Archived from the original on 2009-03-10. Retrieved 2009-02-25.
  28. ^ أ ب Page, Lawrence; Brin, Sergey; Motwani, Rajeev; Winograd, Terry (1999). The PageRank citation ranking: Bringing order to the Web. Archived from the original. You must specify the date the archive was made using the |archivedate= parameter. http://dbpubs.stanford.edu:8090/pub/showDoc.Fulltext?lang=en&doc=1999-66&format=pdf&compression=. , published as a technical report on January 29, 1998 PDF Archived 2011-08-18 at the Wayback Machine
  29. ^ Matt Cutts's blog: Straight from Google: What You Need to Know Archived 2010-02-07 at the Wayback Machine, see page 15 of his slides.
  30. ^ Taher Haveliwala & Sepandar Kamvar (March 2003). "The Second Eigenvalue of the Google Matrix" (PDF). Stanford University Technical Report: 7056. arXiv:math/0307056. Bibcode:2003math......7056N. Archived (PDF) from the original on 2008-12-17.
  31. ^ Gianna M. Del Corso; Antonio Gullí; Francesco Romani (2005). Fast PageRank Computation via a Sparse Linear System. Lecture Notes in Computer Science. Vol. 2. pp. 118–130. CiteSeerX 10.1.1.58.9060. doi:10.1007/978-3-540-30216-2_10. ISBN 978-3-540-23427-2. Archived from the original on 2014-02-09. {{cite book}}: |journal= ignored (help)
  32. ^ Arasu, A. and Novak, J. and Tomkins, A. and Tomlin, J. (2002). "PageRank computation and the structure of the web: Experiments and algorithms".: 107–117. 
  33. ^ Massimo Franceschet (2010). "PageRank: Standing on the shoulders of giants". arXiv:1002.2858 [cs.IR].
  34. ^ "Spark Page Rank implementation | Github". Archived from the original on 2020-08-18. Retrieved 2020-03-21.
  35. ^ "Understanding Page Rank algorithm & Spark implementation | By Example".
  36. ^ Nicola Perra and Santo Fortunato; Fortunato (September 2008). "Spectral centrality measures in complex networks". Phys. Rev. E. 78 (3): 36107. arXiv:0805.3322. Bibcode:2008PhRvE..78c6107P. doi:10.1103/PhysRevE.78.036107. PMID 18851105. S2CID 1755112.
  37. ^ Vince Grolmusz (2015). "A Note on the PageRank of Undirected Graphs". Information Processing Letters. 115 (6–8): 633–634. arXiv:1205.1960. doi:10.1016/j.ipl.2015.02.015. S2CID 9855132.
  38. ^ Peteris Daugulis; Daugulis (2012). "A note on a generalization of eigenvector centrality for bipartite graphs and applications". Networks. 59 (2): 261–264. arXiv:1610.01544. doi:10.1002/net.20442. S2CID 1436859.
  39. ^ Atish Das Sarma; Anisur Rahaman Molla; Gopal Pandurangan; Eli Upfal (2015). "Fast Distributed PageRank Computation". Theoretical Computer Science. 561: 113–121. arXiv:1208.3071. doi:10.1016/j.tcs.2014.04.003. S2CID 10284718.
  40. ^ Susan Moskwa. "PageRank Distribution Removed From WMT". Archived from the original on October 17, 2009. Retrieved October 16, 2009.
  41. ^ Bartleman, Wil (2014-10-12). "Google Page Rank Update is Not Coming". Managed Admin. Archived from the original on 2015-04-02. Retrieved 2014-10-12.
  42. ^ Schwartz, Barry (March 8, 2016). "Google has confirmed it is removing Toolbar PageRank". Search Engine Land. Archived from the original on March 10, 2016.
  43. ^ Schwartz, Barry. "Google Toolbar PageRank officially goes dark". Search Engine Land. Archived from the original on 2016-04-21.
  44. ^ Southern, Matt (2016-04-19). "Google PageRank Officially Shuts its Doors to the Public". Search Engine Journal. Archived from the original on 2017-04-13.
  45. ^ Fishkin, Rand; Jeff Pollard (April 2, 2007). "Search Engine Ranking Factors - Version 2". seomoz.org. Archived from the original on May 7, 2009. Retrieved May 11, 2009.
  46. ^ Dover, D. Search Engine Optimization Secrets Indianapolis. Wiley. 2011.
  47. ^ Viniker, D. The Importance of Keyword Difficulty Screening for SEO. Ed. Schwartz, M. Digital Guidebook Volume 5. News Press. p 160–164.
  48. ^ "Ranking of listings : Ranking - Google Places Help". Archived from the original on 2012-05-26. Retrieved 2011-05-27.
  49. ^ Clark, Jack. "Google Turning Its Lucrative Web Search Over to AI Machines". Bloomberg. Archived from the original on 25 March 2016. Retrieved 26 March 2016.
  50. ^ Google Directory#Google Directory
  51. ^ أ ب "How to report paid links". mattcutts.com/blog. April 14, 2007. Archived from the original on May 28, 2007. Retrieved 2007-05-28.
  52. ^ "Google Link Schemes" Archived 2020-05-21 at the Wayback Machine links
  53. ^ "So...You Think SEO Has Changed". 19 March 2014. Archived from the original on 31 March 2014.
  54. ^ Matthew Richardson & Pedro Domingos, A. (2001). The Intelligent Surfer:Probabilistic Combination of Link and Content Information in PageRank (PDF). Archived (PDF) from the original on 2016-03-04.
  55. ^ Mayer, Katja (2009). Deep Search: The Politics of Search beyond Google, On the Sociometry of Search Engines. Studien Verlag.
  56. ^ Pasquinelli, Matteo (2009). Deep Search: The Politics of Search beyond Google, Diagram of the Cognitive Capitalism and the Rentier of the Common Intellect. Studien Verlag.
  57. ^ Gleich, David F. (January 2015). "PageRank Beyond the Web". SIAM Review. 57 (3): 321–363. arXiv:1407.5107. doi:10.1137/140976649. S2CID 8375649.
  58. ^ Senanayake, Upul; Piraveenan, Mahendra; Zomaya, Albert (2015). "The Pagerank-Index: Going beyond Citation Counts in Quantifying Scientific Impact of Researchers". PLOS ONE. 10 (8): e0134794. Bibcode:2015PLoSO..1034794S. doi:10.1371/journal.pone.0134794. ISSN 1932-6203. PMC 4545754. PMID 26288312.{{cite journal}}: CS1 maint: unflagged free DOI (link)
  59. ^ G. Ivan & V. Grolmusz (2011). "When the Web meets the cell: using personalized PageRank for analyzing protein interaction networks". Bioinformatics. 27 (3): 405–7. doi:10.1093/bioinformatics/btq680. PMID 21149343.
  60. ^ D. Banky and G. Ivan and V. Grolmusz (2013). "Equal opportunity for low-degree network nodes: a PageRank-based method for protein target identification in metabolic graphs". PLOS ONE. 8 (1): 405–7. Bibcode:2013PLoSO...854204B. doi:10.1371/journal.pone.0054204. PMC 3558500. PMID 23382878.{{cite journal}}: CS1 maint: unflagged free DOI (link)
  61. ^ Burns, Judith (2009-09-04). "Google trick tracks extinctions". BBC News. Archived from the original on 2011-05-12. Retrieved 2011-05-27.
  62. ^ Benjamin M. Schmidt & Matthew M. Chingos (2007). "Ranking Doctoral Programs by Placement: A New Method" (PDF). PS: Political Science and Politics. 40 (July): 523–529. CiteSeerX 10.1.1.582.9402. doi:10.1017/s1049096507070771. S2CID 6012229. Archived (PDF) from the original on 2015-02-13.
  63. ^ Johan Bollen, Marko A. Rodriguez, and Herbert Van de Sompel.; Rodriguez; Van De Sompel (December 2006). Journal Status. Vol. 69. pp. 669–687. arXiv:cs.GL/0601030. Bibcode:2006cs........1030B. doi:10.1145/1255175.1255273. ISBN 9781595936448. S2CID 3115544. {{cite book}}: |journal= ignored (help)CS1 maint: multiple names: authors list (link)
  64. ^ Fletcher, Jack McKay and Wennekers, Thomas. "From Structure to Activity: Using Centrality Measures to Predict Neuronal Activity". 1750013
  65. ^ Gupta, Pankaj; Goel, Ashish; Lin, Jimmy; Sharma, Aneesh; Wang, Dong; Zadeh, Reza (2013). "WTF: The Who to Follow Service at Twitter". Proceedings of the 22Nd International Conference on World Wide Web. ACM. pp. 505–514. doi:10.1145/2488388.2488433. ISBN 9781450320351. S2CID 207205045. Retrieved 11 December 2018.
  66. ^ Ha, Anthony (2012-05-08). "Y Combinator-Backed Swiftype Builds Site Search That Doesn't Suck". TechCrunch. Archived from the original on 2014-07-06. Retrieved 2014-07-08.
  67. ^ "Working Papers Concerning the Creation of Google". Google. Archived from the original on November 28, 2006. Retrieved November 29, 2006.
  68. ^ Cho, J., Garcia-Molina, H., and Page, L. (1998). "Efficient crawling through URL ordering". Proceedings of the Seventh Conference on World Wide Web. Brisbane, Australia. Archived from the original on 2008-06-03.{{cite book}}: CS1 maint: location missing publisher (link) CS1 maint: multiple names: authors list (link)
  69. ^ "Yahoo! Groups". Groups.yahoo.com. Archived from the original on 2013-10-04. Retrieved 2013-10-02.
  70. ^ "CiteSeerX — Autopoietic Information Systems in Modern Organizations". CiteSeerX 10.1.1.148.9274. {{cite journal}}: Cite journal requires |journal= (help)
  71. ^ Zack, Laurie; Lamb, Ron; Ball, Sarah (2012-12-31). "An application of Google's PageRank to NFL rankings". Involve, A Journal of Mathematics (in الإنجليزية). 5 (4): 463–471. doi:10.2140/involve.2012.5.463. ISSN 1944-4184.
  72. ^ قالب:Cite arxiv
  73. ^ Beggs, Clive B.; Shepherd, Simon J.; Emmonds, Stacey; Jones, Ben (2017-06-02). Zhou, Wei-Xing (ed.). "A novel application of PageRank and user preference algorithms for assessing the relative performance of track athletes in competition". PLOS ONE (in الإنجليزية). 12 (6): e0178458. Bibcode:2017PLoSO..1278458B. doi:10.1371/journal.pone.0178458. ISSN 1932-6203. PMC 5456068. PMID 28575009.{{cite journal}}: CS1 maint: unflagged free DOI (link)
  74. ^ B. Jiang (2006). "Ranking spaces for predicting human movement in an urban environment". International Journal of Geographical Information Science. 23 (7): 823–837. arXiv:physics/0612011. Bibcode:2006physics..12011J. doi:10.1080/13658810802022822. S2CID 26880621.
  75. ^ Jiang B.; Zhao S. & Yin J. (2008). "Self-organized natural roads for predicting traffic flow: a sensitivity study". Journal of Statistical Mechanics: Theory and Experiment. P07008 (7): 008. arXiv:0804.1630. Bibcode:2008JSMTE..07..008J. doi:10.1088/1742-5468/2008/07/P07008. S2CID 118605727.
  76. ^ Roberto Navigli, Mirella Lapata. "An Experimental Study of Graph Connectivity for Unsupervised Word Sense Disambiguation" Archived 2010-12-14 at the Wayback Machine. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 32(4), IEEE Press, 2010, pp. 678–692.
  77. ^ M. T. Pilehvar, D. Jurgens and R. Navigli. Align, Disambiguate and Walk: A Unified Approach for Measuring Semantic Similarity. Archived 2013-10-01 at the Wayback Machine. Proc. of the 51st Annual Meeting of the Association for Computational Linguistics (ACL 2013), Sofia, Bulgaria, August 4–9, 2013, pp. 1341-1351.
  78. ^ Andrea Esuli & Fabrizio Sebastiani. "PageRanking WordNet synsets: An Application to Opinion-Related Properties" (PDF). In Proceedings of the 35th Meeting of the Association for Computational Linguistics, Prague, CZ, 2007, pp. 424–431. Archived (PDF) from the original on June 28, 2007. Retrieved June 30, 2007.
  79. ^ "Preventing Comment Spam". Google. Archived from the original on June 12, 2005. Retrieved January 1, 2005.
  80. ^ "PageRank Sculpting: Parsing the Value and Potential Benefits of Sculpting PR with Nofollow". SEOmoz. Archived from the original on 2011-05-14. Retrieved 2011-05-27.
  81. ^ "PageRank sculpting". Mattcutts.com. 2009-06-15. Archived from the original on 2011-05-11. Retrieved 2011-05-27.

المصادر

براءات الاختراع المرتبطة

وصلات خارجية


(Google uses a logarithmic scale.)