توزيع احتمالات
التوزيع الاحتمالي (إنگليزية: probability distribution)، هو تصنيف للصفات أو القيم التي يأخذها متغير إحصائي (أو أكثر). وغالباً ما يقدم ذلك في جدول مؤلف من عمودين (أو سطرين) أو أكثر. يظهر العمود الأول الصفات أو القيم المختلفة التي تحددها طبيعة الظاهرة المدروسة، ويظهر العمود الثاني تكرار تلك الصفة أو القيمة، وهو عدد عناصر العينة المدروسة المقابلة لتلك الصفة أو القيمة. ويمكن أن يرافق هذا الجدول أشكال بيانية تمثله وتزيده وضوحاً، ففي أي دراسة إحصائية نتعرض لمواجهة بيانات عددية تمثل قيماً لمتغيرات طبية، اجتماعية، اقتصادية، حيوية أو ما شابه ذلك. وتختلف طريقة تناول هذه البيانات إحصائياً باختلاف تلك المتغيرات، ويمكن تقسيم هذه المتغيرات إلى متغيرات وصفية أو نوعية، ومتغيرات رتبية ومتغيرات كمية عددية.[1]
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
مقدمة
يحددالتوزيع الاحتمالي كل قيمة ممكنة لمتغير عشوائي (عندما يكون المتغير متقطعاً) أو احتمال القيمة الواقعة ضمن مجال معين (عندما يكون المتغير مستمراً). وبعبارة أخرى، فإن التوزيع الاحتمالي هو قياس احتمالي مجاله تطبيق جبر بورل على مجموعة الأعداد الحقيقية.
التوزيع الإحتمالي يعتبر حالة خاصة من مصطلح أكثر عمومية هو القياس الاحتمالي، الذي يعتبر دالة تربط قيم احتمالات بمجموعات مقيسة من الفضاء المقاس بحيث تحقق فرضيات كولوموگروف .
كل متغير عشوائي ينشأ عنه توزيع احتمالي يحتوي معظم المعلومات المهمة عن هذا المتغير . فإذا كان المتغير X متغيرا عشوائيا فإن التوزيع الاحتمالي الموافق له ينسب للمجال [a, b] احتمالا : بمعنى أن احتمال أن يأخذ المتغير X قيمة ضمن المجال هي : Pr[a ≤ X ≤ b] .
يمكن وصف التوزيع الاحتمالي للمتغير عن طريق تابع التوزيع التراكمي التي تعرف كما يلي :
نقول عن توزيع احتمالي أنه متقطع إذا كان تابع التوزيع التراكمي له مؤلفاً من تسلسل قفزات متناهية، مما يعني أنه يعود لمتغير عشوائي متقطع، و هو بالتعريف متغير يمكنه أن يأخذ فقط قيما من مجموعة محددة منتهية وقابلة للعد.
ونقول عن التوزيع الاحتمالي أنه مستمر إذا كان تابع التوزيع التراكمي له مستمراً أي أنه يعود لمتغير عشوائي احتمال أخذه لقيمة محددة معينة معدوما أي : Pr[ X = x ] = 0 أيا كانت x من مجموعة الأعداد الحقيقية، في مثل هذه الحالة لا وجود لاحتمال غير معدوم إلا من أجل مجال ضمن مجموعة الأعداد الحقيقية اما ان يأخذ المتغير قيمة محددة فهو أمر عديم الاحتمال .
هذه التوزيعات المستمرة المطلقة يمكن التعبير عنها بوساطة: تابع الكثاقة الاحتمالية : و هو عبارة عن دالة قابلة للتكامل بطريقة ليبزگو، موجبة حتما ومعرفة على مجموعة الأعداد الحقيقية :
المصطلح
المصطلحات الرئيسية
التوزيع الاحتمالي المنفصل
الكثافة التراكمية
اعادة تمثيل وظيفة دلتا
اعادة تمثيل وظيفة المؤئر
For a discrete random variable X, let u0, u1, ... be the values it can take with non-zero probability. Denote
These are disjoint sets, and by formula (1)
المتغيرات الوصفية
المتغيرات الوصفية هي متغيرات لا يمكن قياس مفرداتها عددياً كالمتغيرات الدالة على لون العيون أو مهنة المريض أو جنسية الطالب، ولكن يمكننا ترميز هذه الصفات بأعداد أو أحرف تدل عليها.
الجنسية | الرمز المقابل لكل صفة |
عدد السائحين (التكرار) |
---|---|---|
لبنانية | lb | 474 |
إمارتية | ae | 277 |
أردنية | jo | 405 |
فرنسية | fr | 58 |
بريطانية | uk | 57 |
أمريكية | us | 196 |
المجموع | 1467 |
المتغيرات الرتبية
المتغيرات الرتبية ranked variables، فهي متغيرات وصفية أيضاً، ولكن تأخذ صفات قابلة للترتيب مثل المتغير الإحصائي الدال على التقديرات النهائية لمجموعة من خريجي كلية ما (مقبول، جيد، جيد جداً).
التقدير | التكرار | التكرار النسبي* | التكرار التراكمي** | التكرار التراكمي النسبي *** |
---|---|---|---|---|
مقبول | 871 | 0.59 | 871 | 0.59 |
جيد | 339 | 0.23 | 1210 | 0.82 |
جيد جداً | 257 | 0.18 | 1467 | 1.00 |
المجموع | 1467 | 1.00 | 1467 | 1.00 |
- هوامش:
- التكرار النسبي لتقدير يساوي تكراره مقسوماً على مجموع التكرارات.
- التكرار التراكمي لتقدير يساوي عدد عناصر العينة الذين لهم ذلك التقدير على الأكثر.
- التكرار التراكمي النسبي لتقدير يساوي تكراره التراكمي مقسوماً على مجموع التكرارات.
- التكرار التراكمي لتقدير يساوي عدد عناصر العينة الذين لهم ذلك التقدير على الأكثر.
وإما عن طريق استعمال أدوات القياس، كوزن عينة من أطفال حديثي الولادة في أحد المشافي.
5.20 | 4.80 | 4.50 | 4.14 | 3.90 | 3.69 | 3.50 | 3.19 | 2.85 |
---|---|---|---|---|---|---|---|---|
5.30 | 4.80 | 4.56 | 4.16 | 3.96 | 3.70 | 3.54 | 3.20 | 2.85 |
5.43 | 4.90 | 4.68 | 4.20 | 4.05 | 3.70 | 3.54 | 3.30 | 2.98 |
5.00 | 4.70 | 4.20 | 4.08 | 3.75 | 3.57 | 3.39 | 3.04 | |
5.10 | 4.71 | 4.30 | 4.10 | 3.78 | 3.60 | 3.42 | 3.10 | |
5.10 | 4.78 | 4.30 | 4.14 | 3.83 | 3.60 | 3.48 | 3.10 |
ويبين الجدول السابق أن أصغر قراءة للأوزان فيه 2.85 وأكبر قراءة فيه للأوزان 5.43 والفرق بينهما هو 2.58. ويسمى هذا الفرق مدى التوزيع. ولما كانت معظم القيم غير مكررة وعددها كبير نسبياً، فيمكن وصف هذا البيان الإحصائي بشكل أبسط من خلال تقسيم المجال الذي يحوي أصغر قراءة وأكبر قراءة للأوزان، على سبيل المثال المجال [2.6] بمجالات جزئية منفصلة ومتعاقبة، كما في الجدول التالي، وحيث رُمز لكل مجال ببدايته.
بداية فئات الأوزان | التكرار | التكرار النسبي (بالمئة) |
---|---|---|
2.0 | 0 | 0.0 |
2.5 | 3 | 5.3 |
3.0 | 9 | 15.8 |
3.5 | 14 | 24.6 |
4.0 | 15 | 26.3 |
4.5 | 10 | 17.5 |
5.0 | 6 | 10.5 |
5.5 | 0 | 0.0 |
المجموع | 57 | 100.0 |
- ملاحظة: التكرار النسبي بالمئة أو التكرار النسبي المئوي لقيمة أو لفئة يساوي تكرارها النسبي مضروباً بـ 100.
يسمى كل مجال جزئي ورد ذكره فئة بدايتها بداية المجال الجزئي الموافق لها ونهايتها نهايته وطولها يساوي الفرق بين طرفي المجال الموافق وهو هنا ثابت يساوي 0.5، ويسمى منتصف المجال الجزئي مركزاً للفئة الموافقة له، فمركز الفئة الثانية . وقد يشار إلى الفئة بذكر بدايتها أو نهايتها أو بذكرهما معاً أو بتحديد مركزها.
ويسمى مجموع التكرارات للفئات السابقة لفئة، مضافاً إليها تكرار تلك الفئة بالتكرار المتجمع الصاعد لهذه الفئة، أو التكرار التراكمي (المباشر) لها.
ويسمى مجموع التكرارات للفئات اللاحقة لفئة، مضافاً إليها تكرار تلك الفئة بالتكرار المتجمع الهابط لهذه الفئة، أو التكرار التراكمي العكسي لها.
يسمى التكرار التراكمي لفئة مقسوماً على مجموع التكرارات، بالتكرار التراكمي النسبي لهذه الفئة.
ويسمى التكرار التراكمي العكسي لفئة مقسوماً على مجموع التكرارات بالتكرار التراكمي العكسي النسبي لهذه الفئة.
الدرجة | × < 160 | 160 ≤× < 170 | 170 ≤× < 180 | 180 ≤× < 190 | 190≤× < 200 | 200 ≤ × |
---|---|---|---|---|---|---|
التكرار | 41800 | 20900 | 10450 | 8360 | 1672 | 418 |
التكرار التراكمي المباشر | 41800 | 62700 | 73150 | 81510 | 83182 | 83600 |
التكرار التراكمي النسبي المئوي | 50% | 57% | 87.5% | 97.5% | 99.5% | 100% |
التكرار التراكمي العكسي | 83600 | 41800 | 20900 | 10450 | 2090 | 418 |
- ملاحظة: يشار إلى أنه ليس من الضروري أن تكون أطوال الفئات في جدول توزيع إحصائي متساوية، ولعل الجدول التالي يوضح ذلك.
بداية فئة العمر | التكرار |
---|---|
1 | 253 |
5 | 189 |
15 | 303 |
45 | 136 |
65 | 117 |
المجموع | 1000 |
- ملاحظة: هنا طول الفئة الأولى 5-1=4 أما طول الفئة الأخيرة فهو غير محدد (65 فما فوق).
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
التوزيع الاحتمالي المستمر
التوزيع الاحتمالي للمتغيرات العددية العشوائية
إن تفحص عدد كبير من أشكال التوزيعات الإحصائية أو مدرجاتها التكرارية، يظهر أن معظمها يميل إلى التجمع في منطقة ما، ويقال في مثل هذه الحالة إن قيم المتغير المشاهدة تظهر نوعاً من النزوع أو الميل لكونها أكثر عدداً في منطقة خاصة، غالباً ما تكون مركز التوزيع. وتتوزع القيم المشاهدة المتبقية حول هذه المنطقة (المركز) ممتدة يمنة ويسرة على جانبيها. إن هذين الأمرين يمكن أن يميزا التوزيع عددياً، ويعطيان خلاصة سهلة من جهة وتفيدان من جهة أخرى في مقارنة هذا التوزيع مع توزيع آخر من الطبيعة نفسها. وثمة عدة معايير أو مقاييس عددية مميزة للتوزيعات الإحصائية أهمها مقاييس النزعة المركزية وأشهرها المتوسط الحسابي ومقاييس التفاوت وأشهرها المدى والتشتت والانحراف المعياري، إذ يعرّف المتوسط الحسابي لمجموعة من القيم بأنه حاصل قسمة مجموع تلك القيم على عددها. أما التشتت فيساوي حاصل قسمة مجموع مربعات انحرافات القيم عن متوسطها الحسابي على عددها، أما الانحراف المعياري فهو الجذر التربيعي للتشتت. فإذا أُخذت مجموعة الأوزان الموجودة في العمود الأيسر من الجدول (4) والتي عددها 6 فسيكون متوسطها الحسابي يساوي تقريباً 2.99 وسيكون مداها وهو الفرق بين أكبر قراءة للوزن وأصغر قراءة هو 2.85-3.10 = 0.25 أما انحرافها المعياري فإنه يساوي تقريباً 0.11. ويستحسن أن يكون أي مقياس من المقاييس السابقة معرفاً بصورة موضوعية ومستقلة عن المشاهد، ولا يتأثر كثيراً بالقيم المتطرفة أو الشاذة، وكذلك لا يتأثر كثيراً باختلاف العينات ذات الحجم الواحد.
التوزيعات الإحصائية لأكثر من متغير
إذا درست معاً صفتان متغيرتان (أو أكثر) لعينة من أفراد المجتمع، فيُمثل التوزيع الإحصائي المشترك لهما بجدول ذي مدخلين، كما في الجدول التالي.
لون العينين/التدخين | مدخن | غير مدخن | المجموع |
---|---|---|---|
أخضر | 3 | 5 | 8 |
بني | 2 | 9 | 11 |
أزرق | 5 | 3 | 8 |
المجموع | 10 | 17 | 27 |
يمكن أن نلاحظ من الجدول 7 وجود توزيعين «هامشيين»، الأول يتعلق بمتغير التدخين والذي يمثله العمودان الثاني والثالث في الجدول السابق، والثاني يتعلق بلون العينين والذي تمثله السطور الثلاثة الثاني والثالث والرابع في الجدول السابق. في مثل هذه الحالات يهتم الإحصائي بالبحث عن وجود ارتباط أو علاقة أو عامل كموني بين الصفتين المدروستين، كالعلاقة بين التدخين ووجود مرض السرطان، وكذلك العلاقة بين شرب الكحول ووجود مرض السرطان.
بعض الخصائص
تعريف كولموگروڤ
جيل العدد العشوائي
التطبيقات
توزيعات احتمالية شائعة
توزيعات احتمالية متقطعة
توزيعات احتمالية مستمرة
- التوزيع الطبيعي
- توزيع ستيودنت
- توزيع مكسويل-بولتزمان
- توزيع بولتزمان
- توزيع بوز-اينشتاين
- توزيع كاي
- توزيع كاي مربع
- توزيع كاي مربع المعكوس
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
انظر أيضاً
- Moment-generating function
- Copula (statistics)
- Histogram
- Likelihood function
- قائمة موضوعات الاحصاء
- Riemann–Stieltjes integral application to probability theory
المراجع
- ^ محمد بشير قابيل، وائل الإمام. "التوزيع الإحصائي". الموسوعة العربية. Retrieved 2012-07-27.
مصادر
- B. S. Everitt: The Cambridge Dictionary of Statistics, Cambridge University Press, Cambridge (3rd edition, 2006). ISBN 0-521-69027-7
- Bishop: Pattern Recognition and Machine Learning, Springer, ISBN 0-387-31073-8
وصلات خارجية