توزيع ذي الحدين: فهم احتمالات السلوك البشري بدقة

مدرس الدكتور محمد لوتي

المحتويات:

توزيع ذي الحدين

المجال (المجالات) التخصصية الأساسية: الإحصاء، نظرية الاحتمالات، الرياضيات التطبيقية

1. التعريف الأساسي

يمثل توزيع ذي الحدين (Binomial Distribution) أحد أهم التوزيعات الاحتمالية المتقطعة في الإحصاء ونظرية الاحتمالات، وهو نموذج رياضي يستخدم لوصف عدد النجاحات في سلسلة محددة من التجارب المستقلة. يُعد هذا التوزيع أساسيًا لفهم الظواهر التي تنطوي على نتائج ثنائية، حيث لكل تجربة نتيجتان محتملتان فقط: إما نجاح أو فشل. ويُعرف هذا النوع من التجارب باسم تجربة برنولي، نسبة إلى عالم الرياضيات السويسري ياكوب برنولي الذي وضع أسس هذا المفهوم في القرن الثامن عشر. يعتمد التوزيع على فرضية أن احتمالية النجاح (المُشار إليها بالرمز p) تظل ثابتة في كل تجربة، وأن عدد المحاولات الكلي (المُشار إليه بالرمز n) يجب أن يكون ثابتًا ومُحددًا مسبقًا.

يهدف توزيع ذي الحدين إلى الإجابة عن سؤال محدد: ما هو احتمال الحصول على عدد معين من النجاحات (k) بالضبط، ضمن إجمالي عدد المحاولات (n)؟ لفهم هذا التوزيع بشكل دقيق، يجب النظر إلى المتغير العشوائي ذي الحدين على أنه يمثل مجموع مجموعة من متغيرات برنولي المستقلة والمتطابقة التوزيع (I.I.D.). على سبيل المثال، إذا قمنا بإجراء تجربة رمي قطعة نقدية عشر مرات (حيث n=10)، فإن توزيع ذي الحدين يحدد احتمال الحصول على سبع مرات “رأس” بالضبط، بافتراض أن احتمالية الحصول على “رأس” في كل رمية هي 0.5. هذه القدرة على نمذجة التكرار تحت ظروف ثابتة تجعله أداة محورية في التحليل الإحصائي التطبيقي.

على الرغم من بساطة المفهوم الأساسي، فإن توزيع ذي الحدين يمتلك قوة تحليلية هائلة، حيث يشكل حجر الزاوية للعديد من المفاهيم الإحصائية الأكثر تعقيدًا. يتميز التوزيع بكونه مُحددًا بالكامل بواسطة معلمتين رئيسيتين فقط: عدد التجارب n، واحتمالية النجاح p. وبمجرد تحديد هاتين المعلمتين، يمكن اشتقاق جميع الخصائص الإحصائية للتوزيع، بما في ذلك المتوسط والتباين والمنوال. ويُرمز للمتغير العشوائي الذي يتبع هذا التوزيع عادةً بالرمز $X sim B(n, p)$. ويجب التأكيد على أن هذا التوزيع لا ينطبق إلا على البيانات المتقطعة التي يمكن عدها، ولا يمكن استخدامه لنمذجة المتغيرات العشوائية المستمرة.

2. الشروط والافتراضات الأساسية

للتطبيق الصحيح لتوزيع ذي الحدين، يجب أن تتوفر أربعة شروط أساسية، ويُعد فهم هذه الشروط أمرًا بالغ الأهمية لتجنب الأخطاء المنهجية في النمذجة الإحصائية. الشرط الأول والأكثر وضوحًا هو أن تكون التجربة عبارة عن سلسلة من n محاولات ثابتة ومحددة. يجب أن يكون العدد الكلي للمحاولات معروفًا ومُحددًا قبل بدء التجربة، ولا يمكن أن يتغير أثناء إجراء التجارب. هذا يضمن أن مجال قيم المتغير العشوائي X محصور بين 0 و n. على سبيل المثال، في دراسة فعالية لقاح، يجب أن يكون عدد الأشخاص المشاركين في الدراسة ثابتًا.

الشرط الثاني هو أن تكون نتائج كل محاولة ثنائية، أي يجب أن تنتمي كل محاولة إلى تصنيف من اثنين فقط (نجاح أو فشل). يتم تعريف النجاح والفشل بناءً على الهدف الإحصائي للدراسة. على سبيل المثال، إذا كان الهدف هو عد حالات المرض، فإن الإصابة بالمرض هي “نجاح” (لغرض العد)، وعدم الإصابة هو “فشل”. ولا يمكن تطبيق توزيع ذي الحدين على التجارب التي تحتوي على ثلاثة أو أكثر من النتائج المحتملة، وفي هذه الحالة يتم استخدام توزيعات أخرى مثل التوزيع المتعدد الحدود.

الشرط الثالث والأكثر أهمية هو استقلالية المحاولات. يعني هذا أن نتيجة أي محاولة لا تؤثر بأي شكل من الأشكال على نتيجة المحاولات اللاحقة. في سياق الإحصاء، يتم ضمان الاستقلالية عادةً من خلال أخذ العينات مع الإرجاع، أو عندما يكون حجم العينة صغيرًا جدًا مقارنة بحجم المجتمع الكلي (عادةً أقل من 10%). إذا تم انتهاك شرط الاستقلالية، كما هو الحال في سحب البطاقات من مجموعة دون إرجاع، يصبح التوزيع فوق الهندسي (Hypergeometric Distribution) هو الأداة المناسبة للنمذجة بدلاً من توزيع ذي الحدين.

أخيرًا، يجب أن تكون احتمالية النجاح (p) ثابتة لكل محاولة. هذا يعني أن الاحتمال الأساسي للحدث الذي يتم عده يجب أن يظل دون تغيير من التجربة الأولى حتى التجربة الأخيرة. في الواقع العملي، قد يكون هذا الافتراض صعب التحقيق تمامًا، خاصة في التجارب التي تتأثر بالزمن أو الظروف المتغيرة. ومع ذلك، في العديد من التطبيقات الإحصائية القياسية، يتم التعامل مع p كقيمة ثابتة غير متغيرة لتبسيط التحليل الرياضي، ويُعد هذا الثبات هو ما يميز توزيع ذي الحدين عن توزيعات أخرى متقطعة مثل التوزيع الهندسي أو السلبي ذي الحدين.

3. الصيغة الرياضية ودالة كتلة الاحتمال

يتم تحديد توزيع ذي الحدين رياضيًا بواسطة دالة كتلة الاحتمال (Probability Mass Function, PMF)، وهي الصيغة التي تسمح بحساب احتمال الحصول على k من النجاحات بالضبط في n من المحاولات. الصيغة الرياضية لدالة كتلة الاحتمال لتوزيع ذي الحدين هي:

$P(X = k) = binom{n}{k} p^k (1-p)^{n-k}$

تمثل هذه الصيغة جوهر التوزيع، ويمكن تحليلها إلى ثلاثة مكونات رئيسية. المكون الأول هو معامل التوافيق $binom{n}{k}$، والذي يُقرأ على أنه “n فوق k“. هذا المعامل يحسب عدد الطرق المختلفة التي يمكن بها ترتيب k من النجاحات و n-k من حالات الفشل داخل سلسلة المحاولات n. إذا كان لدينا، على سبيل المثال، 4 محاولات ورغبنا في نجاحين، فإن التوافيق تحسب أن هناك 6 ترتيبات ممكنة (نجاح-نجاح-فشل-فشل، نجاح-فشل-نجاح-فشل، إلخ). ويتم حساب هذا المعامل باستخدام الصيغة: $binom{n}{k} = frac{n!}{k!(n-k)!}$.

المكون الثاني هو $p^k$، ويمثل احتمالية الحصول على k من النجاحات. نظرًا لأن المحاولات مستقلة، يتم ضرب احتمالات النجاح معًا k مرة. أما المكون الثالث فهو $(1-p)^{n-k}$، والذي يمثل احتمالية الحصول على n-k من حالات الفشل. يُرمز لاحتمالية الفشل غالبًا بالرمز $q = 1-p$. وبما أن كل ترتيب محدد من k من النجاحات و n-k من حالات الفشل له نفس الاحتمال (وهو $p^k q^{n-k}$)، فإن دالة كتلة الاحتمال ببساطة تضرب عدد الترتيبات الممكنة (التوافيق) في احتمال حدوث أي ترتيب واحد محدد.

4. المعالم الرئيسية: المتوسط، التباين، والانحراف المعياري

تُعد المعالم الإحصائية، مثل المتوسط والتباين، ضرورية لوصف مركز وشكل انتشار توزيع ذي الحدين دون الحاجة لحساب الاحتمالات الفردية. يُعرف المتوسط، أو القيمة المتوقعة ($E[X]$)، لتوزيع ذي الحدين بأنه أبسط بكثير من حساب المتوسط للتوزيعات المتقطعة الأخرى. يمثل المتوسط القيمة التي نتوقعها لعدد النجاحات إذا كررنا التجربة عددًا كبيرًا من المرات. وبما أن كل محاولة مستقلة ولها احتمال نجاح $p$، فإن متوسط عدد النجاحات يُعطى ببساطة بالصيغة:

$E[X] = mu = n p$

أما التباين ($Var[X]$)، فهو مقياس لمدى تشتت أو انتشار التوزيع حول قيمته المتوقعة. يُعد التباين مقياسًا مهمًا لعدم اليقين؛ فكلما كان التباين أكبر، كانت النتائج المحتملة أكثر تشتتًا. يُحسب التباين لتوزيع ذي الحدين بالصيغة: $Var[X] = sigma^2 = n p (1-p)$. ويُلاحظ أن التباين يعتمد على عدد التجارب n وعلى كل من احتمالية النجاح p واحتمالية الفشل (1-p). يصل التباين إلى أقصى قيمة له عندما تكون احتمالية النجاح $p = 0.5$ (حالة التوزيع المتماثل)، مما يشير إلى أقصى درجة من عدم اليقين حول النتيجة.

يُشتق الانحراف المعياري ($sigma$) من التباين، وهو يمثل الجذر التربيعي للتباين، ويُستخدم غالبًا لأنه يقدم مقياسًا للتشتت بنفس وحدات المتغير العشوائي الأصلي. أما بالنسبة لشكل التوزيع، فيعتمد التوزيع ذي الحدين على قيمة p: إذا كانت $p = 0.5$، يكون التوزيع متماثلاً تمامًا حول المتوسط. إذا كانت $p 0.5$، يكون التوزيع ملتوياً جهة اليسار (التواء سالب). وكلما زاد عدد التجارب n، أصبح شكل التوزيع أكثر قربًا من التوزيع الطبيعي، بغض النظر عن قيمة p (بافتراض أن $np$ و $n(1-p)$ كبيران).

5. السياق التاريخي والتطور

تعود الجذور النظرية لتوزيع ذي الحدين إلى أعمال عالم الرياضيات السويسري ياكوب برنولي (Jacob Bernoulli)، الذي نشر كتابه الرائد “فن التخمين” (Ars Conjectandi) بعد وفاته في عام 1713. في هذا العمل، وضع برنولي الأساس لما يُعرف الآن باسم “تجارب برنولي” وقدم أول صياغة واضحة لقانون الأعداد الكبيرة. على الرغم من أن برنولي لم يطلق عليه اسم “توزيع ذي الحدين”، إلا أن تحليله لعدد النجاحات في سلسلة من التجارب المستقلة ذات الاحتمال الثابت شكل الإطار النظري الكامل للتوزيع.

تطور المفهوم بشكل أكبر على يد علماء رياضيات لاحقين. ساهم أبراهام دي موافر (Abraham de Moivre) في تطوير فهم العلاقة بين التوزيع ذي الحدين والتوزيع الطبيعي. فقد أظهر دي موافر أنه عندما يصبح عدد التجارب n كبيرًا جدًا، يمكن تقريب التوزيع ذي الحدين باستخدام التوزيع الطبيعي، وهي نتيجة حاسمة مهدت الطريق لنظرية النهاية المركزية. هذا التقريب كان ضروريًا في تلك الحقبة لعدم وجود أدوات حاسوبية تمكن من حساب قيم التوافيق الكبيرة المطلوبة في دالة كتلة الاحتمال.

استمرت أهمية توزيع ذي الحدين في النمو مع تطور الإحصاء الحديث في القرنين التاسع عشر والعشرين، حيث أصبح أداة أساسية في مجالات مثل مراقبة الجودة والاختبارات الإحصائية. ويُعد هذا التوزيع حاليًا أحد التوزيعات التي تُدرس في جميع المقررات الإحصائية التمهيدية، مما يؤكد دوره كنموذج أولي لفهم التوزيعات الاحتمالية المتقطعة وكيفية ارتباطها بالتوزيعات المستمرة عبر التقريب.

6. العلاقة بالتوزيعات الاحتمالية الأخرى

يرتبط توزيع ذي الحدين بعلاقات وثيقة مع عدة توزيعات احتمالية أخرى، مما يجعله نقطة مركزية في شبكة التوزيعات الإحصائية. العلاقة الأبسط والأكثر مباشرة هي مع توزيع برنولي، حيث يُعد توزيع برنولي حالة خاصة من توزيع ذي الحدين عندما يكون عدد المحاولات $n=1$. أي أن تجربة برنولي الواحدة هي الأساس الذي يُبنى عليه توزيع ذي الحدين، والذي هو مجموع n من هذه التجارب المستقلة.

هناك أيضًا علاقة هامة مع توزيع بواسون (Poisson Distribution). يتم استخدام تقريب بواسون لتوزيع ذي الحدين عندما يكون عدد المحاولات n كبيرًا جدًا، وفي نفس الوقت تكون احتمالية النجاح p صغيرة جدًا (الأحداث النادرة)، مع بقاء حاصل ضرب $np = lambda$ ثابتًا ومعتدلاً. في هذه الحالة، يمكن استخدام توزيع بواسون (الذي يتميز بمعلمة واحدة $lambda$) لتبسيط الحسابات المعقدة لتوزيع ذي الحدين. هذا التقريب مفيد بشكل خاص في نمذجة معدلات الحوادث أو الأخطاء في فترات زمنية أو مساحات كبيرة.

أما التقريب الأكثر شهرة وإفادة هو التقريب باستخدام التوزيع الطبيعي (Normal Distribution)، والذي يعتمد على نظرية النهاية المركزية. عندما يكون عدد المحاولات n كبيرًا بشكل كافٍ (كقاعدة عامة، عندما يكون $np ge 10$ و $n(1-p) ge 10$)، يصبح شكل توزيع ذي الحدين متماثلاً تقريبًا ويمكن تقريبه بواسطة التوزيع الطبيعي ذي المتوسط $mu = np$ والتباين $sigma^2 = np(1-p)$. يسمح هذا التقريب بتحويل متغير ذي الحدين المتقطع إلى متغير طبيعي مستمر، مما يسهل استخدام جداول التوزيع الطبيعي القياسية وإجراء الاستدلال الإحصائي، وهي تقنية حاسمة تاريخياً قبل ظهور الحواسيب.

7. التطبيقات العملية عبر التخصصات

يجد توزيع ذي الحدين تطبيقات واسعة النطاق في مختلف المجالات العلمية والعملية بسبب قدرته على نمذجة الظواهر التي تنطوي على نسب ونتائج ثنائية. في مجال مراقبة الجودة، على سبيل المثال، يُستخدم التوزيع لحساب احتمال وجود عدد معين من الوحدات المعيبة في عينة محددة الحجم من دفعة إنتاج كبيرة. إذا كانت احتمالية وجود عيب في أي قطعة هي p، يمكن للمهندسين استخدام التوزيع لتحديد ما إذا كانت الدفعة بأكملها مقبولة إحصائيًا أم لا، وتصميم خطط أخذ العينات المناسبة.

في الطب وعلم الأحياء، يلعب التوزيع دورًا حيويًا في تصميم وتحليل التجارب السريرية. عندما يتم اختبار دواء جديد، يتم تسجيل نتائج المرضى كنجاح (تحسن) أو فشل (عدم تحسن). يساعد توزيع ذي الحدين في تحديد احتمالية أن تكون نسبة النجاح الملاحظة في العينة ناتجة عن الصدفة، أو ما إذا كانت تعكس فعالية حقيقية للدواء في المجتمع الأكبر. كما يُستخدم في علم الأوبئة لتقدير انتشار مرض معين (الحالة: مصاب أو غير مصاب) في مجموعة سكانية محددة.

بالإضافة إلى ذلك، يُعد التوزيع ذي الحدين أساسيًا في العلوم الاجتماعية والاستطلاعات السياسية. عند إجراء استطلاع رأي، يتم التعامل مع كل مستجيب كـ “محاولة” ذات نتيجة ثنائية (مثل: موافق/غير موافق، أو مؤيد/معارض). يُستخدم التوزيع لحساب هامش الخطأ وتقدير الفواصل الزمنية للثقة حول نسبة المجتمع المقدرة، مما يوفر الأساس الرياضي لتبرير دقة الاستطلاعات المنشورة. وفي مجال التمويل، يُستخدم التوزيع في نموذج تسعير الخيارات ذي الحدين لتقييم المشتقات المالية بناءً على حركتين محتملتين للسعر (ارتفاع أو انخفاض) في فترات زمنية محددة.

8. القيود والتحديات المنهجية

على الرغم من القوة التحليلية لتوزيع ذي الحدين، إلا أنه ليس مناسبًا لجميع سيناريوهات البيانات المتقطعة، ويجب على الباحثين أن يكونوا على دراية بقيوده. التحدي الرئيسي يكمن في الافتراض الصارم لاستقلالية المحاولات. في العديد من التطبيقات الواقعية، خاصة عند أخذ العينات من مجتمع محدود دون إرجاع، يتم انتهاك هذا الافتراض. فإذا تم سحب عناصر من مجتمع محدود، فإن سحب عنصر معيب يؤدي إلى زيادة احتمالية سحب عنصر معيب آخر في المحاولة التالية، وبالتالي تتغير احتمالية p باستمرار.

عندما يتم انتهاك شرط الاستقلالية بسبب أخذ العينات دون إرجاع من مجتمع محدود، فإن التوزيع الصحيح للاستخدام هو التوزيع فوق الهندسي (Hypergeometric Distribution)، وليس توزيع ذي الحدين. يسمح التوزيع فوق الهندسي بأخذ التغير في المجتمع المتبقي في الحسبان بعد كل سحب. ومع ذلك، إذا كان حجم المجتمع كبيرًا جدًا مقارنة بحجم العينة (كما ذكرنا، إذا كانت العينة أقل من 10% من المجتمع)، يمكن استخدام توزيع ذي الحدين كتقريب مقبول للتوزيع فوق الهندسي.

هناك قيد آخر يتعلق بثبات احتمالية النجاح (p). في بعض الأنظمة الديناميكية أو البيولوجية، قد تتغير احتمالية النجاح بمرور الوقت أو نتيجة عوامل خارجية غير محسوبة. إذا كانت p تتغير بشكل منهجي، فإن التوزيع ذي الحدين يصبح نموذجًا غير دقيق. في مثل هذه الحالات، قد تكون التوزيعات الأخرى التي تسمح بـ “التشتت المفرط” (Overdispersion)، مثل التوزيع ذي الحدين السالب، أكثر ملاءمة للنمذجة، حيث إنها تسمح بتباين أكبر مما يتوقعه التوزيع ذي الحدين القياسي.