توزيع متقطع – discrete distribution

التوزيع المتقطع (Discrete Distribution)

Primary Disciplinary Field(s): الإحصاء، نظرية الاحتمالات، الرياضيات التطبيقية

1. التعريف الأساسي والمفهوم المحوري

يمثل التوزيع المتقطع مفهوماً جوهرياً في نظرية الاحتمالات والإحصاء، ويُعرّف بأنه وصف رياضي لاحتمالات النتائج الممكنة لـ متغير عشوائي متقطع. يتميز المتغير العشوائي المتقطع بأن مجموعة قيمه الممكنة تكون قابلة للعد (Countable)، سواء كانت محدودة أو غير محدودة ولكنها ما تزال قابلة للعد. على النقيض من المتغيرات المستمرة التي يمكن أن تأخذ أي قيمة ضمن نطاق معين، فإن المتغيرات المتقطعة تقفز بين قيم محددة، مثل الأعداد الصحيحة. إن التوزيع المتقطع هو الأداة التي تحدد الاحتمال الدقيق لكل قيمة من هذه القيم المتميزة التي يمكن أن يأخذها المتغير.

إن جوهر التوزيع المتقطع يكمن في ربط كل قيمة محتملة للمتغير العشوائي المتقطع باحتمالية وقوعها. يجب أن تحقق هذه الاحتمالات شرطين أساسيين لتشكيل توزيع احتمالي صالح: أولاً، يجب أن تكون جميع الاحتمالات غير سالبة (أي أكبر من أو تساوي الصفر)، وثانياً، يجب أن يكون مجموع احتمالات جميع القيم الممكنة للمتغير يساوي الواحد الصحيح (1). هذه الشروط تضمن أن النموذج الرياضي يعكس بشكل صحيح حقيقة أن أحد النتائج الممكنة يجب أن يحدث بالضرورة. تُستخدم التوزيعات المتقطعة بشكل أساسي لنمذجة الظواهر التي تتضمن العد، مثل عدد النجاحات في سلسلة من التجارب، أو عدد المكالمات الواردة خلال فترة زمنية محددة.

يُعد فهم التوزيعات المتقطعة نقطة انطلاق أساسية في التحليل الإحصائي، حيث إنها توفر الإطار النظري اللازم لحساب التوقعات، وقياس التباين، واتخاذ القرارات بناءً على البيانات الكمية. على سبيل المثال، إذا كان المتغير العشوائي يمثل عدد مرات رمي النرد حتى ظهور الرقم ستة، فإن هذا المتغير هو متغير عشوائي متقطع، وتوزيعه الاحتمالي (التوزيع الهندسي في هذه الحالة) يصف الاحتمالات المرتبطة بوقوع هذا الحدث في المحاولة الأولى أو الثانية أو ما يليها.

2. الخلفية التاريخية والتطور

تعود جذور مفاهيم التوزيعات المتقطعة إلى المراحل المبكرة من تطور نظرية الاحتمالات في القرنين السابع عشر والثامن عشر. نشأت النظرية أساساً من تحليل ألعاب الحظ والمقامرة، التي بطبيعتها تتضمن نتائج منفصلة وقابلة للعد (مثل رمي العملات المعدنية أو النرد). كان العلماء الأوائل مثل بليز باسكال (Blaise Pascal) وبيير دي فيرما (Pierre de Fermat) ويوهانس برنولي (Jakob Bernoulli) هم الرواد في وضع الأسس الرياضية لحساب الاحتمالات المرتبطة بهذه الأحداث المتقطعة.

شهد القرن الثامن عشر صياغة بعض التوزيعات المتقطعة الأكثر شهرة. يعد توزيع ذي الحدين (Binomial Distribution)، الذي وصفه برنولي في عمله “فن التخمين” (Ars Conjectandi) عام 1713، مثالاً كلاسيكياً يمثل أساساً رياضياً متيناً لنمذجة التجارب الثنائية المستقلة. ومع التوسع في تطبيق الإحصاء على مجالات أوسع مثل الديموغرافيا والعلوم الاجتماعية، أصبحت الحاجة ملحة لتطوير توزيعات أخرى قادرة على التعامل مع أنواع مختلفة من البيانات المتقطعة.

في أواخر القرن التاسع عشر وأوائل القرن العشرين، ظهرت توزيعات متقطعة هامة أخرى، أبرزها توزيع بواسون (Poisson Distribution)، الذي طوره سيميون دينيس بواسون (Siméon Denis Poisson) لوصف عدد الأحداث النادرة التي تحدث خلال فترة زمنية أو منطقة محددة. ساهمت هذه التطورات في ترسيخ مكانة التوزيعات المتقطعة كأدوات لا غنى عنها ليس فقط في الإحصاء النظري ولكن أيضاً في مجالات العلوم التطبيقية والهندسة، مما مكن الباحثين من بناء نماذج دقيقة للظواهر التي تعتمد على العد.

3. الخصائص الرئيسية للمتغيرات والتوزيعات المتقطعة

تتميز التوزيعات المتقطعة بعدة خصائص رياضية وإحصائية تميزها عن نظيرتها المستمرة. أولاً وقبل كل شيء، فإن مجال المتغير العشوائي المتقطع، والذي يُرمز له عادةً بالرمز $X$، هو مجموعة من القيم المنفصلة. هذا يعني أنه يمكننا سرد جميع القيم الممكنة، حتى لو كان عددها لا نهائياً، مثل مجموعة الأعداد الصحيحة الموجبة. هذه الخاصية هي حجر الزاوية الذي يحدد كيفية حساب الاحتمالات والمقاييس الأخرى.

ثانياً، تُستخدم دالة الكتلة الاحتمالية (Probability Mass Function – PMF)، والتي يُرمز لها بالرمز $P(x)$ أو $f(x)$، لوصف التوزيع المتقطع. هذه الدالة تحدد الاحتمال الدقيق لكون المتغير العشوائي $X$ مساوياً لقيمة معينة $x$. رياضياً، يتم تعريفها بأنها $P(X=x) = f(x)$. يجب أن تفي هذه الدالة بالشرطين الأساسيين التاليين: أن تكون $0 le f(x) le 1$ لكل قيمة $x$ في المجال، وأن يكون مجموع جميع الاحتمالات مساوياً للواحد، أي: $sum_x f(x) = 1$. هذا المجموع هو ما يميز التوزيعات المتقطعة، حيث يتم استبدال التكامل (المستخدم في التوزيعات المستمرة) بعملية الجمع المباشر.

ثالثاً، يمكن تعريف دالة التوزيع التراكمي (Cumulative Distribution Function – CDF)، ويُرمز لها بالرمز $F(x)$، وهي تمثل احتمالية أن يأخذ المتغير العشوائي قيمة أقل من أو تساوي قيمة معينة $x$. في سياق التوزيع المتقطع، تُحسب دالة التوزيع التراكمي عن طريق جمع دالة الكتلة الاحتمالية لجميع القيم التي هي أقل من أو تساوي $x$. رياضياً: $F(x) = P(X le x) = sum_{t le x} f(t)$. تكون دالة التوزيع التراكمي لتوزيع متقطع عبارة عن دالة خطوة (Step Function)، حيث تظل ثابتة بين القيم المتقطعة للمتغير ثم تقفز بشكل مفاجئ عند كل قيمة ممكنة.

4. دالة الكتلة الاحتمالية والمقاييس الإحصائية

دالة الكتلة الاحتمالية (PMF) هي الأداة الرياضية الأساسية للتعامل مع التوزيعات المتقطعة. هي التي تتيح لنا حساب المقاييس الإحصائية المركزية والتشتتية. من أهم هذه المقاييس القيمة المتوقعة (Expected Value) أو المتوسط (Mean)، والتي تُعد مقياساً للنزعة المركزية للتوزيع. يتم حساب القيمة المتوقعة $E[X]$ للمتغير العشوائي المتقطع $X$ عن طريق ضرب كل قيمة ممكنة $x$ باحتمال وقوعها $f(x)$، ثم جمع هذه النواتج. رياضياً: $E[X] = mu = sum_x x cdot f(x)$. تمثل القيمة المتوقعة متوسط القيمة التي نتوقع الحصول عليها إذا كررنا التجربة عدداً كبيراً جداً من المرات.

إلى جانب المتوسط، يُعد التباين (Variance) مقياساً حيوياً للتشتت، حيث يصف مدى انتشار قيم المتغير العشوائي حول المتوسط. يتم حساب التباين، الذي يُرمز له بالرمز $Var(X)$ أو $sigma^2$، عن طريق حساب القيمة المتوقعة لمربع الفرق بين المتغير العشوائي ومتوسطه. رياضياً: $Var(X) = E[(X – mu)^2] = sum_x (x – mu)^2 cdot f(x)$. القيمة الأكبر للتباين تشير إلى أن القيم المنتظرة متباعدة عن المتوسط، بينما القيمة الأصغر تشير إلى تركز القيم بالقرب منه.

إن فهم كيفية استخدام دالة الكتلة الاحتمالية لحساب هذه المقاييس يمثل حجر الزاوية في الإحصاء الاستدلالي. على سبيل المثال، في تطبيقات التأمين أو التمويل، يمكن استخدام القيمة المتوقعة لتحديد متوسط الخسارة المتوقعة، بينما يمكن استخدام التباين لقياس المخاطر المرتبطة بتلك الخسارة. يتم اشتقاق دالة الكتلة الاحتمالية لكل توزيع متقطع رئيسي (مثل ذي الحدين أو بواسون) من المبادئ الأساسية للتجربة التي يمثلها.

5. التوزيعات المتقطعة الشائعة

هناك العديد من التوزيعات المتقطعة القياسية التي تصف أنماطاً مختلفة من الظواهر في العالم الحقيقي. يعد توزيع ذي الحدين (Binomial Distribution) أحد أهم هذه التوزيعات، حيث يُستخدم لنمذجة عدد النجاحات في عدد ثابت $n$ من التجارب المستقلة، بشرط أن تكون لكل تجربة نتيجتان محتملتان فقط (نجاح أو فشل)، وأن يكون احتمال النجاح $p$ ثابتاً في كل تجربة. يُستخدم هذا التوزيع على نطاق واسع في مراقبة الجودة، والاختبارات الطبية، واستطلاعات الرأي.

التوزيع الآخر ذو الأهمية البالغة هو توزيع بواسون (Poisson Distribution)، والذي يُستخدم لنمذجة عدد الأحداث التي تقع في فترة زمنية أو مساحة محددة، عندما تكون هذه الأحداث نادرة ومستقلة، وتحدث بمعدل ثابت متوسط $lambda$. تشمل تطبيقاته نمذجة عدد الزبائن الذين يصلون إلى متجر في ساعة معينة، أو عدد الأخطاء المطبعية في كتاب، أو عدد الانحلالات الإشعاعية في دقيقة. يعتبر توزيع بواسون تقريباً جيداً لتوزيع ذي الحدين عندما يكون عدد التجارب $n$ كبيراً جداً واحتمال النجاح $p$ صغيراً جداً.

تشمل التوزيعات المتقطعة الرئيسية الأخرى التوزيع الهندسي (Geometric Distribution)، الذي يصف عدد محاولات برنولي المستقلة المطلوبة للحصول على أول نجاح. كما يوجد التوزيع المنتظم المتقطع (Discrete Uniform Distribution)، حيث تكون جميع النتائج الممكنة لها نفس الاحتمال (مثل رمي نرد عادل). بالإضافة إلى التوزيع فوق الهندسي (Hypergeometric Distribution)، الذي يُستخدم عندما يتم سحب العينات دون إرجاع من مجموعة محدودة، مما يجعل التجارب غير مستقلة. إن اختيار التوزيع المناسب يعتمد كلياً على طبيعة التجربة قيد الدراسة والشروط التي تحكمها.

6. التطبيقات والأهمية في المجالات المختلفة

تتجلى أهمية التوزيع المتقطع في قدرته على توفير إطار تحليلي للعديد من المشكلات العملية في مجالات متنوعة. في مجال الأعمال والتمويل، تُستخدم التوزيعات المتقطعة لنمذجة عدد المطالبات التأمينية خلال فترة معينة (باستخدام توزيع بواسون)، أو لتقييم المخاطر المرتبطة بعدد حالات التخلف عن السداد في محفظة قروض (باستخدام توزيع ذي الحدين). كما تُستخدم في نظرية قوائم الانتظار لتحليل كفاءة الخدمة.

في مراقبة الجودة والتصنيع، تلعب التوزيعات المتقطعة دوراً حاسماً. يتم استخدام توزيع ذي الحدين لتحديد احتمالية وجود عدد معين من المنتجات المعيبة في دفعة إنتاج، مما يساعد الشركات على وضع معايير القبول والرفض. أما في علم الأحياء وعلم الوراثة، يمكن استخدام التوزيعات المتقطعة لنمذجة عدد الطفرات التي تحدث في تسلسل حمض نووي معين أو عدد الخلايا التي تحمل خاصية معينة.

علاوة على ذلك، في علوم الحاسوب وهندسة الاتصالات، تُستخدم التوزيعات المتقطعة، وخاصة توزيع بواسون، لنمذجة تدفق حركة مرور الشبكة (مثل عدد حزم البيانات التي تصل إلى خادم في الثانية)، مما يساعد المهندسين على تصميم شبكات قوية وموثوقة. إن فهم هذه التوزيعات يسمح للمحللين والعلماء بتحويل البيانات المجمعة من العالم الحقيقي إلى نماذج رياضية يمكن استغلالها للتنبؤ واتخاذ القرارات الاستراتيجية.

7. التمييز عن التوزيعات المستمرة والمناقشات

يُعد التمييز الواضح بين التوزيعات المتقطعة والتوزيعات المستمرة أحد أهم المفاهيم الأساسية في الإحصاء. يتمثل الفارق الرئيسي في طبيعة مجموعة القيم التي يمكن أن يأخذها المتغير العشوائي. فبينما تتعامل التوزيعات المتقطعة مع قيم قابلة للعد (مثل 0, 1, 2, …)، تتعامل التوزيعات المستمرة (مثل التوزيع الطبيعي أو التوزيع الأسي) مع قيم يمكن أن تأخذ أي قيمة ضمن مدى معين (مثل الوزن، الطول، الوقت).

تتطلب هذه الطبيعة المختلفة أدوات رياضية مختلفة. في التوزيعات المتقطعة، يتم حساب الاحتمالات باستخدام دالة الكتلة الاحتمالية وعملية الجمع (السيجما $sum$). أما في التوزيعات المستمرة، فيتم استخدام دالة الكثافة الاحتمالية (Probability Density Function – PDF)، ويتم حساب الاحتمالات عن طريق التكامل ($int$). نتيجة لذلك، في التوزيع المستمر، فإن احتمالية أن يأخذ المتغير قيمة واحدة محددة بدقة هي دائماً صفر، بينما في التوزيع المتقطع، تكون هذه الاحتمالية عادةً أكبر من الصفر.

على الرغم من هذا التمييز الواضح، غالباً ما يتم استخدام التوزيعات المستمرة لتقريب التوزيعات المتقطعة عندما تكون معاملات الأخيرة كبيرة جداً. على سبيل المثال، يمكن تقريب توزيع ذي الحدين (وهو متقطع) باستخدام التوزيع الطبيعي (وهو مستمر) عندما يكون عدد التجارب $n$ كبيراً، وهي عملية تُعرف باسم تصحيح الاستمرارية. هذه التقريبات ضرورية في الممارسة العملية عندما تصبح الحسابات المتقطعة مرهقة للغاية، وتُظهر المرونة والترابط بين النماذج الإحصائية المختلفة.

Further Reading