الاحتمال التراكمي: كيف نتنبأ بسلوكنا المستقبلي؟

مدرس الدكتور محمد لوتي

المحتويات:

الاحتمال التراكمي

المجالات التخصصية الرئيسية: الإحصاء الرياضي، نظرية الاحتمالات، التحليل الرياضي.

1. التعريف الجوهري

يمثل مفهوم الاحتمال التراكمي (Cumulative Probability) حجر الزاوية في بناء نظرية الاحتمالات الحديثة والإحصاء الاستدلالي، حيث يوفر طريقة منهجية لتحديد احتمالية أن يقع متغير عشوائي ضمن مدى معين من القيم. بشكل أساسي، يُعرّف الاحتمال التراكمي لقيمة محددة (x) بأنه احتمال أن يأخذ المتغير العشوائي (X) قيمة مساوية لتلك القيمة أو أقل منها. هذا التعريف هو الأساس الرياضي لدالة التوزيع التراكمي (Cumulative Distribution Function – CDF)، والتي تُرمز لها بالرمز F(x)، وتُكتب رسميًا على النحو: F(x) = P(X ≤ x). هذه الدالة هي المرجع الشامل الذي يصف التوزيع الاحتمالي الكامل للمتغير العشوائي، سواء كان هذا المتغير متقطعًا (مثل نتائج رمي النرد) أو مستمرًا (مثل قياسات الطول أو الوزن).

تكمن القوة التحليلية للاحتمال التراكمي في قدرته على تجميع الاحتمالات، فبدلاً من التركيز على احتمالية وقوع حدث واحد بذاته (كما في دالة الكتلة الاحتمالية للمتغيرات المتقطعة)، فإنه ينظر إلى مجموع الاحتمالات المتراكمة حتى نقطة معينة. هذا التراكم يضمن أن دالة CDF تبدأ دائمًا من الصفر (عندما تقترب x من سالب اللانهاية، حيث لا توجد قيم ممكنة أقل منها) وتنتهي بالواحد الصحيح (عندما تقترب x من موجب اللانهاية، مما يشمل جميع القيم الممكنة للمتغير العشوائي). وعليه، فإن نطاق قيم دالة التوزيع التراكمي محصور دائمًا بين الصفر والواحد، ما يعكس الخاصية البديهية للاحتمالات.

من الناحية الإحصائية، يُعد فهم الاحتمال التراكمي أمرًا بالغ الأهمية عند التعامل مع مشكلات التباين وتحديد المدى الاحتمالي. على سبيل المثال، إذا كنا نرغب في معرفة احتمالية أن يكون دخل فرد ما أقل من 50 ألف دولار سنويًا، فإننا ببساطة ننظر إلى قيمة دالة التوزيع التراكمي عند x = 50,000. هذا يختلف تمامًا عن محاولة تحديد الاحتمال الدقيق لأن يكون الدخل 50,000 دولار بالضبط، وهي احتمالية قد تكون صفرًا في حالة المتغيرات المستمرة. وبالتالي، يوفر الاحتمال التراكمي إطارًا عمليًا ورياضيًا متينًا للتعامل مع التوزيعات المستمرة التي يصعب فيها تحديد احتمالية نقطة واحدة.

2. التطور التاريخي والمفاهيمي

تعود جذور المفاهيم التي أدت إلى صياغة الاحتمال التراكمي إلى المراحل المبكرة لتطور نظرية الاحتمالات في القرنين السابع عشر والثامن عشر، حيث بدأ علماء مثل بليز باسكال (Blaise Pascal) وبيير دي فيرما (Pierre de Fermat) وياكوب برنولي (Jacob Bernoulli) في وضع الأسس الرياضية لحساب الفرص والألعاب. ومع ذلك، لم يتم تبلور مفهوم الدالة التراكمية في شكله الحديث والمنظم إلا مع النمو الهائل للإحصاء كنظام رياضي مستقل في أواخر القرن التاسع عشر وبداية القرن العشرين. قبل ذلك، كان التركيز ينصب غالبًا على حساب الاحتمالات المتقطعة أو المتوسطات.

كانت النقلة النوعية الرئيسية مرتبطة بجهود علماء مثل كارل بيرسون (Karl Pearson) ورونالد فيشر (Ronald Fisher) في تطوير توزيعات مستمرة معقدة (مثل التوزيع الطبيعي وتوزيعات t و Chi-squared). عندما تم التعامل مع هذه التوزيعات، أصبح من الضروري إيجاد دالة يمكنها حساب المساحة تحت المنحنى (التي تمثل الاحتمال) من نقطة معينة وإلى ما دونها. هذا التكامل هو جوهر المفهوم التراكمي. في ثلاثينيات القرن العشرين، قام أندريه كولموغوروف (Andrey Kolmogorov) بوضع الأسس البديهية لنظرية الاحتمالات، والتي رسخت مكانة دالة التوزيع التراكمي كأداة أساسية في قياسات الاحتمال، حيث أكد على دورها كدالة قياس (Measure Function) لتحديد الاحتمال على فضاء العينة.

في السياق الحديث، يُنظر إلى دالة التوزيع التراكمي على أنها الأداة الأكثر شمولاً لوصف توزيع الاحتمال. في حين أن دالة الكثافة الاحتمالية (PDF) قد لا تكون معرفة في كل مكان أو قد تتطلب معالجة خاصة للمتغيرات المتقطعة، فإن دالة التوزيع التراكمي F(x) هي دائمًا دالة موجودة وموحدة لجميع أنواع المتغيرات العشوائية (متقطعة، مستمرة، أو مختلطة). هذا التوحيد المفاهيمي هو ما جعلها الأداة القياسية في الكتب المدرسية والمناهج الأكاديمية الحديثة في الإحصاء الرياضي.

3. الخصائص والمكونات الأساسية

تتميز دالة التوزيع التراكمي F(x) بعدد من الخصائص الرياضية الصارمة التي يجب أن تحققها لكي تمثل توزيعًا احتماليًا صالحًا. هذه الخصائص تضمن الاتساق الداخلي للمفهوم وتجعله قابلاً للتطبيق عالميًا في نظرية القياس والاحتمالات. أول هذه الخصائص هي خاصية الرتابة غير التناقصية (Non-decreasing Monotonicity). بما أن F(x) تمثل احتمال وقوع X ≤ x، فإنه إذا زادت قيمة x، فإن الاحتمال المتراكم لا يمكن أن ينقص أبدًا؛ بل يظل ثابتًا أو يزداد. رياضيًا، إذا كانت a < b، فإن F(a) ≤ F(b).

الخاصية الثانية تتعلق بالقيم الحدية للدالة: يجب أن تكون النهاية عند سالب اللانهاية صفرًا، والنهاية عند موجب اللانهاية واحدًا. هذا يعني أن (lim_{x to -infty} F(x) = 0) و (lim_{x to infty} F(x) = 1). هذه الحدود تعكس حقيقة أن الاحتمال التراكمي يجب أن يبدأ من لا شيء ويغطي في النهاية جميع الاحتمالات الممكنة، والتي مجموعها يجب أن يساوي الوحدة. هذا القيد يضمن أن التوزيع يغطي فضاء العينة بالكامل.

الخاصية الثالثة الهامة هي الاستمرارية من اليمين (Right-Continuity). يجب أن تكون دالة F(x) مستمرة من اليمين عند كل نقطة x. هذه الخاصية ضرورية بشكل خاص للتعامل مع المتغيرات العشوائية المتقطعة، حيث تحدث “قفزات” في الدالة عند القيم الممكنة للمتغير. على الرغم من وجود هذه القفزات، فإن الاستمرارية من اليمين تضمن أن الدالة معرفة بشكل فريد ومتسق في كل نقطة. في المقابل، فإن الدالة التراكمية للمتغيرات المستمرة تكون مستمرة في كل مكان.

الرتابة: F(x) هي دالة غير متناقصة.
الحدود: F(-infty) = 0 و F(infty) = 1.
الاستمرارية: يجب أن تكون الدالة مستمرة من اليمين.
حساب الاحتمال الفتري: يمكن حساب احتمال وقوع X بين قيمتين a و b باستخدام الفرق التراكمي: P(a < X ≤ b) = F(b) – F(a).

4. دالة التوزيع التراكمي (CDF)

تُعد دالة التوزيع التراكمي (CDF) الترجمة الرياضية المباشرة لمفهوم الاحتمال التراكمي، وهي تختلف في صياغتها باختلاف نوع المتغير العشوائي. إذا كان المتغير العشوائي X متقطعًا، فإن CDF تُحسب عن طريق مجموع (Summation) قيم دالة الكتلة الاحتمالية (PMF) لجميع القيم الممكنة التي تقل عن أو تساوي x. هذا يعني أن F(x) = sum_{t le x} P(X=t). نظرًا لأن المتغيرات المتقطعة تأخذ قيمًا منفصلة، فإن دالة CDF الخاصة بها تكون دالة خطوة (Step Function) غير مستمرة، حيث تحدث القفزات عند كل قيمة ممكنة للمتغير، وحجم القفزة يساوي احتمالية تلك القيمة بالذات.

أما بالنسبة للمتغيرات العشوائية المستمرة، فإن دالة CDF تُحسب عن طريق تكامل دالة الكثافة الاحتمالية (PDF)، حيث أن F(x) = int_{-infty}^{x} f(t) dt. في هذه الحالة، تكون دالة CDF دائمًا دالة مستمرة وسلسة، وتتغير قيمتها بشكل تدريجي مع زيادة x. هذا التكامل يمثل المساحة تحت منحنى الكثافة الاحتمالية من سالب اللانهاية وصولاً إلى النقطة x، وهو ما يعبر بدقة عن الاحتمال المتراكم. ومن الجدير بالذكر أن العلاقة عكسية أيضًا: يمكن استعادة دالة الكثافة الاحتمالية (PDF) عن طريق اشتقاق دالة التوزيع التراكمي، أي f(x) = F'(x)، شريطة أن تكون الدالة قابلة للاشتقاق.

بفضل هذه العلاقة المتبادلة بين CDF و PDF (أو PMF)، فإن دالة التوزيع التراكمي تحمل في طياتها جميع المعلومات الإحصائية اللازمة لوصف التوزيع. يمكن استخلاص جميع مقاييس النزعة المركزية (مثل الوسيط) ومقاييس التشتت (مثل المدى الربيعي) مباشرة من CDF. على سبيل المثال، الوسيط هو القيمة x التي عندها يكون الاحتمال التراكمي يساوي 0.5، أي F(x) = 0.5. هذا يجعلها أداة قوية في تحليل البيانات الوصفي والاستدلالي.

5. الأهمية والتطبيقات العملية

تتجلى الأهمية البالغة لمفهوم الاحتمال التراكمي في العديد من المجالات التطبيقية، بدءًا من العلوم الأساسية وصولًا إلى الهندسة والتمويل. ربما يكون التطبيق الأبرز هو في حساب القيم الكمية (Quantiles) والنسب المئوية (Percentiles)، والتي تُستخدم لتحديد نقاط القطع في التوزيعات. على سبيل المثال، في الاختبارات الموحدة، يتم تحديد أداء الطالب بالنسبة المئوية، وهي تعكس قيمة الاحتمال التراكمي الذي يقع دونه نسبة معينة من السكان.

في مجال الإحصاء الاستدلالي، يُستخدم الاحتمال التراكمي بشكل مكثف في اختبار الفرضيات. عندما يقوم الباحث بحساب قيمة اختبار (test statistic)، يتم استخدام دالة التوزيع التراكمي للتوزيع المرجعي (مثل التوزيع الطبيعي المعياري أو توزيع t) لحساب القيمة الاحتمالية (p-value). القيمة p-value هي في جوهرها احتمال تراكمي (أو احتمال ذيل التوزيع) يمثل احتمالية الحصول على نتيجة مساوية للنتيجة المرصودة أو أكثر تطرفًا منها إذا كانت الفرضية الصفرية صحيحة.

بالإضافة إلى ذلك، يلعب الاحتمال التراكمي دورًا محوريًا في مجالات إدارة المخاطر والتمويل. في التحليل المالي، تُستخدم دالة التوزيع التراكمي لنمذجة سلوك عوائد الأصول المالية وحساب مقاييس المخاطر مثل القيمة المعرضة للخطر (Value at Risk – VaR). يمثل VaR كمية الخسارة المتوقعة عند مستوى ثقة معين، وهو ما يتم تحديده مباشرة باستخدام دالة التوزيع التراكمي العكسية (دالة الكمية). وفي الهندسة، يُستخدم في تحليل الموثوقية (Reliability Analysis) لتحديد احتمال فشل نظام أو مكون معين خلال فترة زمنية محددة.

6. المقارنة مع دالة الكثافة الاحتمالية

من الضروري التمييز بين الاحتمال التراكمي (الممثل في F(x)) ودالة الكثافة الاحتمالية (PDF، الممثلة في f(x) للمتغيرات المستمرة) أو دالة الكتلة الاحتمالية (PMF للمتغيرات المتقطعة). دالة الكثافة/الكتلة توفر معلومات حول احتمالية وقوع قيمة محددة أو احتمالية وقوع المتغير في جوار نقطة معينة. ففي حالة المتغيرات المستمرة، لا تمثل f(x) احتمالًا بحد ذاتها، بل كثافة الاحتمال عند تلك النقطة.

على النقيض، فإن دالة التوزيع التراكمي F(x) هي دائمًا قيمة احتمال فعلية تتراوح بين 0 و 1. العلاقة بينهما هي علاقة تفاضل وتكامل: إذا كان لدينا PDF، فإننا نكامل للحصول على CDF. وإذا كان لدينا CDF، فإننا نشتق للحصول على PDF. هذه العلاقة التكاملية تبرز أن CDF هي التعبير الأكثر “نعومة” وشمولية للتوزيع، حيث أنها لا تحتوي على أي معلومات مفقودة؛ بل هي التجميع الرياضي لجميع احتمالات الكثافة وصولاً إلى تلك النقطة.

في التطبيقات العملية، يتم تفضيل CDF في الحالات التي تتطلب حساب احتمالات الفترات أو إيجاد الكميات (Quantiles)، بينما يتم تفضيل PDF عندما يكون الهدف هو وصف شكل التوزيع، تحديد الوضع (Mode)، أو مقارنة الكثافة النسبية للاحتمال بين نقاط مختلفة. ومع ذلك، فإن الطبيعة الموحدة لـ CDF تجعلها الأداة الرياضية الأساسية التي تستخدمها نظرية القياس لبناء فضاءات الاحتمال.

7. الجدل والانتقادات

على الرغم من الطبيعة الأساسية للاحتمال التراكمي ودوره المحوري، فإن الجدل حوله لا يتعلق بوجوده أو تعريفه الرياضي، بل ينصب على جوانب تطبيقية وفلسفية أعمق تتعلق بـ نظرية القياس (Measure Theory) التي يقوم عليها. أحد الانتقادات النظرية يكمن في التعامل مع التوزيعات المختلطة (Mixed Distributions) التي تحتوي على مكونات متقطعة ومستمرة في آن واحد. في حين أن CDF تتعامل مع هذه التوزيعات بشكل أنيق (حيث تكون مستمرة باستثناء نقاط القفز المتقطعة)، فإن التعامل مع PDF لهذه التوزيعات يصبح أكثر تعقيدًا ويتطلب استخدام دالة ديراك دلتا (Dirac Delta Function) أو مفاهيم القياس المطلق.

من الناحية التطبيقية، تظهر التحديات عند محاولة تقدير الاحتمال التراكمي من بيانات عينة محدودة، مما يؤدي إلى مفهوم دالة التوزيع التراكمي التجريبية (Empirical CDF – ECDF). تمثل ECDF تقديرًا غير متحيز للتوزيع الحقيقي، ولكنها عرضة للانحراف والتباين، خاصة عند نقاط الذيل (Tails) التي تحتوي على بيانات قليلة. هذا يؤدي إلى الحاجة لاستخدام طرق إحصائية متقدمة، مثل التمهيد (Bootstrapping)، لتقدير دقة ECDF.

كما يثار جدل إحصائي حول استخدام CDF في سياق الإحصاء اللامعلمي (Non-parametric Statistics). العديد من الاختبارات اللامعلمية (مثل اختبار كولموغوروف-سميرنوف) تعتمد بشكل مباشر على مقارنة دوال CDF، ولكن قوتها تظل محدودة مقارنة بالاختبارات المعلمية عندما يكون شكل التوزيع معروفًا مسبقًا. بالتالي، يظل اختيار ما إذا كان يجب الاعتماد على الدالة التراكمية أو الكثافة الاحتمالية مسألة تتعلق بطبيعة البيانات والفرضيات الإحصائية المطروحة.