دالة التوزيع التراكمي (CDF) – cumulative distribution function (CDF)

دالة التوزيع التراكمي (Cumulative Distribution Function – CDF)

المجال(المجالات) التخصصية الأساسية: الرياضيات، الإحصاء، نظرية الاحتمالات، التحليل الرياضي.

1. التعريف الجوهري

تُعد دالة التوزيع التراكمي (CDF)، والتي يُرمز إليها عادةً بالرمز FX(x)، مفهومًا محوريًا في نظرية الاحتمالات والإحصاء الحديثة. وهي تُستخدم لتقديم وصف شامل وكامل لكيفية توزيع متغير عشوائي حقيقي القيمة X. ببساطة، تُعرف دالة التوزيع التراكمي عند أي قيمة حقيقية x بأنها احتمال أن يأخذ المتغير العشوائي X قيمة أقل من أو تساوي تلك القيمة x.

رياضيًا، يتم التعبير عن دالة التوزيع التراكمي على النحو التالي: FX(x) = P(X ≤ x). هذا التعريف يوفر أساسًا موحدًا للتعامل مع كل من المتغيرات العشوائية المتقطعة (Discrete Random Variables) والمتغيرات العشوائية المستمرة (Continuous Random Variables). في حين أن دالة الكثافة الاحتمالية (PDF) أو دالة الكتلة الاحتمالية (PMF) تصفان الاحتمال عند نقطة أو منطقة محددة، فإن دالة التوزيع التراكمي توفر منظورًا تراكميًا يوضح كيفية “تراكم” الاحتمال مع زيادة قيمة المتغير x. هذه الخاصية التراكمية تجعلها أداة لا غنى عنها لحساب احتمالات الفواصل الزمنية بسهولة ويسر.

التعريف الجوهري للـ CDF يضمن أنها دالة غير متناقصة، وتبدأ دائمًا من الصفر (عندما تقترب x من السالب ما لا نهاية) وتنتهي بالواحد (عندما تقترب x من الموجب ما لا نهاية). هذه الخصائص الحدودية تعكس حقيقة أن الاحتمال الكلي لأي حدث يجب أن يساوي دائمًا واحدًا صحيحًا. إن فهم دالة التوزيع التراكمي هو الخطوة الأولى نحو فهم الخصائص الإحصائية الأساسية لأي مجموعة بيانات أو ظاهرة عشوائية تتم دراستها، وهي تمثل الجسر الأساسي بين النظرية المجردة للاحتمال والتطبيقات العملية في التحليل الإحصائي.

2. التطور التاريخي والجذور الرياضية

على الرغم من أن المفاهيم الأساسية للاحتمالات تعود إلى القرن السابع عشر، إلا أن التدوين والتعريف الرسمي لدالة التوزيع التراكمي كأداة رياضية موحدة حدث في القرن العشرين. قبل ذلك، كان التعامل مع التوزيعات يتم غالبًا باستخدام دوال الكثافة أو الكتلة مباشرةً. ولكن مع الحاجة إلى بناء إطار نظري صارم يغطي جميع أنواع المتغيرات العشوائية، ظهرت الحاجة إلى دالة أكثر شمولية.

يُنسب الفضل في التأسيس الرياضي الحديث لنظرية الاحتمالات، بما في ذلك دالة التوزيع التراكمي، بشكل كبير إلى جهود علماء الرياضيات في أوائل القرن العشرين، ولا سيما أندريه كولموغوروف. ففي عمله الرائد حول الأسس النظرية للاحتمالات في ثلاثينيات القرن الماضي، وضع كولموغوروف الإطار البديهي (Axiomatic Framework) لنظرية الاحتمالات بناءً على نظرية القياس (Measure Theory). ضمن هذا الإطار، أصبحت دالة التوزيع التراكمي هي الأداة القياسية والأساسية لوصف التوزيعات الاحتمالية، نظرًا لسهولة ربطها بمفاهيم القياس الرياضي.

لقد أتاح اعتماد دالة التوزيع التراكمي كأداة أساسية تبسيط العديد من المشاكل النظرية والعملية. على سبيل المثال، سمح هذا المفهوم بتعريف التوزيعات التي لا تمتلك دالة كثافة احتمالية (مثل التوزيعات التي تحتوي على مكونات متقطعة ومستمرة في آن واحد، والمعروفة بالتوزيعات المختلطة). كما شكلت CDF الأساس لتطوير اختبارات إحصائية غير معلمية بالغة الأهمية، مثل اختبار كولموغوروف-سميرنوف، الذي يعتمد كليًا على مقارنة الدوال التراكمية.

3. الخصائص الأساسية لدالة التوزيع التراكمي

تتمتع دالة التوزيع التراكمي بعدد من الخصائص الجوهرية التي يجب أن تحققها لكي تكون دالة توزيع احتمالي صالحة. هذه الخصائص مستمدة مباشرة من بديهيات الاحتمال، وتؤكد على طبيعتها كدالة غير متناقصة ومحدودة القيمة. فهم هذه الخصائص ضروري ليس فقط للتحليل النظري ولكن أيضًا لضمان صحة النماذج الإحصائية المطبقة.

  1. الحدود (المدى): يجب أن يكون مدى الدالة FX(x) محصوراً بين الصفر والواحد الصحيح، أي: 0 ≤ FX(x) ≤ 1.
  2. الرتابة (Monotonicity): دالة التوزيع التراكمي هي دالة غير متناقصة (Non-decreasing function). إذا كانت a < b، فإن FX(a) ≤ FX(b). هذا يعكس حقيقة أن إضافة المزيد من القيم الممكنة لا يمكن أن تقلل من الاحتمال التراكمي.
  3. الحدود القصوى: يجب أن تؤول قيمة الدالة إلى الصفر عند السالب ما لا نهاية، وإلى الواحد عند الموجب ما لا نهاية: limx→-∞ FX(x) = 0 و limx→∞ FX(x) = 1.
  4. الاستمرارية من اليمين (Right-Continuity): بالنسبة لجميع المتغيرات العشوائية، يجب أن تكون الدالة مستمرة من اليمين. هذه الخاصية ضرورية للتعامل الرياضي الدقيق مع المتغيرات المتقطعة، حيث يمكن أن تحدث “قفزات” في الدالة عند نقاط محددة.

تُعد خاصية الرتابة هي حجر الزاوية في تفسير دالة التوزيع التراكمي؛ فكلما اتجهنا نحو قيم أكبر للمتغير x، زاد الاحتمال التراكمي لأننا نضم المزيد من النتائج الممكنة. على سبيل المثال، معرفة احتمال أن يكون الدخل أقل من 50 ألف دولار سيكون بالضرورة أقل من أو يساوي احتمال أن يكون الدخل أقل من 60 ألف دولار، وذلك لأن الفئة الثانية تشمل الفئة الأولى بالإضافة إلى النتائج الجديدة.

الاستمرارية من اليمين (Right-Continuity) هي خاصية رياضية دقيقة تضمن أن تعريف الاحتمال عند نقطة محددة x يتم حسابه بشكل صحيح. ففي حالة المتغيرات المتقطعة، إذا كانت هناك قفزة عند قيمة معينة x0، فإن القيمة التراكمية FX(x0) تشمل الاحتمال عند تلك النقطة تمامًا. إذا لم تكن الدالة مستمرة من اليمين، فسيواجه الإحصائيون تحديات في تحديد ما إذا كانت النقطة الحدية x مشمولة في الحساب التراكمي أم لا، مما يخل بتعريف P(X ≤ x).

بالإضافة إلى الخصائص المذكورة، فإن دالة التوزيع التراكمي تتيح حساب احتمالات الفواصل الزمنية بسهولة بالغة. على سبيل المثال، يتم حساب احتمال أن يقع المتغير العشوائي X بين قيمتين a و b (حيث a < b) باستخدام العلاقة: P(a < X ≤ b) = FX(b) – FX(a). هذه القدرة على تحويل حساب الاحتمالات المعقدة إلى عملية طرح بسيطة هي إحدى أهم مزايا استخدام دالة التوزيع التراكمي في الإحصاء التطبيقي.

4. العلاقة بين دالة الكثافة الاحتمالية ودالة التوزيع التراكمي (للمتغيرات المستمرة)

في حالة المتغيرات العشوائية المستمرة، تمثل دالة التوزيع التراكمي العلاقة التكاملية لدالة الكثافة الاحتمالية (PDF)، والتي يُرمز إليها بالرمز fX(x). دالة الكثافة الاحتمالية هي الدالة التي تصف الاحتمال النسبي للمتغير العشوائي عند نقطة معينة. العلاقة بين الدالتين هي علاقة اشتقاق وتكامل، وهي جوهرية لفهم كيفية عمل التوزيعات المستمرة.

يتم تعريف دالة التوزيع التراكمي للمتغيرات المستمرة من خلال تكامل دالة الكثافة الاحتمالية من سالب ما لا نهاية حتى القيمة x: FX(x) = ∫-∞x fX(t) dt. هذه الصيغة تعكس بشكل مباشر الطبيعة التراكمية للدالة، حيث تقوم بتجميع (تكامل) جميع الكثافات الاحتمالية حتى الوصول إلى النقطة المحددة x. وبموجب النظرية الأساسية للتفاضل والتكامل، يمكن استرداد دالة الكثافة الاحتمالية عن طريق اشتقاق دالة التوزيع التراكمي (في النقاط التي تكون فيها الدالة قابلة للاشتقاق): fX(x) = d/dx FX(x).

تُظهر هذه العلاقة المتبادلة أن CDF هي الدالة الأكثر شمولاً؛ فإذا كانت FX(x) معروفة، يمكن استخلاص جميع الخصائص الاحتمالية الأخرى. وعلى النقيض، فإن دالة الكثافة الاحتمالية fX(x) تصف المعدل الذي يتراكم به الاحتمال عند نقطة محددة، مما يجعلها مفهومًا محليًا. إن وجود دالة كثافة احتمالية يتطلب أن تكون دالة التوزيع التراكمي مستمرة وقابلة للاشتقاق في معظم النقاط. وعندما تكون الدالة مستمرة وقابلة للاشتقاق، فإنها توفر نموذجًا سلسًا لانتقال الاحتمال عبر المدى الكامل للمتغير العشوائي، وهو ما يميز التوزيعات المستمرة مثل التوزيع الطبيعي أو التوزيع الأسي.

5. العلاقة مع دالة الكتلة الاحتمالية (للمتغيرات المتقطعة)

في سياق المتغيرات العشوائية المتقطعة، يتم وصف توزيع الاحتمال باستخدام دالة الكتلة الاحتمالية (PMF)، والتي يُرمز إليها بالرمز pX(x). تحدد دالة الكتلة الاحتمالية الاحتمال الدقيق لأخذ المتغير العشوائي X قيمة محددة x، أي: pX(x) = P(X = x). العلاقة بين دالة الكتلة الاحتمالية ودالة التوزيع التراكمي للمتغيرات المتقطعة هي علاقة تجميع (Summation).

تُحسب دالة التوزيع التراكمي للمتغير المتقطع عن طريق جمع جميع قيم دالة الكتلة الاحتمالية للقيم الممكنة t التي تكون أقل من أو تساوي القيمة المحددة x: FX(x) = Σt≤x pX(t). وبسبب طبيعة التجميع هذه، تتخذ دالة التوزيع التراكمي شكل دالة درَجية (Step Function). تظل الدالة ثابتة بين أي قيمتين متتاليتين ممكنتين للمتغير العشوائي، وتحدث قفزة (Jump) عند كل قيمة محتملة، حيث يكون حجم القفزة مساويًا تمامًا للاحتمال عند تلك النقطة، أي: P(X = x) = FX(x) – limε→0+ FX(x – ε).

هذه الطبيعة الدرجية للـ CDF هي السمة المميزة للمتغيرات المتقطعة. على سبيل المثال، في حالة رمي نرد سداسي الأوجه، تكون قيم FX(x) صفرًا حتى x=1، ثم تقفز إلى 1/6، وتبقى ثابتة حتى x=2، حيث تقفز إلى 2/6، وهكذا حتى تصل إلى 1 عند x=6. هذا يوضح كيف أن دالة التوزيع التراكمي تدمج بوضوح القفزات الاحتمالية المحددة التي تميز التوزيعات المتقطعة (مثل توزيع بواسون أو التوزيع ذو الحدين)، بينما تظل محافظة على خاصية الاستمرارية من اليمين المطلوبة رياضيًا.

6. تطبيقات دالة التوزيع التراكمي

تتجاوز أهمية دالة التوزيع التراكمي الإطار النظري الخالص لتشمل مجموعة واسعة من التطبيقات العملية في مجالات متنوعة، من الهندسة والتمويل إلى الطب وعلوم الحاسوب. إن قدرتها على تحديد الاحتمال التراكمي تجعلها الأداة المفضلة في العديد من التحليلات المعقدة التي تتطلب تقدير المخاطر أو تحديد الأداء.

أحد التطبيقات الحاسمة هو تحديد الكمّيات (Quantiles) أو المئينات. الكمّية من الرتبة p هي القيمة xp التي تحقق FX(xp) = p. وتشمل هذه الكميات الوسيط (Median)، الذي يمثل الكمّية p=0.5، والرُبَيعيات (Quartiles). تُستخدم الكمّيات على نطاق واسع في الإحصاء الوصفي وتصميم الاختبارات المعيارية لتقييم موقع قيمة معينة داخل التوزيع. ففي مجال التمويل، على سبيل المثال، يتم استخدام الكمّيات القصوى (الذيلية) لتقدير مقاييس المخاطر مثل القيمة المعرضة للخطر (Value at Risk – VaR)، حيث يتم تحديد الخسارة القصوى المتوقعة عند مستوى ثقة معين، وهو تطبيق مباشر للعكس الرياضي لدالة التوزيع التراكمي.

تطبيق آخر بالغ الأهمية يكمن في مجال المحاكاة الحاسوبية وتوليد الأرقام العشوائية. تعتمد طريقة أخذ العينات بالتحويل العكسي (Inverse Transform Sampling) على دالة التوزيع التراكمي لإنشاء متغيرات عشوائية تتبع توزيعًا احتماليًا معينًا. تتضمن هذه الطريقة توليد رقم عشوائي موزع بشكل منتظم (U ~ Uniform(0, 1))، ثم تطبيق الدالة العكسية لـ CDF عليه: X = FX-1(U). هذه التقنية هي أساس العديد من المحاكاة الإحصائية (مثل محاكاة مونت كارلو) وتسمح للمحللين بإنشاء بيانات اصطناعية تحاكي الظواهر الواقعية التي تتبع توزيعات غير منتظمة.

علاوة على ذلك، تُستخدم دالة التوزيع التراكمي بشكل مكثف في اختبارات الفرضيات الإحصائية غير المعلمية. فكما ذكرنا سابقًا، يعتمد اختبار كولموغوروف-سميرنوف (K-S test) على قياس أقصى مسافة عمودية بين دالة التوزيع التراكمي التجريبية (المستمدة من البيانات) ودالة التوزيع التراكمي النظرية أو بين دالتين تجريبيتين. هذه المقاييس القائمة على CDF توفر طريقة قوية وموثوقة لمقارنة التوزيعات دون الحاجة لافتراضات قوية حول شكل التوزيع الأساسي.

7. المزايا والأهمية الإحصائية

توفر دالة التوزيع التراكمي العديد من المزايا التي تجعلها غالبًا أكثر فائدة من دالة الكثافة الاحتمالية أو دالة الكتلة الاحتمالية في التحليل النظري والعملي. أهم هذه المزايا هو شموليتها وقدرتها على التعامل مع أي نوع من المتغيرات العشوائية، بما في ذلك التوزيعات المختلطة التي تجمع بين العناصر المتقطعة والمستمرة.

إحدى المزايا الرئيسية هي أن CDF هي دائمًا دالة معرفة جيدًا ومحددة بشكل فريد لكل متغير عشوائي. في المقابل، قد لا تكون دالة الكثافة الاحتمالية (PDF) موجودة أو قد تكون صعبة التعريف في بعض الحالات المعقدة. على سبيل المثال، قد تحتوي بعض التوزيعات على نقاط “شاذة” تجعل الاشتقاق صعبًا، لكن الدالة التراكمية تظل مستمرة من اليمين وغير متناقصة وسهلة التعامل الرياضي في جميع الظروف.

كما تكمن أهميتها الإحصائية في التفسير المباشر لاحتمالات الفواصل الزمنية. فبمجرد معرفة FX(x)، يصبح حساب P(a < X ≤ b) عملية طرح بسيطة، مما يسهل العمليات الحسابية بشكل كبير مقارنةً بضرورة إجراء عمليات التكامل (للمتغيرات المستمرة) أو التجميعات الكبيرة (للمتغيرات المتقطعة) لكل فاصل زمني. هذه السهولة تجعلها الأداة المفضلة في البرامج الإحصائية لتحديد قيم p-value وغيرها من المقاييس الإحصائية المعتمدة على الذيل.

8. مصادر إضافية