دالة التوزيع – distribution function

مدرس الدكتور محمد لوتي

المحتويات:

دالة التوزيع التراكمي (Distribution Function)

المجالات التخصصية الأساسية: نظرية الاحتمالات، الإحصاء الرياضي، التحليل الرياضي.

1. التعريف الأساسي والمفهوم المحوري

تُعد دالة التوزيع التراكمي (Cumulative Distribution Function – CDF)، والتي يُرمز لها عادةً بالرمز $F_X(x)$ لمتغير عشوائي $X$، أحد المفاهيم الأساسية والأكثر جوهرية في نظرية الاحتمالات والإحصاء الرياضي. وهي تصف بشكل كامل التوزيع الاحتمالي لمتغير عشوائي حقيقي القيمة، سواء كان هذا المتغير متقطعًا أو مستمرًا أو مختلطًا. يتم تعريف دالة التوزيع التراكمي عند أي قيمة حقيقية $x$ على أنها احتمال أن يأخذ المتغير العشوائي $X$ قيمة أقل من أو تساوي $x$. رياضيًا، يُعبر عن ذلك بالصيغة: $F_X(x) = P(X le x)$. هذا التعريف يضمن أن الدالة تقدم نظرة متراكمة للاحتمال، حيث يتم تجميع الاحتمالات وصولاً إلى نقطة معينة في نطاق المتغير العشوائي، مما يسهل حساب احتمالات الفترات المختلفة بشكل مباشر وكفؤ. إن الطابع التراكمي للدالة هو ما يمنحها قوتها التحليلية، حيث لا نحتاج إلى التعامل مع دوال الكثافة أو الكتلة مباشرة عند حساب الاحتمالات لفترات محددة، بل يكفي استخدام فرق قيم دالة التوزيع التراكمي عند حدود تلك الفترة، مما يعكس الأهمية النظرية والعملية لهذه الأداة في النمذجة الإحصائية.

تكمن الأهمية الجوهرية لدالة التوزيع التراكمي في قدرتها على توفير وصف شامل وكامل للسلوك الاحتمالي للمتغير العشوائي، بغض النظر عن طبيعة هذا المتغير. ففي حين أن دوال كتلة الاحتمال (PMF) تقتصر على المتغيرات المتقطعة، ودوال كثافة الاحتمال (PDF) تقتصر على المتغيرات المستمرة المطلقة، فإن دالة التوزيع التراكمي هي الوحيدة التي يمكن تطبيقها عالميًا على جميع أنواع المتغيرات العشوائية الحقيقية، بما في ذلك تلك التوزيعات المختلطة التي تحتوي على مكونات متقطعة ومستمرة في آن واحد. وتتيح هذه الشمولية إمكانية إجراء مقارنات وتحليلات موحدة بين التوزيعات المختلفة، مما يجعلها الأداة المفضلة في العديد من البراهين النظرية والتعميمات الرياضية. بالإضافة إلى ذلك، فإن دالة التوزيع التراكمي هي الأساس الذي يُبنى عليه مفهوم الدوال المميزة ومتراجحات كولموغوروف، مما يؤكد دورها كحجر زاوية في البناء الرياضي لنظرية الاحتمالات الحديثة.

2. التطور التاريخي والجذور الرياضية

على الرغم من أن المفاهيم الأولية للاحتمال وتوزيعاته بدأت تتشكل في القرن السابع عشر مع أعمال رواد مثل بليز باسكال وبيير دي فيرما، إلا أن التطور الرسمي والمُصاغ رياضيًا لدالة التوزيع التراكمي كمفهوم موحد تأخر حتى القرن التاسع عشر وبداية القرن العشرين. في البداية، كان التركيز ينصب على دوال الكثافة (خاصة التوزيع الطبيعي الذي طوره غاوس ولابلاس) أو دوال الكتلة للمتغيرات المتقطعة. لكن الحاجة إلى إطار تحليلي أكثر صرامة وشمولية دفع الرياضيين نحو تعريف دالة تجمع الاحتمالات بشكل متصل. كان لظهور نظرية القياس وتكامل لوبيغ (Lebesgue Integration) دور محوري في ترسيخ دالة التوزيع التراكمي. فقد أتاح تكامل لوبيغ التعامل مع المتغيرات العشوائية التي قد لا تكون مستمرة أو متقطعة بشكل بحت، مما وفر الأساس الرياضي اللازم لتعريف دالة التوزيع التراكمي كدالة تولد قياس الاحتمال على الخط الحقيقي.

كان للعالم الروسي أندريه كولموغوروف (Andrey Kolmogorov) فضل كبير في التثبيت النهائي للمفهوم ضمن الإطار البديهي الحديث لنظرية الاحتمالات عام 1933. في عمله الرائد “أسس نظرية الاحتمالات” (Grundbegriffe der Wahrscheinlichkeitsrechnung)، قدم كولموغوروف مجموعة من البديهيات الرياضية الصارمة التي تعتمد على نظرية القياس، حيث أصبحت دالة التوزيع التراكمي الأداة الرئيسية لوصف أي متغير عشوائي. وبموجب هذا الإطار، يُنظر إلى دالة التوزيع التراكمي على أنها الدالة التي تولد قياس الاحتمال (Probability Measure) $mu$ على فضاء العينة (الخط الحقيقي $mathbb{R}$)، حيث يكون $F_X(x) = mu((-infty, x])$. هذا التطور ضمن لدالة التوزيع مكانتها كأداة موحدة غير قابلة للاستبدال، حيث يمكن اشتقاق جميع الخصائص الاحتمالية الأخرى منها، بما في ذلك التوقع والتباين والعزوم الأعلى، مما يعكس التحول من الوصف الإحصائي التجريبي إلى التحليل الرياضي الدقيق.

3. الخصائص الرياضية الأساسية

تتميز دالة التوزيع التراكمي بمجموعة من الخصائص الرياضية التي يجب أن تتحقق في أي دالة لكي تمثل توزيعًا احتماليًا صالحًا لمتغير عشوائي حقيقي. هذه الخصائص ضرورية لضمان التوافق مع بديهيات الاحتمال وتضمن أن تكون الدالة قادرة على توليد قياس احتمالي مناسب. أولى هذه الخصائص هي أنها دالة غير متناقصة (Non-decreasing): إذا كانت $a < b$، فإن $F_X(a) le F_X(b)$. هذا يضمن أن الاحتمال يتراكم دائمًا مع زيادة قيمة $x$، ولا يمكن أن ينخفض احتمال أن يكون المتغير أقل من قيمة معينة مع زيادة تلك القيمة. ثانيًا، يجب أن تكون قيم الدالة محصورة بين الصفر والواحد (0 و 1)، وهو ما يتوافق مع طبيعة الاحتمال. هذا يتحقق من خلال شروط الحدود: $lim_{x to -infty} F_X(x) = 0$ و $lim_{x to +infty} F_X(x) = 1$. يمثل الشرط الأول حقيقة أن احتمال أن يكون المتغير أقل من أصغر قيمة ممكنة هو صفر، بينما يمثل الشرط الثاني اليقين بأن المتغير سيأخذ قيمة أقل من أو تساوي أكبر قيمة ممكنة (التي تقترب من اللانهاية).

الخاصية الثالثة، والتي تعتبر حاسمة لتعريف دالة التوزيع التراكمي في سياق نظرية القياس، هي الاستمرارية من اليمين (Right-continuity). رياضياً، $F_X(x) = lim_{h to 0^+} F_X(x+h)$. هذه الخاصية تعكس التعريف القياسي للاحتمال $P(X le x)$ وتضمن أن الدالة “تشمل” نقطة النهاية $x$. في حالة المتغيرات العشوائية المتقطعة، تحدث قفزات (Jumps) في دالة التوزيع التراكمي عند القيم الممكنة للمتغير العشوائي. حجم القفزة عند نقطة معينة $x_0$ يمثل احتمال أن يأخذ المتغير تلك القيمة بالضبط: $P(X = x_0) = F_X(x_0) – lim_{h to 0^-} F_X(x_0 – h)$. وبما أن دالة التوزيع التراكمي مستمرة من اليمين، فإنها تضمن أن يتم احتواء احتمال النقطة $x_0$ ضمن قيمة $F_X(x_0)$. في المقابل، إذا كانت الدالة مستمرة في كل نقطة (أي مستمرة من اليمين واليسار)، فإن المتغير العشوائي يكون مستمرًا، ويكون احتمال أن يأخذ أي قيمة محددة بالضبط هو صفر، مما يؤكد العلاقة الوثيقة بين خصائص الدالة وطبيعة المتغير العشوائي الذي تصفه.

4. العلاقة بدوال الكثافة وكتلة الاحتمال

تخدم دالة التوزيع التراكمي كجسر يربط بين الأشكال المختلفة لوصف التوزيع الاحتمالي. العلاقة بين دالة التوزيع التراكمي (CDF) ودالة كتلة الاحتمال (PMF) للمتغيرات العشوائية المتقطعة هي علاقة تجميعية. إذا كان $X$ متغيرًا عشوائيًا متقطعًا له قيم ممكنة $x_1, x_2, ldots$ ودالة كتلة احتمال $p(x) = P(X=x)$، فإن دالة التوزيع التراكمي $F_X(x)$ هي مجموع (تراكم) قيم دالة كتلة الاحتمال لجميع القيم الممكنة التي تقل عن أو تساوي $x$. أي، $F_X(x) = sum_{x_i le x} p(x_i)$. هذا يعني أن دالة التوزيع التراكمي للمتغير المتقطع تكون على شكل دالة درجية (Step Function)، حيث تكون مستوية بين القيم الممكنة وتقفز فجأة عند تلك القيم، وحجم القفزة يساوي الاحتمال عند تلك النقطة.

أما بالنسبة للمتغيرات العشوائية المستمرة المطلقة، فإن العلاقة بين دالة التوزيع التراكمي $F_X(x)$ ودالة كثافة الاحتمال (Probability Density Function – PDF)، التي يُرمز لها بالرمز $f_X(x)$، هي علاقة تكاملية وتفاضلية. تُعرف دالة التوزيع التراكمي في هذه الحالة على أنها تكامل دالة الكثافة من سالب اللانهاية وحتى $x$: $F_X(x) = int_{-infty}^{x} f_X(t) dt$. وبموجب المبرهنة الأساسية للتفاضل والتكامل، يمكن استعادة دالة كثافة الاحتمال عن طريق تفاضل دالة التوزيع التراكمي، شريطة أن تكون دالة التوزيع قابلة للتفاضل عند تلك النقطة: $f_X(x) = frac{d}{dx} F_X(x)$. هذه العلاقة المتبادلة هي أساس العمليات الإحصائية التحليلية للمتغيرات المستمرة، حيث يمكننا الانتقال بسهولة بين الوصف التكاملي (CDF) والوصف التفاضلي (PDF). وتضمن هذه العلاقة أن مساحة المنطقة تحت منحنى دالة الكثافة تساوي واحدًا عندما يتم التكامل على كامل نطاق الخط الحقيقي، وهو ما يتوافق مع الخاصية الأساسية للاحتمال الكلي.

5. تصنيف حالات المتغيرات العشوائية

تُصنف دالة التوزيع التراكمي المتغيرات العشوائية إلى ثلاثة أنواع رئيسية بناءً على سلوكها الرياضي، وهي المتقطعة، والمستمرة، والمختلطة. المتغيرات المتقطعة، كما ذُكر، لها دالة توزيع تراكمي على شكل دالة درجية غير مستمرة، وتُعرف بأنها متقطعة تمامًا (Purely Discrete). أما المتغيرات المستمرة المطلقة (Absolutely Continuous)، فدالتها التوزيعية تكون مستمرة وقابلة للتفاضل تقريبًا في كل مكان، مما يعني أن الاحتمال موزع بسلاسة على مدى النطاق. ومع ذلك، هناك فئة ثالثة مهمة وهي المتغيرات المختلطة (Mixed Random Variables)، حيث تحتوي دالة التوزيع التراكمي الخاصة بها على كل من القفزات (نقاط عدم الاستمرارية) والمكونات المائلة (المناطق التي تكون فيها الدالة مستمرة وتتزايد تدريجيًا). هذه المتغيرات شائعة في التطبيقات الواقعية، خاصة في مجالات مثل النمذجة المالية حيث قد يحدث احتمال كبير لحدوث قيمة صفرية (مثل عدم المطالبة بتأمين)، بينما يتم توزيع المطالبات غير الصفرية بشكل مستمر.

بالإضافة إلى الأنواع الثلاثة المذكورة، توجد حالة نظرية أكثر تعقيدًا وهي التوزيعات المفردة (Singular Distributions). وهي متغيرات عشوائية دالتها التوزيعية مستمرة في كل مكان، لكنها ليست قابلة للتفاضل تقريبًا في أي مكان، وبالتالي لا تمتلك دالة كثافة احتمال بالمعنى التقليدي (لا يمكن التعبير عنها كتكامل لدالة كثافة لوبيغ). أشهر مثال على ذلك هو دالة كانتور (Cantor Function)، والتي تزداد ببطء ولكنها لا تمتلك مشتقة موجبة في أي فترة زمنية. هذه الحالة تثبت قوة دالة التوزيع التراكمي كأداة شاملة؛ فبينما تفشل دوال الكثافة والكتلة في وصف هذا النوع من التوزيعات المعقدة، تظل دالة التوزيع التراكمي قادرة على تعريف الاحتمال بشكل كامل وصحيح، مما يؤكد تفوقها النظري كأداة موحدة لقياس الاحتمال على الخط الحقيقي، وتعتبر هذه المرونة في التعامل مع جميع أنواع التوزيعات أحد أبرز نقاط قوتها في نظرية القياس الاحتمالي.

6. الأهمية الإحصائية والتطبيقات

تتجاوز أهمية دالة التوزيع التراكمي كونها مجرد أداة تعريفية؛ فهي تلعب دورًا محوريًا في الإحصاء الاستدلالي والنمذجة التطبيقية. أولاً، تسمح دالة التوزيع التراكمي بحساب احتمالات الفترات بسهولة مطلقة. فاحتمال أن يقع المتغير العشوائي $X$ ضمن فترة نصف مغلقة $(a, b]$ يُعطى ببساطة بالعلاقة: $P(a < X le b) = F_X(b) – F_X(a)$. هذه الخاصية تجعلها لا غنى عنها في تحديد الاحتمالات المركبة بسرعة. ثانيًا، تُستخدم دالة التوزيع التراكمي بشكل مباشر في تعريف الكميات المعيارية (Quantiles)، والتي تشمل الوسيط والمئينيات. يتم تعريف المئيني $p$ (حيث $0 < p < 1$) على أنه أصغر قيمة $x_p$ بحيث يكون $F_X(x_p) ge p$. هذه الكميات هي مقاييس مهمة للموقع تستخدم على نطاق واسع في الإحصاء الوصفي وفي مجالات تطبيقية مثل إدارة المخاطر لتحديد قيمة المخاطرة (Value at Risk – VaR).

علاوة على ذلك، تعد دالة التوزيع التراكمي ضرورية في اختبارات الفرضيات غير المعلمية (Non-parametric Hypothesis Testing). فمثلاً، يعتمد اختبار كولموغوروف-سميرنوف (Kolmogorov-Smirnov test)، وهو أحد أقوى الاختبارات الإحصائية لتحديد ما إذا كانت عينة ما مأخوذة من توزيع معين أو لتحديد ما إذا كانت عينتان مأخوذتين من نفس التوزيع، بشكل أساسي على المقارنة بين دالة التوزيع التراكمي التجريبية (Empirical CDF) ودالة التوزيع التراكمي النظرية. تُعرف دالة التوزيع التراكمي التجريبية $F_n(x)$ بأنها نسبة الملاحظات في العينة التي تكون قيمتها أقل من أو تساوي $x$. ويتم قياس المسافة القصوى بين الدالة التجريبية والدالة النظرية لتحديد مدى التوافق. هذه التطبيقات تجعل دالة التوزيع التراكمي أداة تحليلية لا غنى عنها في مجالات تتراوح من تحليل البيانات الضخمة (Big Data) إلى الفيزياء الكمومية، حيث توفر أساسًا رياضيًا موثوقًا للتحقق من النماذج الاحتمالية.

7. التحديات النظرية والتعميمات

على الرغم من قوة دالة التوزيع التراكمي في وصف المتغيرات العشوائية أحادية البعد، تظهر تعقيدات كبيرة عند محاولة تعميم هذا المفهوم على المتجهات العشوائية (Random Vectors) أو ما يُعرف بالتوزيعات متعددة الأبعاد (Multivariate Distributions). يتم تعريف دالة التوزيع التراكمي المشتركة (Joint CDF) لمتجه عشوائي $(X_1, X_2, ldots, X_n)$ بالصيغة: $F(x_1, ldots, x_n) = P(X_1 le x_1, ldots, X_n le x_n)$. في حين أن هذا التعريف يبدو مباشرًا، فإن الخصائص الضرورية لضمان صلاحية الدالة المشتركة تصبح أكثر صرامة وتعقيدًا، لا سيما شرط التباين غير السلبي لـ N-مستطيل (N-rectangle inequality)، وهو ما يضمن أن الاحتمال في أي منطقة محددة في الفضاء متعدد الأبعاد غير سالب. هذا التعقيد يحد أحيانًا من استخدام دالة التوزيع التراكمي المشتركة مباشرة في التحليل متعدد المتغيرات، مما يدفع المحللين إلى الاعتماد على أدوات بديلة مثل دوال الكثافة المشتركة أو دوال الكوبولا (Copulas) التي تركز على نمذجة بنية الارتباط بشكل منفصل عن التوزيعات الهامشية.

تظهر تحديات أخرى في سياق العمليات العشوائية (Stochastic Processes)، حيث يتم التعامل مع متجهات عشوائية ذات أبعاد لا نهائية (مثل سلسلة زمنية مستمرة). في هذه الحالة، يتم استبدال دالة التوزيع التراكمي المشتركة بمجموعة متسقة من التوزيعات ذات الأبعاد المحدودة، وهو ما يشار إليه بمبرهنة كولموغوروف للامتداد (Kolmogorov Extension Theorem). هذه المبرهنة تسمح ببناء قياس احتمالي على فضاء دالة لا نهائية الأبعاد، شريطة أن تكون جميع التوزيعات ذات الأبعاد المحدودة متسقة رياضيًا. كما يتمثل أحد القيود التطبيقية لدالة التوزيع التراكمي في صعوبة تقديرها غير المعلمي (Non-parametric Estimation) في الأبعاد العالية، حيث تتطلب دقة التقدير عينات أكبر بكثير كلما زاد عدد الأبعاد، وهي ظاهرة تُعرف باسم “لعنة الأبعاد” (Curse of Dimensionality)، مما يجعل الاعتماد على الدالة المشتركة أمرًا غير عملي في الممارسة العملية في فضاءات البيانات المعقدة للغاية.

8. قراءات إضافية

Feller, W. (1968). An Introduction to Probability Theory and Its Applications, Vol. I. John Wiley & Sons.
Kolmogorov, A. N. (1933). Grundbegriffe der Wahrscheinlichkeitsrechnung (Foundations of the Theory of Probability).
Wikipedia: دالة التوزيع التراكمي.