توزيع مربع كاي: بوصلتك لفهم البيانات وتحليل السلوك

مدرس الدكتور محمد لوتي

المحتويات:

توزيع مربع كاي (χ2 distribution)

المجال التخصصي الأساسي: الإحصاء الرياضي، نظرية الاحتمالات، الإحصاء الاستدلالي

1. التعريف الجوهري

يمثل توزيع مربع كاي (Chi-square distribution)، والذي يُرمز إليه بالرمز $chi^2$، أحد أهم التوزيعات الاحتمالية المستمرة في مجال الإحصاء الرياضي والاستدلالي. يُعرّف هذا التوزيع رياضياً كنتيجة لمجموع مربعات عدد $k$ من المتغيرات العشوائية المستقلة التي تتبع التوزيع الطبيعي المعياري (Standard Normal Distribution). وبشكل أكثر دقة، إذا كانت المتغيرات $Z_1, Z_2, dots, Z_k$ مستقلة وموزعة طبيعياً مع متوسط صفر وتباين واحد، فإن المتغير العشوائي $X = sum_{i=1}^{k} Z_i^2$ يتبع توزيع مربع كاي بدرجات حرية $k$. هذه الخصيصة الأساسية هي التي تمنح توزيع مربع كاي أهميته البالغة في بناء اختبارات الفرضيات الإحصائية، خاصة تلك المتعلقة بتباينات المجتمعات الموزعة طبيعياً وبتحليل البيانات الفئوية.

يتميز توزيع مربع كاي بأنه توزيع احتمالي أحادي الجانب (Unilateral)، أي أنه يأخذ قيماً موجبة فقط أو صفراً (غير سالب)، مما يعكس طبيعته كونه مجموعاً لمربعات. إن شكله غير متماثل (مُلْتَوٍ نحو اليمين) ويتأثر بشكل مباشر بالمعلمة الوحيدة التي تحدده، وهي عدد درجات الحرية ($k$). كلما زادت درجات الحرية، أصبح التوزيع أكثر تماثلاً واقترب شكله من التوزيع الطبيعي، وفقاً لمبدأ النظرية المركزية للحدود (Central Limit Theorem). هذه الخصائص تجعله أداة محورية لتقييم مدى التباين العشوائي في العينات، وتحديد ما إذا كانت الفروق الملاحظة بين البيانات المتوقعة والبيانات الفعلية فروقاً ذات دلالة إحصائية أم أنها ناتجة عن الصدفة وحدها.

إن فهم توزيع مربع كاي لا يقتصر على كونه مجرد دالة رياضية، بل هو حجر الزاوية في مجموعة واسعة من الأدوات الإحصائية المعروفة باسم “اختبارات مربع كاي”. تستخدم هذه الاختبارات على نطاق واسع في مجالات العلوم الاجتماعية، والبيولوجيا، والطب، والهندسة لتقييم مدى مطابقة البيانات المرصودة لنموذج نظري معين (اختبار حسن المطابقة)، أو لتقييم ما إذا كان هناك ارتباط أو استقلال بين متغيرين فئويين في جدول توافقي (اختبار الاستقلال). وبالتالي، فإن القيمة المحسوبة لمربع كاي تُقارن بالقيمة الحرجة المستخلصة من جدول التوزيع بناءً على مستوى الدلالة ودرجات الحرية لتحديد القرار الإحصائي المناسب.

2. التطور التاريخي والجذور الرياضية

على الرغم من أن المفاهيم التي يقوم عليها توزيع مربع كاي تعود إلى أعمال سابقة في نظرية الاحتمالات، إلا أن الفضل في صياغته الرياضية وتطبيقه العملي يرجع بشكل أساسي إلى عالمين بارزين. تعود الجذور الرياضية الأولية للتوزيع إلى أعمال عالم الرياضيات الألماني فريدريش روبرت هيلمرت في نهاية القرن التاسع عشر (حوالي 1876)، حيث اشتق توزيع التباين العيني للمجتمع الطبيعي. ومع ذلك، لم يكتسب التوزيع شهرته الحقيقية واستخدامه الواسع إلا مع عمل عالم الإحصاء البريطاني كارل بيرسون.

في عام 1900، نشر كارل بيرسون ورقته البحثية المؤثرة بعنوان “حول معيار رفض الفرضيات”، حيث قدم ما يُعرف الآن باسم اختبار مربع كاي لبيرسون (Pearson’s Chi-squared Test). كان هدف بيرسون هو تطوير معيار منهجي لتقييم مدى ملاءمة التوزيع النظري للبيانات المرصودة. لقد قدم الصيغة الشهيرة التي تقيس مجموع الفروق المربعة بين التكرارات المرصودة ($O_i$) والتكرارات المتوقعة ($E_i$) مقسوماً على التكرارات المتوقعة: $chi^2 = sum frac{(O_i – E_i)^2}{E_i}$. هذا الابتكار قدم أساساً صلباً للإحصاء الاستدلالي غير المعلمي (Non-parametric Statistics)، مما سمح للباحثين بالتعامل مع البيانات الفئوية بطريقة صارمة لم تكن متاحة بسهولة من قبل.

لقد أحدث عمل بيرسون ثورة في تحليل البيانات، خصوصاً في مجالات مثل البيولوجيا والوراثة (لتأكيد نسب مندل) وفي العلوم الاجتماعية. وعلى الرغم من أن بيرسون وضع الأساس، فإن أعمالاً لاحقة من قبل علماء إحصاء آخرين مثل رونالد فيشر ساهمت في تنقيح مفهوم درجات الحرية وتطوير تطبيقات أخرى لتوزيع مربع كاي، مما جعله أداة لا غنى عنها في صندوق أدوات الإحصائي الحديث. وقد أكدت هذه التطورات على العلاقة الوثيقة بين توزيع مربع كاي والتوزيع الطبيعي، مما ربط أسس الإحصاء الاستدلالي ببعضها البعض.

3. الخصائص الرياضية الأساسية

تُعرّف دالة الكثافة الاحتمالية (Probability Density Function – PDF) لتوزيع مربع كاي، بدرجات حرية $k$، باستخدام دالة غاما (Gamma Function)، وهي دالة متخصصة تستخدم في الإحصاء الرياضي. تكون الصيغة الرياضية لدالة الكثافة معقدة نسبياً، لكنها تضمن أن المساحة تحت المنحنى تساوي واحداً صحيحاً، مما يحقق شروط أي توزيع احتمالي. وبما أن المتغيرات المستخدمة في تعريف مربع كاي هي مربعات متغيرة طبيعية، فإن التوزيع يبدأ دائماً من الصفر ويتناقص تدريجياً مع زيادة قيمة المتغير.

من أهم الخصائص الرياضية التي تسهل العمل الإحصائي باستخدام هذا التوزيع هي خصائصه اللحظية (Moments). إذا كان المتغير العشوائي $X$ يتبع توزيع $chi^2$ بدرجات حرية $k$:

المتوسط (الوسط الحسابي): يساوي بالضبط عدد درجات الحرية $k$. أي أن $E[X] = k$. هذه الخاصية بسيطة ومباشرة، وتوفر فهماً بديهياً للقيمة المتوقعة لنتيجة اختبار مربع كاي.
التباين: يساوي ضعف عدد درجات الحرية $2k$. أي أن $Var[X] = 2k$. هذا يعني أن التباين يزداد خطياً مع زيادة درجات الحرية، مما يشير إلى أن التوزيع يصبح أكثر انتشاراً كلما زادت $k$.

فيما يتعلق بالشكل، يكون التوزيع مُلْتَوِياً بشكل واضح نحو اليمين (Positive Skewness) عندما تكون درجات الحرية صغيرة (مثل $k=1$ أو $k=2$). وعندما تزداد $k$ لتصبح كبيرة (عادةً $k > 30$)، يصبح التوزيع أكثر تناظراً، ويقترب شكله من شكل التوزيع الطبيعي. هذا التقارب هو أساس استخدام التوزيع الطبيعي كتقريب لتوزيع مربع كاي في تطبيقات الحجم العيني الكبير، مما يسهل العمليات الحسابية التي قد تكون صعبة باستخدام دالة غاما مباشرة.

4. درجات الحرية والمعلمات المؤثرة

تُعد درجات الحرية ($k$ أو $df$) المعلمة الوحيدة التي تحدد شكل توزيع مربع كاي. وهي تمثل عدد القيم المستقلة في حساب الإحصاء. في سياق التعريف الرياضي الأساسي، $k$ هو ببساطة عدد المتغيرات الطبيعية المعيارية التي تم تربيعها وجمعها. ومع ذلك، في سياق التطبيقات الإحصائية، فإن تحديد درجات الحرية يتطلب فهماً أعمق لكيفية تقييد البيانات.

عند إجراء اختبار مربع كاي لبيانات فئوية في جدول توافقي (Contingency Table)، يتم حساب درجات الحرية بناءً على عدد الصفوف ($r$) والأعمدة ($c$) في الجدول، وتُعطى بالصيغة: $df = (r-1)(c-1)$. ويعكس هذا الحساب حقيقة أنه بمجرد معرفة المجاميع الهامشية (Marginal Totals) للجدول، فإن عدد الخلايا التي يمكن أن تتغير بحرية قبل أن يتم تحديد كل الخلايا الأخرى هو $(r-1)(c-1)$. هذا القيد هو جوهر مفهوم درجات الحرية في الإحصاء، حيث يتم “خسارة” درجة حرية واحدة لكل معلمة يتم تقديرها من البيانات.

إن أهمية درجات الحرية تكمن في تأثيرها المباشر على شكل منحنى التوزيع وعلى القيمة الحرجة (Critical Value) المستخدمة لاتخاذ القرارات الإحصائية. فكلما زادت درجات الحرية، يزداد متوسط التوزيع، ويصبح التوزيع أقل تركيزاً عند القيم الصغيرة. وبالتالي، لرفض الفرضية الصفرية عند مستوى دلالة ثابت (مثل 0.05)، نحتاج إلى قيمة أكبر لمربع كاي المحسوب عندما تكون درجات الحرية أعلى. هذا يضمن أن الإحصائي يأخذ في الاعتبار تعقيد النموذج وحجم البيانات المستخدمة عند اتخاذ القرار.

5. علاقة التوزيع بتوزيعات احتمالية أخرى

يتمتع توزيع مربع كاي بعلاقات وثيقة ومحورية بالعديد من التوزيعات الاحتمالية الأخرى المستخدمة على نطاق واسع في الإحصاء الاستدلالي، وهذه العلاقات هي التي تبرز مكانته كعنصر أساسي في نظرية الإحصاء. العلاقة الأبرز هي علاقته بالتوزيع الطبيعي، حيث أنه يُشتق مباشرة من مجموع مربعات المتغيرات الطبيعية المعيارية.

بالإضافة إلى ذلك، يدخل توزيع مربع كاي كعنصر أساسي في تعريف توزيعين مهمين آخرين:

توزيع ت لـ (Student’s t-distribution): يُعرّف توزيع $t$ كنسبة بين متغير عشوائي طبيعي معياري ومتغير عشوائي يتبع توزيع مربع كاي (مقسوماً على درجات حريته ثم أخذ جذره التربيعي). يُستخدم توزيع $t$ لعمل استدلالات حول متوسطات المجتمعات عندما يكون حجم العينة صغيراً وتباين المجتمع غير معروف.
توزيع ف (F-distribution): يُعرّف توزيع $F$ كنسبة بين متغيرين عشوائيين مستقلين يتبعان توزيع مربع كاي (كلاهما مقسوم على درجات حريته الخاصة). يُستخدم توزيع $F$ بشكل أساسي في تحليل التباين (ANOVA) ولاختبار تساوي تباينات مجتمعين مختلفين.

هذه العلاقات الهيكلية تظهر أن توزيع مربع كاي يعمل كجسر رياضي يربط بين مختلف أدوات اختبار الفرضيات. علاوة على ذلك، في سياق النماذج الخطية العامة (Generalized Linear Models)، يتم استخدام توزيع مربع كاي لتقييم جودة المطابقة الإجمالية للنموذج (مثل اختبار نسبة الاحتمالية)، مما يؤكد دوره المركزي في الإحصاء المتقدم. إن فهم كيفية ارتباط هذه التوزيعات يُمكّن الإحصائيين من اختيار الاختبار الإحصائي المناسب لمجموعة البيانات المتاحة.

6. اختبارات مربع كاي: الاستقلال وحسن المطابقة

تُعد اختبارات مربع كاي هي التطبيق العملي الأبرز للتوزيع، وتنقسم بشكل رئيسي إلى نوعين أساسيين: اختبار حسن المطابقة واختبار الاستقلال.

اختبار حسن المطابقة (Goodness-of-Fit Test)

يُستخدم اختبار حسن المطابقة لتقييم ما إذا كانت البيانات المرصودة في عينة معينة تتطابق مع توزيع احتمالي نظري متوقع. يفترض هذا الاختبار فرضية صفرية تنص على أن التوزيع الفعلي للبيانات لا يختلف بشكل كبير عن التوزيع النظري المقترح (سواء كان توزيعاً منتظماً، أو نسباً محددة مسبقاً، أو أي توزيع آخر). على سبيل المثال، يمكن استخدامه في الوراثة لاختبار ما إذا كانت نسب الأنماط الظاهرية للجيل الثاني تتبع النسب المندلية المتوقعة (9:3:3:1). في هذا الاختبار، تُحسب درجات الحرية عن طريق طرح واحد من عدد الفئات ($k-1$)، مع الأخذ في الاعتبار أي معلمات يتم تقديرها من العينة.

اختبار الاستقلال (Test of Independence)

يُستخدم اختبار الاستقلال لتحديد ما إذا كان هناك ارتباط (ارتباط إحصائي) بين متغيرين فئويين في مجتمع ما. يتم تنظيم البيانات عادةً في جدول توافقي (Contingency Table)، حيث تمثل الصفوف مستويات متغير واحد، وتمثل الأعمدة مستويات المتغير الآخر. تنص الفرضية الصفرية على أن المتغيرين مستقلان (أي أن توزيع متغير واحد لا يتأثر بمستوى المتغير الآخر). يتم حساب التكرارات المتوقعة ($E_{ij}$) بناءً على فرضية الاستقلال، ثم يتم مقارنتها بالتكرارات المرصودة ($O_{ij}$). إن قيمة مربع كاي الكبيرة تشير إلى وجود فرق كبير بين المرصود والمتوقع، مما يؤدي إلى رفض فرضية الاستقلال وتأكيد وجود علاقة بين المتغيرين.

في كلتا الحالتين، يعتمد الاختبار على مقارنة قيمة $chi^2$ المحسوبة بالقيمة الحرجة المستخرجة من جدول توزيع مربع كاي عند مستوى دلالة محدد ($alpha$) ودرجات الحرية المناسبة. إذا تجاوزت القيمة المحسوبة القيمة الحرجة، فإننا نرفض الفرضية الصفرية، مما يشير إلى أن الفروق الملاحظة ذات دلالة إحصائية وليست مجرد صدفة عشوائية.

7. القيود والافتراضات الأساسية

على الرغم من القوة والمرونة التي يتمتع بها توزيع مربع كاي واختباراته، إلا أن تطبيقه الصحيح يتطلب الالتزام بعدد من الافتراضات الأساسية والقيود المنهجية، وإهمال هذه الافتراضات قد يؤدي إلى استنتاجات إحصائية غير صحيحة أو مضللة. أول هذه الافتراضات وأكثرها أهمية هو افتراض الاستقلال: يجب أن تكون جميع الملاحظات أو البيانات الفردية التي يتم جمعها مستقلة عن بعضها البعض. بمعنى آخر، يجب ألا يؤثر اختيار أو قياس حالة ما على اختيار أو قياس حالة أخرى.

الافتراض الثاني والحاسم يتعلق بالتكرارات المتوقعة (Expected Frequencies). لكي يكون تقريب توزيع مربع كاي جيداً، يجب أن تكون التكرارات المتوقعة في كل خلية من جدول البيانات كبيرة بما فيه الكفاية. القاعدة الإحصائية الشائعة تنص على أن التكرار المتوقع في كل خلية يجب أن يكون 5 على الأقل ($E ge 5$). إذا كانت التكرارات المتوقعة صغيرة جداً، فإن توزيع الإحصاء $chi^2$ لن يتبع توزيع مربع كاي بشكل دقيق، مما يتطلب استخدام طرق بديلة مثل اختبار فيشر الدقيق (Fisher’s Exact Test) أو تجميع الفئات معاً لزيادة التكرارات.

هناك قيود أخرى تتعلق بضرورة أن تكون البيانات فئوية (Categorical) أو أن تكون ذات طبيعة منفصلة. كما يجب أن يكون حجم العينة كبيراً بما يكفي لضمان صلاحية التقريب. في حالة الجداول 2×2 التي تحتوي على عينات صغيرة، قد يوصي الإحصائيون بتطبيق تصحيح ييتس للاستمرارية (Yates’ correction for continuity)، وهو تعديل بسيط يتم إجراؤه على صيغة مربع كاي لتقليل الخطأ الناتج عن استخدام توزيع مستمر (مربع كاي) لتقريب توزيع منفصل (البيانات الفئوية). ومع ذلك، يتم النقاش حول مدى ضرورة تصحيح ييتس في العينات الحديثة.