جداول التصنيف المتقاطع: كشف خفايا السلوك البشري بالأرقام

مدرس الدكتور محمد لوتي

المحتويات:

جدول التصنيف المتقاطع (Cross-Classification Table)

Primary Disciplinary Field(s): الإحصاء، البحث الاجتماعي، علم الأوبئة

1. التعريف الجوهري

يُعد جدول التصنيف المتقاطع، المعروف إحصائيًا باسم جدول التوافق (Contingency Table)، أداة تحليلية وصفية أساسية تُستخدم لتلخيص وعرض العلاقة بين متغيرين أو أكثر من المتغيرات الفئوية (Categorical Variables). ويُمثل هذا الجدول توزيع التكرارات المشترك للمتغيرات قيد الدراسة، حيث تُخصص صفوفه لفئات متغير واحد وتُخصص أعمدته لفئات المتغير الآخر. وكل خلية داخل الجدول تحتوي على عدد المشاهدات، أو التكرار، الذي يقع ضمن التركيبة المحددة لفئات المتغيرات المتقاطعة. إن الهدف الرئيسي من هذه الأداة هو تحديد ما إذا كانت هناك علاقة أو ارتباط إحصائي بين المتغيرات، أي هل توزيع فئات متغير واحد يتأثر بشكل منهجي بتوزيع فئات المتغير الآخر.

في جوهره، يوفر جدول التصنيف المتقاطع تمثيلاً بصريًا وكميًا للبيانات الاسمية أو الترتيبية، مما يجعله نقطة الانطلاق لأي تحليل إحصائي يركز على العلاقات غير المترية. على سبيل المثال، قد يُستخدم لدراسة العلاقة بين متغير “الجنس” (ذكر/أنثى) ومتغير “الرأي السياسي” (مؤيد/معارض/محايد). إن تنظيم البيانات في هذا الشكل المنهجي يُسهل عملية المقارنة المباشرة للتكرارات المشاهدة مع التكرارات المتوقعة في حال غياب أي ارتباط، وهي المقارنة التي تشكل الأساس لاختبارات الاستدلال الإحصائي مثل اختبار مربع كاي.

تعتمد قوة جدول التصنيف المتقاطع على قدرته على تكثيف كميات كبيرة من البيانات الخام في شكل مفهوم وموجز، مما يساعد الباحث على استخلاص الأنماط والاتجاهات الأولية. كما أنه يُعد جسرًا حيويًا بين الإحصاء الوصفي والإحصاء الاستدلالي، حيث أن الإحصاء الوصفي يُقدم التكرارات والنسب المئوية داخل الجدول، بينما يُستخدم الإحصاء الاستدلالي (عبر اختبارات الارتباط) لتقرير ما إذا كانت الفروق الملحوظة في التكرارات ذات دلالة إحصائية في مجتمع الدراسة الأوسع. ومن المهم التأكيد على أن الخلايا لا تحتوي على قيم متوسطة أو انحرافات معيارية، بل تحتوي حصرًا على أعداد الحالات أو المشاهدات.

2. الهيكل والمكونات الرئيسية

يتكون جدول التصنيف المتقاطع من هيكل رياضي دقيق يُشار إليه عادةً بالصيغة (R × C)، حيث تمثل R عدد الصفوف (فئات المتغير الأول) وتمثل C عدد الأعمدة (فئات المتغير الثاني). هذا الهيكل لا يقتصر على عرض التكرارات المشتركة فحسب، بل يشمل أيضًا التكرارات الهامشية التي تقع على حواف الجدول. تُعرف التكرارات المشتركة بأنها التكرارات الموجودة داخل الجسم الرئيسي للجدول، وتمثل عدد الحالات التي تشترك في فئة معينة من الصفوف وفئة معينة من الأعمدة في آن واحد.

أما التكرارات الهامشية، فهي التوزيعات التكرارية لكل متغير على حدة. تقع تكرارات الصف الهامشية في نهاية كل صف (المجموع الكلي للصف)، وتمثل مجموع التكرارات المشتركة في ذلك الصف، أي التوزيع الكلي لفئات المتغير الأول بغض النظر عن فئات المتغير الثاني. وبالمثل، تقع تكرارات العمود الهامشية في نهاية كل عمود، وتمثل التوزيع الكلي لفئات المتغير الثاني. ويجب أن يكون المجموع الكلي للتكرارات الهامشية للصفوف مساويًا للمجموع الكلي للتكرارات الهامشية للأعمدة، وكلاهما يمثل حجم العينة الإجمالي (N).

بالإضافة إلى التكرارات الخام، يمكن التعبير عن المحتوى داخل الجدول باستخدام النسب المئوية. وتُستخدم ثلاثة أنواع رئيسية من النسب المئوية: النسبة المئوية الإجمالية (مقارنة الخلية بإجمالي حجم العينة)، والنسبة المئوية للصف (مقارنة الخلية بإجمالي الصف الهامشي)، والنسبة المئوية للعمود (مقارنة الخلية بإجمالي العمود الهامشي). ويُعد اختيار النسبة المئوية المناسبة أمرًا بالغ الأهمية لتفسير العلاقة؛ فإذا كان المتغير المستقل هو الذي يحدد الصفوف، فإن نسب الصفوف المئوية تُستخدم عادةً لفحص تأثيره على المتغير التابع في الأعمدة، والعكس صحيح.

3. الأصل والتطور التاريخي

على الرغم من أن فكرة تنظيم البيانات الفئوية في شكل مصفوفة ظهرت بشكل طبيعي في الإحصاء الوصفي المبكر، فإن التطور الحقيقي لجدول التصنيف المتقاطع كأداة للتحليل الاستدلالي يرتبط ارتباطًا وثيقًا بظهور اختبار مربع كاي (Chi-Squared Test). كان لعالم الإحصاء البريطاني كارل بيرسون (Karl Pearson) دور محوري في هذا التطور، حيث قدم في مطلع القرن العشرين الأساس الرياضي لاختبار مربع كاي في عام 1900، بهدف تحديد ما إذا كانت التوزيعات التكرارية المشاهدة تختلف بشكل كبير عن التوزيعات المتوقعة تحت فرضية العدم (فرضية الاستقلال).

قبل عمل بيرسون، كانت المقاييس الإحصائية تركز بشكل كبير على البيانات الكمية والتوزيعات الطبيعية. وقد سمح إطار جدول التوافق، جنبًا إلى جنب مع اختبار مربع كاي، بتوسيع نطاق التحليل الإحصائي ليشمل البيانات الوصفية والاجتماعية التي لا تتبع بالضرورة التوزيع الطبيعي. وقد أدى هذا التطور إلى إرساء حجر الزاوية في مجال الإحصاء غير المعلمي. وفي وقت لاحق، جاءت مساهمات رونالد فيشر (R.A. Fisher) لتصقل المنهجية، خاصة فيما يتعلق بتحديد درجات الحرية في الجداول والتعامل مع حالات أحجام العينات الصغيرة من خلال تطوير اختبار فيشر الدقيق، مما عزز من مصداقية التحليل المعتمد على جداول التصنيف المتقاطع.

على مر العقود، أصبح جدول التصنيف المتقاطع الأداة الأساسية في البحث الاجتماعي والمسوحات الوبائية. وفي علم الأوبئة تحديدًا، تطور استخدام جداول 2×2 لتحديد مقاييس المخاطر مثل نسبة الأرجحية (Odds Ratio) والمخاطر النسبية (Relative Risk)، مما سمح بتقدير قوة الارتباط بين عوامل التعرض والمرض. إن هذا التطور التاريخي يؤكد أن جدول التصنيف المتقاطع ليس مجرد طريقة لعرض البيانات، بل هو هيكل رياضي يُطبق عليه مجموعة واسعة من اختبارات الاستدلال التي تهدف إلى الكشف عن الأسباب المحتملة والارتباطات الهامة في مجالات العلوم المختلفة.

4. أنواع جداول التصنيف المتقاطع

تتنوع جداول التصنيف المتقاطع بناءً على عدد المتغيرات وعدد الفئات لكل متغير. النوع الأكثر شيوعًا هو جدول 2×2، الذي يتعامل مع متغيرين، لكل منهما فئتان فقط (مثل: نعم/لا، ذكر/أنثى، مصاب/سليم). هذا النوع يتميز بالبساطة ويُستخدم بشكل مكثف في التجارب السريرية وعلم الأوبئة لتقييم الحساسية والنوعية للمقاييس أو لتحديد المخاطر النسبية. ويُعتبر تحليل جدول 2×2 هو الأساس لفهم جميع الجداول الأكثر تعقيدًا.

النوع الثاني هو جدول (R × C)، حيث R أو C أو كلاهما أكبر من 2. هذا الجدول يُستخدم عندما يكون لأحد المتغيرات أو كلاهما فئات متعددة (مثل: مستوى التعليم: ابتدائي، ثانوي، جامعي؛ ومستوى الدخل: منخفض، متوسط، مرتفع). في هذه الجداول، يصبح تحليل الارتباط أكثر تعقيدًا، حيث يجب تحديد ما إذا كان الارتباط موجودًا بشكل عام (باستخدام مربع كاي)، وفي حال وجوده، يجب استخدام مقاييس ارتباط متخصصة مثل معامل فاي (Phi) أو معامل V لكريمر (Cramer’s V) لتقدير قوة هذا الارتباط، نظرًا لأن مربع كاي نفسه لا يُعطي قوة الارتباط بل فقط دلالته الإحصائية.

النوع الأكثر تعقيدًا هو جداول التصنيف المتقاطع متعددة الأبعاد (Multi-way Contingency Tables)، والتي تتضمن ثلاثة متغيرات فئوية أو أكثر (على سبيل المثال، دراسة العلاقة بين “التدخين” و”سرطان الرئة” مع التحكم في متغير “العمر”). تُستخدم هذه الجداول لإجراء تحليل الطبقية (Stratified Analysis) أو نمذجة السجل الخطي (Log-linear Modeling). إن إدخال متغير ثالث يسمح للباحثين بفحص ما إذا كانت العلاقة بين المتغيرين الأصليين تتغير أو تختفي عند التحكم في تأثير المتغير الثالث (وهو ما يُعرف بتأثير المتغير المربك أو التفاعل). هذا النوع من الجداول ضروري لمعالجة قضايا التفسير السببي وتجنب الاستنتاجات الخاطئة الناتجة عن المتغيرات الكامنة غير المأخوذة في الحسبان.

5. التحليل الإحصائي المرتبط

الهدف الأساسي من استخدام جدول التصنيف المتقاطع هو إجراء اختبارات الاستدلال لتحديد ما إذا كان المتغيران مستقلين إحصائيًا أم لا. الأداة الأكثر شهرة في هذا الصدد هي اختبار مربع كاي للاستقلال. يفترض هذا الاختبار، كفرضية عدم (H0)، أن المتغيرات مستقلة، أي أن توزيع تكرارات الصفوف لا يرتبط بتوزيع تكرارات الأعمدة. ويتم حساب قيمة مربع كاي من خلال مقارنة التكرارات المشاهدة في كل خلية (F_o) مع التكرارات التي كانت ستُشاهد لو كانت فرضية العدم صحيحة (التكرارات المتوقعة F_e).

إذا كانت القيمة المحسوبة لاختبار مربع كاي كبيرة بما يكفي، بناءً على درجات الحرية المتاحة ومستوى الدلالة المحدد (عادة 0.05)، يتم رفض فرضية العدم، ويُستنتج أن هناك ارتباطًا دالًا إحصائيًا بين المتغيرات. ومع ذلك، من الضروري الإشارة إلى أن اختبار مربع كاي حساس لحجم العينة؛ فكلما زاد حجم العينة، زادت احتمالية العثور على دلالة إحصائية حتى لو كان الارتباط الفعلي ضعيفًا. ولذلك، يجب دائمًا استكمال اختبار مربع كاي بمقاييس لقوة الارتباط.

عندما يتم رفض فرضية الاستقلال، يتم استخدام مقاييس قوة الارتباط، والتي تختلف اعتمادًا على حجم الجدول ونوع البيانات. لجداول 2×2، يُستخدم معامل فاي (Phi Coefficient). وللجداول الأكبر (R x C)، يُفضل استخدام معامل V لكريمر، الذي يُعد تعديلًا لمعامل فاي، حيث تتراوح قيمته دائمًا بين 0 (لا ارتباط) و 1 (ارتباط مثالي)، مما يسهل تفسير قوة الارتباط بغض النظر عن أبعاد الجدول. وفي السياقات الوبائية، تُستخدم مقاييس مثل نسبة الأرجحية (للدراسات القائمة على الحالة والشاهد) والمخاطر النسبية (للدراسات المستقبلية) لتحديد حجم الارتباط من منظور المخاطر.

علاوة على ذلك، في حالة وجود بيانات ترتيبية (Ordinal Data) في جدول التصنيف المتقاطع، لا يُعد مربع كاي هو الاختبار الأمثل دائمًا. بدلاً من ذلك، يمكن استخدام مقاييس الارتباط القائمة على الترتيب، مثل تاو كندال (Kendall’s Tau) أو جاما (Gamma)، التي تستغل الترتيب الطبيعي للفئات لتقدير اتجاه وقوة العلاقة (سواء كانت طردية أو عكسية)، مما يوفر معلومات أكثر ثراءً من مجرد تحديد وجود الارتباط من عدمه.

6. البناء والتفسير المنهجي

يتطلب بناء جدول تصنيف متقاطع سليم تحديدًا واضحًا للمتغيرات وفئاتها. تبدأ العملية بترميز البيانات الفئوية وتجميعها، مما يضمن أن تكون الفئات شاملة لجميع الاحتمالات ومتبادلة الإقصاء. يجب أن يقرر الباحث أي متغير سيُوضع في الصفوف وأي متغير سيُوضع في الأعمدة، وعادة ما يُوضع المتغير المستقل (السبب المفترض) في الصفوف لتسهيل تفسير نسب الصفوف المئوية. بعد ذلك، يتم حساب التكرارات المشتركة عن طريق فرز المشاهدات وإيداعها في الخلية المناسبة.

أما عملية التفسير، فهي تتجاوز مجرد قراءة الأعداد الخام. الخطوة الأولى هي فحص التكرارات الهامشية للتأكد من أن توزيع كل متغير على حدة يتماشى مع التوقعات النظرية أو المعرفة المسبقة. الخطوة الثانية والأكثر أهمية هي تحليل النسب المئوية. على سبيل المثال، إذا كانت الصفوف تمثل “الجنس” والأعمدة تمثل “النجاح في الامتحان”، يجب حساب نسبة النجاح داخل كل صف (نسبة النجاح بين الذكور، ونسبة النجاح بين الإناث). إذا كانت هذه النسب مختلفة بشكل كبير، فإن ذلك يُشير إلى وجود ارتباط.

الخطوة الثالثة والأكثر استدلالية هي حساب التكرارات المتوقعة (Expected Frequencies) لكل خلية. يتم حساب التكرار المتوقع لخلية معينة على افتراض الاستقلال التام، وذلك بضرب التكرار الهامشي للصف في التكرار الهامشي للعمود المقابل، ثم قسمة الناتج على حجم العينة الإجمالي. يُعد الفرق بين التكرار المشاهد والتكرار المتوقع هو الأساس الذي يُبنى عليه اختبار مربع كاي، حيث تشير الفروق الكبيرة إلى أن الاستقلال ليس هو التفسير المحتمل للبيانات، وبالتالي يُرجح وجود علاقة ذات دلالة إحصائية.

7. التحديات والمحددات المنهجية

على الرغم من الأهمية الإحصائية لجدول التصنيف المتقاطع، إلا أنه يواجه عدة تحديات ومحددات منهجية يجب على الباحثين الانتباه إليها. أبرز هذه المحددات يتعلق بافتراضات اختبار مربع كاي. يفترض هذا الاختبار أن التكرارات المتوقعة في جميع الخلايا يجب أن تكون كافية؛ القاعدة العامة تقضي بأنه يجب أن يكون التكرار المتوقع في 80% على الأقل من الخلايا أكبر من 5، ويجب ألا يكون هناك أي تكرار متوقع أقل من 1. إذا لم يتم استيفاء هذا الشرط، فإن توزيع مربع كاي يصبح غير موثوق به، ويجب على الباحث اللجوء إلى اختبار فيشر الدقيق، خاصة في جداول 2×2 الصغيرة.

تحدٍ آخر يكمن في مسألة التصنيف. عند تحويل المتغيرات الكمية المستمرة إلى فئات (مثل تحويل “الدخل السنوي” إلى فئات “مرتفع/متوسط/منخفض”)، يحدث فقدان للمعلومات. هذا التصنيف التعسفي يمكن أن يؤدي إلى تغييرات في نتائج الارتباط أو إخفاء علاقات خطية مهمة قد تكون واضحة لو تم استخدام تحليل الانحدار بدلاً من جدول التوافق. وبالتالي، يُفضل استخدام جداول التصنيف المتقاطع عندما تكون المتغيرات فئوية بطبيعتها وليست نتاجًا لتحويل بيانات كمية.

أما التحدي الأكثر جوهرية، فهو أن جدول التصنيف المتقاطع، شأنه شأن جميع مقاييس الارتباط، لا يستطيع إثبات السببية. إن الدلالة الإحصائية للارتباط تشير فقط إلى أن المتغيرين ليسا مستقلين، لكنها لا تحدد اتجاه العلاقة السببية، ولا تستبعد إمكانية وجود متغير ثالث (مربك) يؤثر على كليهما. لمعالجة هذه المشكلة جزئيًا، يجب استخدام الجداول متعددة الأبعاد والتحليل الطبقي، بالإضافة إلى الاعتماد على التصميم البحثي (مثل التجارب العشوائية) لتعزيز الحجج السببية.

8. المفاهيم والمكونات الرئيسية

التكرارات المشتركة (Joint Frequencies): الأعداد الفعلية للمشاهدات التي تقع عند تقاطع صف وعمود معينين داخل الجدول.
التكرارات الهامشية (Marginal Frequencies): المجموع الكلي للتكرارات في صف أو عمود معين، وهي تمثل التوزيع التكراري لكل متغير على حدة.
التكرارات المتوقعة (Expected Frequencies): القيمة النظرية للتكرار في كل خلية على افتراض أن المتغيرين مستقلان تمامًا؛ تُستخدم كأساس لاختبار مربع كاي.
معامل V لكريمر (Cramer’s V): مقياس قوة الارتباط المناسب لجداول (R × C) التي تزيد أبعادها عن 2×2، حيث يعطي قوة العلاقة بين 0 و 1.
نسبة الأرجحية (Odds Ratio): مقياس حاسم في علم الأوبئة (جداول 2×2)، يُستخدم لتقدير احتمالية وقوع حدث معين (مثل الإصابة بمرض) في مجموعة معرضة مقارنة بمجموعة غير معرضة.