اختبار دَن الإحصائي: دليلك لكشف الفروق بين المجموعات بدقة

مدرس الدكتور محمد لوتي

المحتويات:

اختبار دَن للمقارنات المتعددة

المجالات التأديبية الأساسية: الإحصاء التطبيقي، الإحصاء الحيوي، تصميم التجارب، تحليل البيانات اللا معلمية.

1. التعريف الأساسي

اختبار دَن للمقارنات المتعددة هو إجراء إحصائي لا معلمي (غير بارامتري) يُستخدم لإجراء مقارنات زوجية (pairwise comparisons) بين مجموعات متعددة بعد رفض الفرضية الصفرية في اختبار إحصائي شامل. نشأ هذا الاختبار كإجراء لاحق (post-hoc) ضروري لاستكمال نتائج الاختبارات اللا معلمية الرئيسية مثل اختبار كروسكال-واليس (Kruskal-Wallis H test) أو اختبار فريدمان (Friedman test) عند التعامل مع البيانات التي لا تستوفي الافتراضات الصارمة للاختبارات المعلمية مثل تحليل التباين (ANOVA).

يتمثل الهدف الأساسي لاختبار دَن في تحديد أي من أزواج المجموعات المحددة تختلف إحصائيًا بشكل جوهري بعد أن يثبت الاختبار الأولي وجود فرق عام في التوزيعات بين المجموعات. إن السمة المميزة لهذا الإجراء هي تركيزه على السيطرة على معدل الخطأ العائلي (Family-wise Error Rate – FWER). عند إجراء مقارنات متعددة بين جميع الأزواج الممكنة، تزداد احتمالية ارتكاب خطأ من النوع الأول (Type I error) بشكل كبير؛ ولذلك، يطبق اختبار دَن تصحيحات صارمة (عادةً تصحيح بونفيروني) على مستويات الأهمية الإحصائية لضمان بقاء الاحتمالية الإجمالية لارتكاب خطأ واحد على الأقل ضمن الأسرة الكاملة للمقارنات عند مستوى ألفا (α) المحدد مسبقًا، مثل 0.05.

يُعد اختبار دَن حجر الزاوية في تحليل البيانات التجريبية التي تنتهك افتراضات التوزيع الطبيعي أو تجانس التباينات، أو عندما تكون البيانات في الأصل من النوع الترتيبي (Ordinal). يعتمد الاختبار بشكل كلي على تحويل البيانات إلى رتب (Rank-based) بدلاً من استخدام القيم الخام، مما يجعله قويًا (Robust) ضد القيم الشاذة (Outliers) والالتواء في التوزيعات، وهو ما يفسر انتشاره الواسع في المجالات التي تتعامل مع بيانات بيولوجية أو اجتماعية غير موزعة بشكل طبيعي.

2. الأصل والتطور التاريخي

يعود الفضل في تطوير هذا الإجراء الإحصائي الهام إلى عالمة الإحصاء الأمريكية البارزة، أوليف جين دَن، التي قدمت صيغته الأصلية في أوائل الستينيات من القرن العشرين. جاء تطوير اختبار دَن استجابة للحاجة الماسة في البحث التجريبي، وخصوصاً في مجالات علم النفس والطب الحيوي، لإجراء مقارنات متعددة دقيقة وموثوقة عند استخدام اختبارات غير معلمية للمقارنة بين أكثر من مجموعتين مستقلتين.

قبل ظهور اختبار دَن، كان الباحثون يواجهون تحديات كبيرة في تفسير نتائج الاختبارات الشاملة مثل اختبار كروسكال-واليس. فبينما يخبرنا كروسكال-واليس ما إذا كانت هناك اختلافات ذات دلالة إحصائية بين المجموعات بشكل عام، فإنه لا يحدد موقع هذه الاختلافات. كان الحل الشائع وغير الصحيح في ذلك الوقت هو إجراء اختبارات t ثنائية بسيطة بين جميع الأزواج، لكن هذا الإجراء يؤدي إلى تضخم هائل في معدل الخطأ العائلي، مما يزيد من احتمالية الحصول على نتائج إيجابية كاذبة بشكل غير مقبول. قدمت دَن حلاً منهجياً يربط بين إحصائية كروسكال-واليس وبين إجراء المقارنات الزوجية، مع دمج تعديلات صارمة لتصحيح مستوى الأهمية الإحصائية (alpha level).

على الرغم من أن دَن كانت رائدة في تطوير العديد من إجراءات المقارنات المتعددة، إلا أن “اختبار دَن” (كما يُعرف عادةً) ارتبط في الغالب بإجراء المقارنات الزوجية اللاحقة لاختبار كروسكال-واليس. لقد كان هذا التطور خطوة حاسمة نحو إضفاء الصرامة الإحصائية على تحليل البيانات اللا معلمية، مما سمح للباحثين بالانتقال من مجرد تحديد وجود فرق إلى تحديد طبيعة وموقع ذلك الفرق بدقة عالية وموثوقية إحصائية.

3. الافتراضات الأساسية

لكي يكون اختبار دَن صالحًا ومناسبًا، يجب استيفاء مجموعة من الافتراضات الإحصائية المتعلقة بطبيعة البيانات وتصميم الدراسة، وهي افتراضات مشتركة في الغالب مع الاختبار الأولي الذي يسبقه (كروسكال-واليس أو فريدمان).

أولاً، يجب أن تكون البيانات التي يتم تحليلها إما بيانات ترتيبية (Ordinal data) أو بيانات كمية مستمرة (Continuous data) ولكنها لا تستوفي افتراض التوزيع الطبيعي. إذا كانت البيانات تتبع التوزيع الطبيعي بشكل واضح، فإن استخدام تحليل التباين (ANOVA) مع اختبارات ما بعده (مثل توكي) يكون هو الإجراء الأنسب والأقوى. أما اختبار دَن فيستمد قوته من قدرته على التعامل مع البيانات التي تكون فيها التوزيعات ملتوية أو تحتوي على تباينات غير متجانسة بشكل كبير.

ثانيًا، يُفترض أن تكون الملاحظات ضمن المجموعات مستقلة عن بعضها البعض. هذا الافتراض جوهري في تصميم التجارب ويعني أن قياس قيمة في مجموعة معينة يجب ألا يؤثر على قياس قيمة في أي مجموعة أخرى. أما إذا كانت البيانات مرتبطة (كأن تكون نفس العينة خضعت لجميع مستويات المعالجة)، فيجب استخدام نسخة اختبار دَن المصممة للمقارنات المتعددة اللاحقة لاختبار فريدمان، والذي يتعامل مع العينات المعتمدة أو المقترنة.

الافتراض الثالث والأكثر دقة هو أن أشكال توزيعات المجموعات متماثلة (Homogeneity of shapes). إذا كان شكل التوزيع متماثلاً، فإن اختبار دَن يقارن الوسيطات (Medians) للمجموعات. ومع ذلك، إذا كانت أشكال التوزيعات مختلفة تماماً (على سبيل المثال، مجموعة ذات توزيع ملتوي بشدة ومجموعة أخرى شبه طبيعية)، فإن الاختبار لا يقارن الوسيطات فقط، بل يقارن التوزيعات بأكملها (أو متوسطات الرتب)، مما يجعل التفسير أكثر تعقيداً وقد يتطلب تحليلًا إضافيًا لتحديد سبب الاختلاف بدقة.

4. منهجية الإجراء الحسابي وتصحيح الخطأ

يتطلب تطبيق اختبار دَن اتباع سلسلة من الخطوات المنهجية التي تبدأ بالضرورة بعد إثبات وجود فرق إحصائي كبير باستخدام اختبار كروسكال-واليس العام. يعتمد الاختبار بشكل أساسي على الرتب وليس على القيم الأصلية للبيانات، مما يقلل من تأثير القيم المتطرفة.

تتمثل الخطوات الإجرائية الرئيسية لاختبار دَن فيما يلي:

إجراء الاختبار الشامل: يجب أولاً إجراء اختبار كروسكال-واليس (Kruskal-Wallis) لتحديد ما إذا كانت هناك فروق ذات دلالة إحصائية عامة بين المجموعات. إذا لم يتم رفض الفرضية الصفرية في هذه المرحلة، فليس هناك مبرر للانتقال إلى مقارنات دَن الزوجية.
تجميع وترتيب البيانات: يتم تجميع جميع البيانات من المجموعات المختلفة (k) معًا وتعيين رتبة لكل نقطة بيانات، بدءًا من أصغر قيمة (الرتبة 1). في حالة وجود قيم متساوية (Ties)، يتم تعيين متوسط الرتب لتلك القيم.
حساب متوسط الرتب: يُحسب مجموع ومتوسط الرتب لكل مجموعة فردية.
حساب إحصائية الاختبار Z: تُحسب إحصائية Z لكل مقارنة زوجية بناءً على الفرق في متوسطات الرتب بين المجموعتين المعنيتين، مقسومًا على الخطأ المعياري. يتم تقدير الخطأ المعياري باستخدام تباين الرتب المجمع لجميع المجموعات، وهذا هو ما يمنح اختبار دَن قوته مقارنةً باختبارات t المستقلة.
تطبيق تصحيح مستوى الأهمية: هذه هي الخطوة الأكثر أهمية. لضمان التحكم في معدل الخطأ العائلي (FWER)، يتم استخدام تصحيح بونفيروني (Bonferroni correction) أو صيغة دَن الأكثر دقة (والتي غالبًا ما تكون متطابقة مع بونفيروني في التطبيقات العملية). يتم تحديد العدد الإجمالي للمقارنات الزوجية الممكنة (c)، ثم يتم تقسيم مستوى ألفا (α) على هذا العدد. على سبيل المثال، إذا كان هناك أربع مجموعات (k=4)، فإن هناك ست مقارنات زوجية (c=6). إذا كان α = 0.05، فإن مستوى الأهمية المعدل لكل مقارنة يصبح 0.05/6 ≈ 0.0083.

يتم بعد ذلك مقارنة القيمة الاحتمالية (p-value) لكل مقارنة زوجية بالقيمة ألفا المعدلة. إذا كانت القيمة الاحتمالية أقل من ألفا المعدلة، يتم رفض الفرضية الصفرية لتلك المقارنة الزوجية، مما يشير إلى وجود فرق ذي دلالة إحصائية بين هاتين المجموعتين تحديداً.

5. العلاقة باختبارات المقارنات المتعددة الأخرى

يحتل اختبار دَن مكانة فريدة في مجموعة أدوات الإحصاء اللا معلمي، لكنه يرتبط ارتباطًا وثيقًا بالعديد من إجراءات المقارنات المتعددة الأخرى، سواء كانت معلمية أو لا معلمية.

مقارنةً بـتصحيح بونفيروني العام، غالبًا ما يُعتبر اختبار دَن تطبيقًا متخصصًا لتصحيح بونفيروني على بيانات الرتب. الفروق الدقيقة تظهر في كيفية تقدير الخطأ المعياري: يستخدم دَن قدراً مجمعاً لتباين الرتب، مما يجعله أكثر ملاءمة وربما أكثر قوة قليلاً من مجرد تطبيق اختبارات t بسيطة مع تصحيح بونفيروني. وهناك أيضاً اختبار دَن-سيداك (Dunn–Sidak correction)، وهو بديل لبونفيروني وأقل تحفظًا بقليل، ويمكن تطبيقه على إحصائية دَن.

في السياق اللا معلمي، تتم مقارنة اختبار دَن بشكل متكرر مع اختبار نيميني (Nemenyi test). كلا الاختبارين هما إجراءات لاحقة لاختبار كروسكال-واليس. ومع ذلك، يستخدم اختبار نيميني مدى الرتب القياسي (standardized rank range) ويُفضل استخدامه عندما تكون أحجام العينات متساوية. أما اختبار دَن فيتفوق عمومًا عندما تكون أحجام المجموعات غير متساوية (Unequal sample sizes)، حيث يوفر تقديرات أكثر دقة للخطأ المعياري في هذه الحالة، مما يجعله الخيار المفضل في تصميمات الأبحاث غير المتوازنة.

بالمقابل، لا ينبغي الخلط بين اختبار دَن والاختبارات اللاحقة المعلمية مثل اختبار توكي (Tukey’s HSD) أو اختبار جيمس-هاول (Games-Howell). يتم استخدام هذه الاختبارات بعد تحليل التباين (ANOVA) وتفترض التوزيع الطبيعي للبيانات، بينما يُستخدم دَن خصيصًا عند انتهاك هذه الافتراضات، مما يجعله الأداة المناسبة في بيئات البحث ذات البيانات غير الطبيعية أو الترتيبية.

6. الأهمية والتأثير التطبيقي

تكمن الأهمية الجوهرية لاختبار دَن في قدرته على توفير استنتاجات إحصائية صارمة وموثوقة في ظل ظروف لا يمكن فيها استيفاء الافتراضات البارامترية. في العديد من المجالات البحثية، مثل علم البيئة، وعلم السموم، والدراسات النفسية التي تتعامل مع مقاييس ليكرت (Likert scales)، غالباً ما تكون توزيعات البيانات ملتوية أو تحتوي على قيم شاذة مؤثرة، مما يجعل اختبار ANOVA غير مناسب.

يوفر دَن للباحثين أداة قوية لتحليل الفروقات المحددة بين مستويات المعالجة المختلفة دون التضحية بالدقة الإحصائية، حيث ينتقل التحليل من المقارنة القائمة على المتوسطات (المعرضة لتأثير القيم الشاذة) إلى المقارنة القائمة على الرتب (الأكثر مرونة). إن الالتزام بتصحيح معدل الخطأ العائلي (FWER) هو ميزة حاسمة، حيث يضمن أن الباحث لا يبالغ في تقدير النتائج الإيجابية الكاذبة (false positives) عند إجراء عدد كبير من المقارنات. هذا الالتزام يعزز من مصداقية النتائج العلمية المنشورة ويقلل من احتمالية سحب استنتاجات خاطئة حول فعالية المعالجات.

إن إمكانية استخدام اختبار دَن في ظل أحجام العينات غير المتساوية عززت من انتشاره في الأبحاث التطبيقية حيث يكون التحكم الكامل في توازن العينات أمرًا صعبًا أو مستحيلاً (مثل الدراسات السريرية أو المراقبة). وبفضل هذه المرونة والصرامة المنهجية، أصبح اختبار دَن أداة أساسية وموصى بها في المنهجيات الإحصائية المطبقة في الدراسات التي تعتمد على الإحصاءات اللا معلمية.

7. الانتقادات والقيود

على الرغم من الاستخدام الواسع النطاق لاختبار دَن وفعاليته في السيطرة على الخطأ من النوع الأول، إلا أنه لا يخلو من الانتقادات والقيود المنهجية التي يجب على الباحثين أخذها في الاعتبار عند اختياره.

الانتقاد الأبرز يتعلق بطبيعته المحافظة (Conservative)، وهي نتيجة مباشرة لاستخدام تصحيح بونفيروني الصارم. في حين أن هذا التصحيح ينجح في السيطرة على معدل الخطأ العائلي بشكل ممتاز، فإنه غالبًا ما يؤدي إلى انخفاض كبير في القوة الإحصائية (Statistical Power). هذا الانخفاض يعني زيادة احتمالية ارتكاب الخطأ من النوع الثاني (Type II error)، أي الفشل في اكتشاف فرق حقيقي موجود بالفعل بين مجموعتين، خاصة عندما تكون الفروق طفيفة أو عندما يكون حجم العينة صغيرًا.

يرى بعض الإحصائيين أنه يمكن استخدام بدائل أقل تحفظًا، مثل اختبار كونوفر (Conover’s test) أو اختبارات نيميني في حالات العينات المتساوية، والتي قد توفر قوة إحصائية أكبر دون التضحية المفرطة بالسيطرة على الخطأ. بالإضافة إلى ذلك، يجب التذكير بأن اختبار دَن هو اختبار لاحق (Post-hoc)؛ يجب ألا يتم استخدامه إلا إذا كان الاختبار الشامل (كروسكال-واليس) قد أظهر دليلاً إحصائياً على وجود اختلاف عام في البداية. استخدامه بشكل استكشافي دون وجود نتيجة شاملة ذات دلالة إحصائية يقلل من صرامة التحليل ويزيد من احتمالية الحصول على نتائج عشوائية لا يمكن تعميمها.