المتغير ثنائي التفرع: تبسيط البيانات أم فقدان للدقة؟

مدرس الدكتور محمد لوتي

المحتويات:

المتغير المُقسَّم ثنائيًا (Dichotomized Variable)

Primary Disciplinary Field(s): الإحصاء، ومنهجية البحث العلمي، وعلم القياس النفسي، والتحليل الحيوي

1. التعريف الجوهري

المتغير المُقسَّم ثنائيًا هو متغير يتم تحويله، بشكل متعمد أو منهجي، من شكله الأصلي (سواء كان متغيرًا مستمرًا، مثل العمر أو الدخل، أو متغيرًا ترتيبيًا يحتوي على عدة مستويات) إلى متغير فئوي يحتوي على فئتين فقط أو قيمتين محتملتين. هذا التحويل، المعروف باسم “التقسيم الثنائي” (Dichotomization)، يهدف إلى تبسيط التحليل أو تسهيل التفسير في سياقات معينة، خاصة في المجالات التطبيقية مثل الطب وعلم النفس حيث تتطلب القرارات نتائج واضحة ومحددة.

تعتمد عملية التقسيم الثنائي بشكل أساسي على تحديد نقطة قطع (Cutoff Point) أو عتبة فاصلة، والتي تعمل كحد فاصل لتصنيف جميع الملاحظات إلى إحدى المجموعتين الثنائيتين. على سبيل المثال، قد يتم تحويل متغير “ضغط الدم الانقباضي” المستمر إلى متغير ثنائي هو “ضغط طبيعي” (أقل من 120 ملم زئبقي) و “ارتفاع ضغط الدم” (120 ملم زئبقي فأكثر). من المهم الإشارة إلى أن المتغير الثنائي الناتج هو متغير اسمي (Nominal) أو ترتيبي خاص (Binary Ordinal)، ويفقد كل المعلومات الدقيقة التي كانت مضمنة في التباين الأصلي للمتغير المستمر.

على الرغم من فائدته الواضحة في تبسيط النماذج الإحصائية المعقدة أو تلبية متطلبات بعض الاختبارات الإحصائية النوعية، فإن التقسيم الثنائي يثير جدلًا كبيرًا في الأوساط الأكاديمية والإحصائية. الفكرة الجوهرية وراء هذا الانتقاد هي أن التباين المستمر في العالم الحقيقي غالبًا ما يكون أكثر دقة وقوة من التباين الثنائي المبسط، وبالتالي فإن تحويله يؤدي إلى فقدان لا يمكن تعويضه للقوة الإحصائية (Statistical Power) وتقليل دقة النتائج، مما قد يؤدي إلى استنتاجات مضللة حول العلاقات بين المتغيرات.

2. أصل المفهوم والتطور التاريخي

يعود أصل كلمة “ديكوتومي” (Dichotomy) إلى اليونانية القديمة، وتتكون من شقين: *dicha* (بمعنى في جزأين) و *temnein* (بمعنى أن يقطع)، مما يشير بوضوح إلى عملية التقسيم إلى قسمين متناقضين أو متكاملين. إن فكرة تصنيف الظواهر إلى فئتين متقابلتين (مثل “الخير والشر”، “الذكر والأنثى”، أو “الحي والميت”) هي فكرة فلسفية ومنطقية قديمة، لكن تطبيقها المنهجي في الإحصاء ظهر مع تطور النماذج التي تتعامل تحديدًا مع الاحتمالات والنتائج الثنائية، مثل نماذج الانحدار اللوجستي (Logistic Regression) التي تتطلب متغير استجابة ثنائيًا.

في بدايات القرن العشرين، ومع تطور طرق القياس النفسي والتربوي، كان هناك ميل قوي لتقسيم المتغيرات المستمرة إلى فئات لسهولة الحساب اليدوي، ولتطبيق بعض معامل الارتباط المبكرة التي كانت مصممة للبيانات الفئوية، مثل معامل ارتباط النقطة-ثنائية الترتيب (Point-Biserial Correlation). كان هذا التقسيم يسهل التعامل مع البيانات في غياب القدرات الحاسوبية المتقدمة.

ومع ذلك، خلال النصف الثاني من القرن العشرين وبداية القرن الحادي والعشرين، أصبحت الانتقادات الموجهة للتقسيم الثنائي أكثر حدة. أثبت الإحصائيون أن التقسيم الثنائي لمتغير مستمر عشوائي التوزيع يقلل من مقدار التباين المشترك الذي يمكن تفسيره، ويؤدي إلى انخفاض ملحوظ في القوة الإحصائية للكشف عن التأثيرات الحقيقية. وقد حذر العديد من منظري القياس، مثل ماك كالوم (MacCallum) وزملاؤه، من أن هذا الإجراء يجب أن يتم فقط عندما يكون الأساس النظري أو السريري للتقسيم قويًا وواضحًا، وليس لمجرد التبسيط الإحصائي.

3. الخصائص المنهجية الرئيسية

فقدان التباين الدقيق (Loss of Granularity): الخاصية الأهم للمتغير المُقسَّم ثنائيًا هي التضحية بالدقة. فعند تحويل متغير مستمر (مثل مقياس مكون من 100 نقطة) إلى فئتين (0 و 1)، يتم تجاهل الفروق الدقيقة التي كانت تميز الأفراد داخل كل فئة من الفئتين الجديدتين. على سبيل المثال، في دراسة لفعالية دواء، فإن تحويل “نسبة التحسن” (مستمر) إلى “تحسن/لا تحسن” يلغي الفرق بين شخص تحسن بنسبة 1% وشخص تحسن بنسبة 49%، وكلاهما يقع في فئة “لا تحسن” إذا كانت نقطة القطع هي 50%.
الاعتماد الكلي على نقطة القطع (Cutoff Dependency): يعتمد المتغير المقسَّم ثنائيًا بشكل حاسم على اختيار نقطة القطع. قد يؤدي تغيير هذه النقطة بشكل طفيف إلى تغيير جذري في نتائج التحليل الإحصائي وتفسير العلاقة. في كثير من الأحيان، يتم اختيار نقطة القطع بشكل تعسفي أو بناءً على الأعراف السريرية (مثل استخدام المتوسط أو الوسيط)، وليس بناءً على خصائص توزيع البيانات أو أساس نظري متين، مما يضيف مصدرًا للخطأ المنهجي.
تأثيرات حافة الفئة (Edge Effects): يؤدي التقسيم الثنائي إلى معاملة الأفراد القريبين جدًا من نقطة القطع على أنهم مختلفون جوهريًا عن بعضهم البعض (شخص على يمين النقطة يعتبر “ناجحًا” وشخص على يسارها يعتبر “راسبًا”)، بينما يتم معاملة الأفراد المتباعدين جدًا داخل نفس الفئة على أنهم متماثلون. هذا التشوه في المسافات يمثل خطأ قياس داخليًا يؤثر على دقة النماذج التنبؤية.

4. الأهمية والتطبيقات العملية

على الرغم من الانتقادات الموجهة إليه، يحتفظ المتغير المُقسَّم ثنائيًا بأهمية بالغة في عدد من السياقات البحثية والسريرية، خاصة حيث تكون القرارات الناتجة عن التحليل تتطلب تصنيفًا واضحًا وغير غامض.

في المجال الطبي والحيوي، يعد التقسيم الثنائي ضروريًا لتحديد النتائج السريرية الحاسمة. على سبيل المثال، عند اختبار فعالية لقاح، يجب أن تكون النتيجة النهائية “مصاب” أو “غير مصاب” لتحديد معدل الحماية. كما أن معظم أدوات التشخيص تهدف إلى تصنيف المريض في فئة ثنائية (مثل: “وجود المرض/غياب المرض” أو “استجابة للعلاج/عدم استجابة”). هذا التبسيط يسهل على الأطباء وواضعي السياسات اتخاذ قرارات حاسمة بناءً على الإحصائيات المقدمة، حتى لو كان المتغير الأصلي (مثل مستويات المؤشرات الحيوية) مستمرًا.

في مجال الإدارة والأعمال، يستخدم التقسيم الثنائي لتحديد المجموعات المستهدفة أو لتقييم الأداء. على سبيل المثال، قد يتم تقسيم العملاء إلى “محتمل الشراء/غير محتمل الشراء”، أو تقسيم الموظفين إلى “أداء عالٍ/أداء منخفض” بناءً على عتبة محددة من الإنتاجية. هذه التقسيمات تساعد في تخصيص الموارد واتخاذ الإجراءات الإدارية المباشرة. كما أن التقسيم الثنائي يسهل تطبيق بعض تقنيات التعلم الآلي البسيطة، حيث تكون نتائج التصنيف (Classification) ثنائية بطبيعتها.

5. التضمينات الرياضية والإحصائية

إن استخدام المتغير المُقسَّم ثنائيًا له تأثيرات مباشرة وقابلة للقياس على الخصائص الإحصائية للبيانات. من الناحية الرياضية، يؤدي التقسيم الثنائي لمتغير مستمر إلى انخفاض معامل الارتباط بين هذا المتغير وأي متغير آخر. وقد أظهرت الأبحاث أن فقدان التباين الإحصائي يمكن أن يصل إلى حوالي 38% مقارنةً باستخدام المتغير المستمر الأصلي، خاصة عندما تكون نقطة القطع بعيدة عن متوسط التوزيع (أي عندما تكون الفئتان الناتجتان غير متوازنتين بشكل كبير).

في نماذج الانحدار، عند استخدام متغير مستقل (Predictor) مقسَّم ثنائيًا بدلاً من شكله المستمر، فإن قدرة النموذج على التنبؤ بالمتغير التابع تنخفض. ويصبح معامل الانحدار (Beta Coefficient) أقل كفاءة في تقدير حجم التأثير الحقيقي. إذا كان المتغير التابع هو الذي تم تقسيمه ثنائيًا (كما في الانحدار اللوجستي)، يجب على الباحثين استخدام تقديرات الاحتمالات أو نسب الأرجحية (Odds Ratios) بدلاً من التفسيرات الخطية التقليدية، مما يتطلب فهمًا إحصائيًا دقيقًا لنموذج التوزيع الثنائي (مثل توزيع بيرنولي).

علاوة على ذلك، في سياق تحليل الموثوقية (Reliability Analysis)، يؤثر التقسيم الثنائي على حساب مقاييس الاتساق الداخلي. على سبيل المثال، عند تحويل عناصر مقياس ليكرت (Likert Scale) من خماسي أو سباعي المستويات إلى ثنائي (مثل “موافق/غير موافق”)، فإن هذا يؤثر على قيمة ألفا كرونباخ (Cronbach’s Alpha) وقد يتطلب استخدام مقاييس بديلة مثل معامل كودر-ريتشاردسون (KR-20) إذا كانت جميع العناصر ثنائية.

6. الانتقادات والجدل المنهجي

يمثل التقسيم الثنائي أحد أكثر الممارسات المنهجية إثارة للجدل في الإحصاء التطبيقي، ويواجه انتقادات قوية من الإحصائيين والمنهجيين الذين يشددون على أهمية الحفاظ على التباين الطبيعي للبيانات.

الخسارة غير المبررة للقوة الإحصائية: الانتقاد الرئيسي هو فقدان القوة الإحصائية. عندما يتم فقدان التباين، يصبح من الصعب إحصائيًا رفض الفرضية الصفرية، مما يزيد من احتمال حدوث خطأ من النوع الثاني (Type II Error)، أي عدم الكشف عن تأثير حقيقي موجود. هذا يعني أن الدراسة قد تفشل في إثبات علاقة مهمة سريريًا أو نظريًا بسبب قرار منهجي خاطئ بالتقسيم الثنائي.

التلاعب بالنتائج: يتيح التقسيم الثنائي مساحة واسعة للباحثين لاختيار نقطة قطع “مثالية” (P-Hacking) والتي تنتج أفضل نتيجة إحصائية مرغوبة (أي أصغر قيمة p)، بدلاً من اختيار نقطة قطع مبنية على أساس نظري أو إكلينيكي صلب. هذا يهدد موضوعية البحث وقابليته للتكرار. وقد حذر الإحصائيون من أن الباحثين الذين يغيرون نقطة القطع بشكل متكرر قد يعثرون على نتائج ذات دلالة إحصائية زائفة.

افتراض التجانس داخل الفئة: التقسيم الثنائي يجبر الباحث على افتراض أن جميع الأفراد داخل الفئة الواحدة (سواء كانت فئة “عالية” أو “منخفضة”) متجانسون من حيث الخصائص المدروسة، في حين أن الفروق بين الأفراد القريبين من نقطة القطع قد تكون ضئيلة، ولكن الفروق بين الأفراد في نهايات الفئة قد تكون كبيرة جدًا، وهي فروق تم تجاهلها تمامًا بسبب عملية التبسيط.