نتيجة الفرق – difference score

مدرس الدكتور محمد لوتي

المحتويات:

درجة الفارق (Difference Score)

المجال (المجالات) التخصصية الرئيسية: الإحصاء التطبيقي، القياس النفسي، المنهجية البحثية.

1. التعريف الجوهري

تُعد درجة الفارق، أو نتيجة الفارق، مقياسًا إحصائيًا ومنهجيًا أساسيًا يُستخدم لتحديد كمية ونوعية التغير الذي يطرأ على فرد أو مجموعة نتيجة تدخل معين أو مرور الوقت بين نقطتين زمنيتين محددتين. في جوهرها، تُمثل درجة الفارق ببساطة الطرح الرياضي للقيمة المقاسة في النقطة الزمنية الأولى (القياس القبلي) من القيمة المقاسة في النقطة الزمنية الثانية (القياس البعدي). هذا المؤشر البسيط هو الركيزة التي تُبنى عليها العديد من الأبحاث التجريبية وشبه التجريبية، لاسيما في مجالات العلوم الاجتماعية والطبية، حيث يكون الهدف الرئيسي هو تقييم مدى فعالية برنامج تدريبي، علاج دوائي، أو أي شكل من أشكال التدخل الذي يهدف إلى إحداث تغيير ملموس في المتغيرات المدروسة، مثل الأداء المعرفي، أو مستويات الأعراض النفسية، أو التحصيل الأكاديمي. وعلى الرغم من بساطتها الظاهرية، فإن درجة الفارق تحمل دلالات إحصائية معقدة تتطلب تحليلًا دقيقًا، خصوصًا فيما يتعلق بموثوقيتها وتأثرها بأخطاء القياس.

تُستخدم هذه الدرجة بشكل رئيسي في سياق التصاميم القبلية البعدية (Pretest–Posttest Designs)، وهي التصاميم الأكثر شيوعًا في تقييم النتائج، حيث يتم قياس المتغير التابع قبل بدء التدخل (X1) ومرة أخرى بعد الانتهاء منه (X2). ويكون الفارق (D = X2 – X1) هو المؤشر الكمي للتأثير المُحدث. ويُعتبر هذا المفهوم بديهيًا ومباشرًا في تفسيره الأولي؛ فإذا كانت درجة الفارق موجبة، فهذا يعني حدوث زيادة في المتغير، وإذا كانت سالبة، فهذا يدل على حدوث انخفاض، في حين أن الصفر يشير إلى عدم وجود تغيير صافٍ بين القياسين. ومع ذلك، فإن المنهجية الإحصائية تفرض النظر إلى ما وراء هذه البسالة، حيث يجب التمييز بين التغيير الحقيقي (True Change) الذي يعكس تأثير التدخل، والتغيير الظاهري الذي قد يكون ناتجًا عن أخطاء عشوائية في القياس أو عوامل خارجية أخرى لم يتم التحكم فيها، مما يضع درجة الفارق تحت مجهر النقد المنهجي المستمر لمدى صلاحيتها كأداة وحيدة لتفسير السببية.

إن فهم درجة الفارق يرتكز على الاعتراف بأن القياسات في العلوم السلوكية والاجتماعية هي بطبيعتها عرضة للخطأ. وعندما يتم اشتقاق درجة جديدة (درجة الفارق) من خلال الجمع أو الطرح بين قياسين، فإن هذه الدرجة الجديدة ترث وتضخم أخطاء القياس العشوائية الموجودة في كل من القياس القبلي والبعدي. ولذلك، فإن الدقة في حساب وتقييم هذه الدرجة لا تتوقف فقط على مدى دقة الأدوات المستخدمة في القياسين (X1 و X2)، بل تعتمد أيضًا على العلاقة الارتباطية (Correlation) بينهما، وهي علاقة تلعب دورًا حاسمًا في تحديد موثوقية الدرجة المشتقة. وبالتالي، يتطلب التفسير السليم لدرجة الفارق ليس مجرد النظر إلى حجم التغير، بل تقييم السياق الإحصائي الكامل الذي تم فيه اشتقاق هذه الدرجة، بما في ذلك خصائص العينة وموثوقية المقاييس المستخدمة، لضمان أن التغير المرصود يعكس تأثيرًا منهجيًا وليس مجرد تقلبات عشوائية.

2. الصياغة الرياضية وأنماط الحساب

الصيغة الأساسية لدرجة الفارق (D) هي أبسط أشكال التحليل الكمي للتغير، حيث تُحسب كالآتي: D = X_post – X_pre، حيث X_post هي القيمة المقاسة بعد التدخل (أو في النقطة الزمنية الثانية)، و X_pre هي القيمة المقاسة قبل التدخل (أو في النقطة الزمنية الأولى). هذا الحساب ينتج ما يُعرف باسم “درجة الفارق الخام” (Raw Difference Score)، وهو النمط الأكثر شيوعًا واستخدامًا. وفي سياق البحث، يتم غالبًا حساب متوسط درجات الفارق لجميع أفراد المجموعة (Mean Difference Score) لمقارنة تأثير التدخل بين مجموعات مختلفة، مثل المجموعة التجريبية والمجموعة الضابطة، واستخدام اختبارات إحصائية مثل اختبار ت للعينات المترابطة أو اختبار ت للعينات المستقلة على هذه الفروق.

بالإضافة إلى الدرجة الخام، هناك أنماط حسابية أخرى تُستخدم لدرجات الفارق تبعًا للهدف المنهجي. على سبيل المثال، قد يستخدم الباحثون درجات الفارق الموحدة (Standardized Difference Scores)، والتي تتضمن تحويل الدرجات الخام إلى مقياس معياري، مثل تحويلها إلى درجات Z أو استخدام حجم التأثير (Effect Size) مثل مؤشر كوهين د (Cohen’s d)، لتمكين المقارنة بين دراسات مختلفة تستخدم مقاييس مختلفة. ويتم هذا التوحيد عن طريق قسمة متوسط درجة الفارق على الانحراف المعياري للقياس القبلي أو الانحراف المعياري المجمع. وفي بعض الأحيان، يتم استخدام درجات التغيير النسبية (Percentage Change Scores)، وهي مفيدة بشكل خاص عندما يكون التغير ذا دلالة أكبر عند النظر إليه كنسبة مئوية من القيمة الأولية، على الرغم من أن هذا النمط قد يزيد من مشاكل التوزيع والاعتدالية الإحصائية.

من الضروري التمييز بين درجة الفارق التي تمثل التغير الفردي، ومتوسط درجة الفارق الذي يمثل التغير على مستوى المجموعة. فعلى الرغم من أن متوسط درجة الفارق قد يكون صفرًا، إلا أن ذلك لا يعني بالضرورة عدم وجود تغيير؛ بل قد يشير إلى أن التغييرات الفردية كانت متعادلة في الاتجاه (زيادة لدى بعض الأفراد ونقصان لدى البعض الآخر). لذلك، تتطلب الصياغة الرياضية لدرجة الفارق في البحث الكمي النظر إلى كل من المتوسط (Mean) والتشتت (Variance). إن التشتت في درجات الفارق هو الذي يحدد مدى اتساق استجابات الأفراد للتدخل، حيث يشير التشتت الكبير إلى أن التدخل أثر على الأفراد بطرق مختلفة للغاية، مما يفتح الباب أمام تحليلات متعمقة تبحث عن المتغيرات المعدلة (Moderator Variables) التي تفسر هذا التباين في الاستجابة.

3. التطبيقات عبر التخصصات

تجد درجة الفارق تطبيقها الأوسع في العلوم التي تهتم بالتغير والنمو والتدخل. في مجال علم النفس التجريبي، تعتبر الأداة القياسية لتقييم فعالية العلاجات النفسية؛ على سبيل المثال، قياس انخفاض درجات الاكتئاب بعد برنامج علاجي معرفي سلوكي. هنا، يتم استخدام درجة الفارق لتحديد ما إذا كان الانخفاض الملحوظ في الأعراض (X2 أقل من X1) ذا دلالة إحصائية مقارنة بمجموعة ضابطة لم تتلق العلاج. ويُعد هذا الاستخدام حيويًا لأنه يوفر مؤشرًا مباشرًا لمدى استجابة المريض للبرنامج، على الرغم من ضرورة تحذير الباحثين من الاعتماد الكلي على هذه الدرجة دون الأخذ في الاعتبار القضايا الإحصائية المتعلقة بالموثوقية.

في حقل التعليم والتقييم الأكاديمي، تُستخدم درجات الفارق لقياس مكاسب التعلم (Learning Gains) لدى الطلاب. فإذا تم إجراء اختبار قبلي لمهارة معينة واختبار بعدي لها بعد تنفيذ منهج جديد، فإن درجة الفارق تمثل مقدار المعرفة أو المهارة المكتسبة. وتُستخدم هذه الدرجات لتحديد مدى فعالية المناهج الجديدة أو طرق التدريس المبتكرة. كما أنها ضرورية في الدراسات الطولية التي تهدف إلى تتبع النمو المعرفي أو الاجتماعي للأفراد على مدى فترات طويلة، حيث يتم قياس التغيرات في السلوكيات أو القدرات بين مراحل عمرية مختلفة. ومع ذلك، يجب توخي الحذر الشديد في هذا المجال، لأن مكاسب التعلم قد تكون مرتبطة بالدرجة الأولية للطالب، مما يعيد إلى الواجهة مشكلة الانحدار نحو المتوسط.

تمتد تطبيقات درجة الفارق لتشمل مجالات التجارب السريرية والبحوث الصحية. في دراسات الأدوية، تُستخدم درجة الفارق لتقييم التغير في المؤشرات الحيوية أو الأعراض المرضية (مثل ضغط الدم، أو مستويات الكوليسترول) قبل وبعد إعطاء دواء جديد. كما تستخدم في مجال الاقتصاد السلوكي لقياس التغير في المواقف أو النوايا الشرائية بعد حملات إعلانية معينة. وفي كل هذه التخصصات، توفر درجة الفارق طريقة سريعة وبديهية لتلخيص النتائج، ولكن يجب على الباحثين دائمًا إدراج تحليلات إحصائية أكثر تعقيدًا، مثل تحليل التغاير (ANCOVA)، لتأكيد أن التغير المرصود مستقل عن مستوى الأفراد الأوليين.

4. التحديات المنهجية الرئيسية

تواجه درجة الفارق انتقادات منهجية شديدة، أبرزها يتعلق بموثوقيتها وقابليتها للتأثر بأخطاء القياس. المشكلة الأساسية تكمن في أن موثوقية درجة الفارق (Reliability of the Difference Score) تكون دائمًا أقل من موثوقية أي من القياسين الأصليين (X1 أو X2)، ما لم يكن الارتباط بين X1 و X2 منخفضًا جدًا (وهو أمر نادر الحدوث في القياسات السلوكية). رياضياً، يتم حساب تباين درجة الفارق (Var(D)) من خلال جمع تباينات X1 و X2 وطرح ضعف التغاير بينهما. إذا كان الارتباط بين X1 و X2 مرتفعًا، فإن الجزء الأكبر من التباين في الدرجات الأصلية يتم إزالته، مما يترك وراءه تباينًا أقل للتغير الحقيقي وكمية أكبر نسبيًا من تباين الخطأ. هذا التضخيم لخطأ القياس يجعل من الصعب التمييز بين التغير الحقيقي والتغير العشوائي، مما يقلل من القوة الإحصائية للدراسة.

التحدي الأكثر خطورة والأكثر نقاشًا هو ظاهرة الانحدار نحو المتوسط (Regression toward the Mean). تحدث هذه الظاهرة عندما يتم اختيار المشاركين في الدراسة بناءً على درجاتهم المتطرفة في القياس القبلي (مثل اختيار الطلاب الأضعف أو المرضى الذين يعانون من أعراض حادة جدًا). في هذه الحالة، من المتوقع أن تقترب درجاتهم في القياس البعدي تلقائيًا من متوسط توزيع الدرجات، حتى بدون وجود أي تدخل فعال، وهذا يحدث ببساطة بسبب خطأ القياس العشوائي. على سبيل المثال، إذا سجل طالب درجة منخفضة جدًا في الاختبار القبلي بسبب عوامل عشوائية (مثل سوء الحظ أو التخمين الخاطئ)، فمن المرجح أن تكون درجته في الاختبار البعدي أعلى، حتى لو لم يتعلم شيئًا، مما يؤدي إلى درجة فارق موجبة كاذبة. إن عدم السيطرة على الانحدار نحو المتوسط يؤدي إلى تفسيرات خاطئة لفعالية التدخل، حيث يُعزى التغير الناتج عن الخطأ إلى تأثير البرنامج.

تُضاف إلى ذلك مشكلة القياس غير المتكافئ (Non-equivalent Measurement)، حيث قد لا تكون المقاييس المستخدمة في النقطة الزمنية الأولى والثانية متكافئة تمامًا، إما بسبب استخدام صيغ مختلفة للاختبار (في حالة الاختبارات المعرفية) أو بسبب تأثير الخبرة (Practice Effect)، حيث يتحسن أداء المشارك في القياس البعدي لمجرد اعتياده على أسلوب الاختبار. كما أن درجة الفارق تفشل في معالجة مسألة ما إذا كان التغير يتأثر بمستوى الانطلاق الأولي. ففي كثير من الظواهر السلوكية، قد تكون هناك ظاهرة “تأثير السقف” (Ceiling Effect) أو “تأثير الأرضية” (Floor Effect)، حيث لا يمكن للأفراد الذين بدؤوا بدرجات عالية جدًا أن يظهروا تحسنًا كبيرًا (تأثير السقف)، بينما يكون التغير الأكبر مقتصرًا على الأفراد الذين بدؤوا بدرجات منخفضة. هذا التفاعل بين المستوى الأولي والتغير اللاحق هو الذي أدى إلى تفضيل الأساليب الإحصائية الأكثر تطوراً والتي تعالج القياس القبلي كمتغير مساعد (Covariate) بدلاً من طرحه المباشر.

5. المقاربات البديلة لقياس التغير

نظرًا للانتقادات المنهجية الكبيرة الموجهة لدرجة الفارق الخام، وخاصة مشكلة الانحدار نحو المتوسط وانخفاض الموثوقية، يفضل العديد من الإحصائيين والمنهجيين استخدام مقاربات إحصائية بديلة أكثر تعقيدًا عند تحليل بيانات التصاميم القبلية البعدية. يُعد تحليل التغاير (ANCOVA) المقاربة الأكثر شيوعًا وتوصية في هذا السياق. في تحليل التغاير، يتم استخدام القياس القبلي (X1) كمتغير مساعد أو ضابط (Covariate)، بينما يتم استخدام القياس البعدي (X2) كمتغير تابع. هذا النهج يعمل على تعديل درجات القياس البعدي إحصائيًا بناءً على الدرجات القبلية، مما يضمن أن أي فروق ملحوظة بين المجموعات تُعزى فعليًا إلى تأثير التدخل بعد إزالة تأثير الفروق الأولية بين الأفراد.

بالإضافة إلى تحليل التغاير، هناك مفهوم درجات التغيير المتبقية (Residualized Change Scores). يتم اشتقاق هذه الدرجات عن طريق تحليل الانحدار، حيث يتم التنبؤ بالدرجة البعدية (X2) من الدرجة القبلية (X1). درجة التغيير المتبقية هي في الأساس الباقي (Residual) من معادلة الانحدار، وهي تمثل الجزء من التغير في X2 الذي لا يمكن تفسيره بواسطة X1. هذه الدرجات المتبقية تعتبر مؤشرًا نقيًا للتغير، حيث إنها خالية إحصائيًا من الارتباط الخطي بالدرجة الأولية. ومع ذلك، فإن استخدام هذه الدرجات يثير أيضًا نقاشات منهجية، حيث يجادل البعض بأنها تقيس التغير بشكل “متحيز” نحو المتوسط، على الرغم من أنها تتغلب بفعالية على مشكلة الانحدار نحو المتوسط بشكل أفضل من درجة الفارق الخام.

كما يمكن استخدام نمذجة المنحنى الكامن (Latent Curve Modeling) أو النماذج الخطية الهرمية (Hierarchical Linear Models – HLM) في الدراسات الطولية التي تتضمن أكثر من نقطتين زمنيتين. هذه النماذج المتقدمة لا تركز فقط على الفارق بين نقطتين، بل تحاول نمذجة مسار التغير (Trajectory of Change) عبر الزمن. وهي تسمح للباحثين بفصل التباين بين الأفراد (الاختلاف في نقطة البداية ومعدل النمو) عن التباين داخل الفرد (التغير بمرور الوقت)، مما يوفر تقديرًا أكثر دقة وموثوقية للتغير الحقيقي مقارنة بدرجة الفارق البسيطة. وبالتالي، بينما تبقى درجة الفارق أداة مفيدة للتوصيف الأولي للبيانات، فإن التفسير السببي والتحليل الدقيق يتطلب الانتقال إلى هذه الأساليب الإحصائية الأكثر تعقيدًا التي تفصل ببراعة بين التباين الحقيقي وخطأ القياس.

6. الجدل والانتقادات المنهجية

بدأ الجدل الأكاديمي حول صلاحية استخدام درجة الفارق في الستينيات والسبعينيات، ولا يزال مستمرًا حتى اليوم. كان أحد الأعمال المحورية التي وجهت انتقادًا لاذعًا هو مقالة كرونباخ وفيربي (Cronbach and Furby) عام 1970، والتي أشارت بوضوح إلى أن الدرجات التي تمثل الفارق بين قياسين (Difference Scores) نادرًا ما تكون موثوقة بما يكفي لتكون مؤشرًا ذا مغزى للتغيير الحقيقي. لقد خلص الباحثون إلى أن محاولة تفسير التغير على أساس الفروق الخام غالبًا ما تكون محفوفة بالمخاطر وتؤدي إلى استنتاجات خاطئة حول فعالية التدخلات، ما لم يتم اتخاذ تدابير إحصائية صارمة للتحكم في موثوقية القياس القبلي.

تركز الانتقادات بشكل خاص على سوء استخدام درجة الفارق في محاولة تفسير السببية. فالباحث الذي يعتمد فقط على اختبار ت لدرجات الفارق يفشل في معالجة مشكلة التفاعل المحتمل بين القياس القبلي والتأثير الملاحظ. أي أن درجة الفارق لا تخبرنا ما إذا كان التدخل قد أثر على الأفراد ذوي الدرجات المنخفضة بشكل مختلف عن الأفراد ذوي الدرجات المرتفعة. وبما أن درجة الفارق تميل إلى أن تكون غير موثوقة، فإنها تزيد من احتمال ارتكاب أخطاء من النوع الثاني (الفشل في رفض فرضية العدم الخاطئة)، مما يعني أن الباحث قد يفشل في اكتشاف تأثير حقيقي للتدخل بسبب ضعف موثوقية مقياس التغير المستخدم.

خلاصة الجدل المنهجي اليوم هي أن درجة الفارق الخام لا ينبغي أن تكون المؤشر الوحيد لتقييم التغير في التصاميم القبلية البعدية. فعلى الرغم من أنها قد تكون مقبولة إذا كان الهدف هو الوصف الإحصائي البسيط، إلا أنها غير كافية عندما يكون الهدف هو الاستدلال السببي. ويوصي الخبراء المنهجيون بتجنب استخدام الدرجات الخام المشتقة عند الإمكان، واستبدالها بتحليل التغاير (ANCOVA) أو النماذج الهرمية، لأن هذه الأساليب توفر تقديرات أكثر اتساقًا وخالية من التحيز لتأثير التدخل، حيث يتم فيها عزل تأثير المتغيرات المربكة (Confounding Variables)، وعلى رأسها المستوى الأولي للفرد، بشكل منهجي وفعال.