موثوقية الصيغ البديلة: دقة القياس النفسي بعيداً عن التحيز

مدرس الدكتور محمد لوتي

المحتويات:

الموثوقية بالصيغ البديلة (Alternate-Forms Reliability)

Primary Disciplinary Field(s): القياس النفسي، القياس التربوي، الإحصاء التطبيقي، منهجية البحث الاجتماعي

1. التعريف الجوهري والموقع النظري

تُعد الموثوقية بالصيغ البديلة، والتي يُشار إليها أحيانًا باسم موثوقية الأشكال المتكافئة أو الموثوقية المتوازية، منهجية إحصائية حاسمة ضمن إطار نظرية القياس الكلاسيكية (Classical Test Theory – CTT)، وتهدف إلى تقييم مدى اتساق أو استقرار نتائج أداة القياس عندما يتم تطبيق صيغتين مختلفتين ولكنهما متكافئتان من الاختبار على نفس المجموعة من الأفراد. ويُعتبر هذا النوع من الموثوقية بمثابة بديل متطور لـ موثوقية إعادة الاختبار، حيث يسعى إلى التغلب على مشكلة تأثير الذاكرة أو التمرس (Practice Effects) التي غالبًا ما تشوّه نتائج تكرار الاختبار ذاته. وبشكل أساسي، إذا كانت الصيغتان (أ) و (ب) متكافئتين حقًا، فإن أي اختلاف في الدرجات المتحصل عليها من نفس الفرد يجب أن يُعزى إلى أخطاء القياس العشوائية وليس إلى اختلاف جوهري في محتوى أو صعوبة الاختبار.

إن المفهوم الأساسي هنا يرتكز على تحديد ما إذا كانت الأدوات المختلفة المصممة لقياس نفس السمة الكامنة (Latent Trait) تنتج درجات متقاربة بشكل ثابت. ويعكس المعامل الناتج، الذي يُعرف باسم معامل الموثوقية بالصيغ البديلة، درجة الارتباط بين مجموعتي الدرجات. ويُعتبر هذا المعامل مؤشرًا مهمًا على قدرة الباحث على استبدال صيغة اختبار بأخرى دون المساس بالموثوقية العامة للقياس، مما يجعله ذا أهمية قصوى في المجالات التي تتطلب إجراء اختبارات متكررة أو متعددة، مثل التقييمات التعليمية الموحدة أو الاختبارات النفسية السريرية التي تُجرى على فترات زمنية متقاربة لتجنب إجهاد المشاركين أو التأثير على استجاباتهم.

في السياق النظري، تقع الموثوقية بالصيغ البديلة في نقطة التقاء بين الاستقرار الزمني والاتساق الداخلي. فهي تتطلب تصميمًا دقيقًا يضمن أن الصيغتين لا تختلفان إلا في صياغة البنود (الأسئلة)، بينما تظل السمات الإحصائية والنفسية الكامنة (مثل المتوسط، التباين، ومحتوى البنود) متطابقة بشكل منهجي. إن السعي لتحقيق التكافؤ التام هو ما يميز هذا النوع من الموثوقية، ويجعل عملية تطوير الأدوات المصاحبة له عملية مكلفة وتستهلك الكثير من الوقت والجهد، ولكنها ضرورية لضمان أعلى مستويات الدقة المنهجية في البحوث التطبيقية والتقييمات عالية المخاطر.

2. الأساس النظري للتكافؤ

لتكون صيغتان بديلتان (أ) و (ب) “متكافئتين” (أو متوازيتين) بالمعنى الدقيق الذي تتطلبه نظرية القياس، يجب أن تستوفيا مجموعة صارمة من الشروط الإحصائية والنفسية. أولاً، يجب أن يكون متوسط الدرجات التي يحصل عليها الأفراد في الصيغة (أ) مساويًا تمامًا لمتوسط الدرجات في الصيغة (ب)؛ أي أن الصيغتين لا يجب أن تكونا أسهل أو أصعب إحداهما من الأخرى. وثانياً، يجب أن يكون تباين الدرجات في الصيغة (أ) مساويًا لتباين الدرجات في الصيغة (ب). هذا يعني أن درجة انتشار الدرجات حول المتوسط يجب أن تكون متماثلة، مما يضمن أن الصيغتين تميزان بين الأفراد بنفس القدر من الفعالية الإحصائية.

بالإضافة إلى التساوي في المتوسط والتباين، يُعد الشرط الأهم والأكثر صعوبة للتحقيق هو أن يكون ارتباط كل صيغة بالدرجة الحقيقية (True Score) متساويًا. الدرجة الحقيقية هي القيمة النظرية للسمة المقاسة الخالية من أخطاء القياس. فإذا كانت الأدوات متكافئة، فإن معامل ارتباط الصيغة (أ) بالدرجة الحقيقية يجب أن يساوي معامل ارتباط الصيغة (ب) بالدرجة الحقيقية. وبشكل مباشر، يجب أن تقيس كلتا الصيغتين نفس السمة الكامنة بنفس الدقة. ويضمن هذا الشرط أن خطأ القياس المعياري (Standard Error of Measurement) متماثل لكلا الصيغتين، مما يعطي الباحث الثقة في أن الدرجات المستخلصة من أي منهما يمكن تبادلها دون تغيير دلالة النتائج.

إن صعوبة تلبية هذه الشروط الصارمة دفعت بعض علماء القياس إلى استخدام مفهوم “الأشكال القابلة للتبادل” (Tau Equivalent Forms) أو “الأشكال المتشابهة” (Essentially Tau Equivalent Forms)، وهي مفاهيم أقل صرامة تتطلب التكافؤ في الارتباط بالدرجة الحقيقية ولكنها تسمح ببعض الاختلافات الطفيفة في المتوسطات أو التباينات. ومع ذلك، تبقى الموثوقية بالصيغ البديلة في صيغتها الكلاسيكية هي المعيار الذهبي لتقييم الموثوقية عندما يكون الهدف هو إنشاء أدوات قابلة للتبادل بشكل كامل، وهي ضرورية لتقليل التهديدات الداخلية لصلاحية البحث (Internal Validity) التي تنشأ عن استخدام نفس الاختبار مرارًا وتكرارًا.

3. إجراءات تطبيق الموثوقية بالصيغ البديلة

تتطلب عملية حساب الموثوقية بالصيغ البديلة اتباع خطوات منهجية دقيقة تبدأ بالتصميم وتنتهي بالتحليل الإحصائي. تبدأ العملية بمرحلة بناء الاختبار، حيث يتم تطوير مجموعتين من البنود (الأسئلة) تسمى الصيغة (أ) والصيغة (ب). يجب أن تكون هاتان المجموعتان متطابقتين في الهيكل، والتنسيق، وعدد البنود، ونطاق صعوبة البنود، وتغطية المحتوى (Domain Coverage). على سبيل المثال، إذا كان الاختبار يقيس خمسة مجالات فرعية، يجب أن تحتوي كل صيغة على نفس العدد من الأسئلة لكل مجال فرعي لضمان التكافؤ في المحتوى المقاس.

تلي ذلك مرحلة التطبيق. يتم تطبيق الصيغتين على نفس المجموعة من الأفراد. يمكن تطبيق الصيغتين في نفس الجلسة (إذا كانت المدة قصيرة لتجنب الإجهاد)، أو في جلستين منفصلتين بفترة زمنية قصيرة تفصل بينهما (عادةً من يومين إلى أربعة أسابيع). إذا تم تطبيق الاختبارين بفارق زمني، فإن معامل الموثوقية الناتج لا يقيس فقط تكافؤ الأشكال، بل يدمج أيضًا عنصر الاستقرار الزمني للسمة المقاسة، ولهذا السبب يطلق عليه أحيانًا “معامل الاستقرار والتكافؤ”.

أما الخطوة الأخيرة فهي التحليل الإحصائي. بعد جمع درجات الأفراد على الصيغة (أ) ودرجاتهم على الصيغة (ب)، يتم حساب معامل الارتباط بين مجموعتي الدرجات. يُستخدم عادةً معامل ارتباط بيرسون (Pearson’s r) إذا كانت البيانات فاصلية أو نسبية. القيمة الناتجة هي معامل الموثوقية بالصيغ البديلة. وكلما اقتربت هذه القيمة من +1.00، زادت درجة التكافؤ بين الصيغتين، مما يدل على أن الأخطاء العشوائية للقياس صغيرة وأن الصيغتين يمكن تبادلهما بكفاءة عالية.

4. المزايا والتحديات المنهجية

توفر الموثوقية بالصيغ البديلة مزايا منهجية واضحة تجعلها الخيار المفضل في سيناريوهات قياس محددة، لعل أبرزها هو التخفيف الفعال من تأثيرات التذكر أو التمرس. فعند استخدام نفس الاختبار مرتين (كما في موثوقية إعادة الاختبار)، قد يتذكر المشاركون إجاباتهم السابقة، مما يؤدي إلى تضخيم مصطنع في معامل الموثوقية. وباستخدام صيغة مختلفة (حتى لو كانت متكافئة)، يتم تقليل هذا التهديد بشكل كبير، مما يوفر تقديرًا أنظف وأكثر واقعية للموثوقية الحقيقية للأداة. بالإضافة إلى ذلك، تتيح هذه المنهجية إجراء اختبارات سابقة ولاحقة موثوقة في التجارب التي تتطلب قياسًا متعددًا لتأثير تدخل معين.

ومع ذلك، تواجه هذه المنهجية تحديات منهجية كبيرة، أهمها صعوبة، بل واستحالة، تحقيق التكافؤ التام. فبناء صيغتين متوازيتين تمامًا يتطلب توازنًا دقيقًا بين آلاف المعلمات الإحصائية (الصعوبة، التمييز، التباين) لجميع البنود، وهو ما يتجاوز في كثير من الأحيان القدرات العملية والموارد المتاحة. غالبًا ما يتم تقييم تكافؤ الصيغ بشكل ذاتي أو عن طريق مقارنات إحصائية سطحية، مما قد يؤدي إلى بقاء اختلافات جوهرية بين الصيغتين. يُعرف هذا التحدي أحيانًا باسم “مفارقة الأشكال المتوازية”.

تحدٍ آخر يتعلق بالتكاليف والموارد. إن تطوير صيغتين كاملتين من الاختبار يتطلب مضاعفة الجهد في عملية صياغة البنود، واختبارها الأولي (Pilot Testing)، وتحليل البنود، والمراجعة. هذه العملية مكلفة وتستغرق وقتًا طويلاً، مما يجعلها خيارًا غير عملي للبحوث الصغيرة أو الدراسات التي تعتمد على موارد محدودة. ونتيجة لذلك، يميل الباحثون غالبًا إلى اللجوء إلى مقاييس موثوقية أبسط وأسرع، مثل ألفا كرونباخ (للاتساق الداخلي)، على الرغم من أن هذه المقاييس لا تعالج مشكلات التذكر والتمرس.

5. التحليل الإحصائي وتفسير المعامل

كما ذُكر سابقًا، يتمثل التحليل الإحصائي للموثوقية بالصيغ البديلة في حساب معامل الارتباط بين درجات الصيغة (أ) ودرجات الصيغة (ب) التي تم الحصول عليها من نفس العينة. ويُمثل معامل الارتباط الناتج (r) تقديرًا لموثوقية الاختبار. وبموجب نظرية القياس الكلاسيكية، يمثل هذا المعامل نسبة التباين الحقيقي (True Variance) إلى التباين الكلي الملاحظ (Observed Variance)، مما يعني أن قيمة المعامل تتراوح نظريًا بين 0.00 (غياب تام للموثوقية) و 1.00 (موثوقية مثالية أو تكافؤ تام).

تفسير هذا المعامل يجب أن يكون حذرًا ومدروسًا. فإذا كان معامل الموثوقية بالصيغ البديلة مرتفعًا (عادةً ما يُعتبر 0.80 فما فوق مقبولاً في القياس النفسي والتربوي)، فإنه يشير إلى أن الاختلافات بين درجات الأفراد في الصيغة (أ) والصيغة (ب) تعود بشكل كبير إلى الاختلافات الحقيقية في السمة المقاسة، وليس إلى الأخطاء العشوائية. ومع ذلك، إذا كانت قيمة المعامل منخفضة، فهذا يعني أن الصيغتين لا تقيسان السمة الكامنة بنفس الطريقة الموثوقة، وربما تكونان غير متكافئتين في المحتوى أو الصعوبة، أو أن هناك عوامل عشوائية أخرى (مثل البيئة أو الحالة المزاجية للمفحوص) أثرت على الأداء في إحدى الجلستين.

من المهم ملاحظة أن معامل الموثوقية بالصيغ البديلة، عندما يتم تطبيقه بفارق زمني، هو في الواقع تقدير متحفظ للموثوقية. هذا التحفظ نابع من حقيقة أنه يدمج مصدرين للخطأ في قياس واحد: الخطأ الناتج عن عدم التكافؤ التام بين البنود، والخطأ الناتج عن عدم استقرار السمة المقاسة عبر الزمن (بافتراض أن السمة قد تغيرت قليلاً بين التطبيقين). لذلك، غالبًا ما تكون قيم هذا المعامل أقل بقليل من قيم موثوقية الاتساق الداخلي (مثل ألفا كرونباخ) لنفس الاختبار، ولكنه يوفر رؤية أكثر شمولاً لمدى قابلية الأداة للاستخدام المتكرر والتبادل.

6. الانتقادات والقيود العملية

تتعرض منهجية الموثوقية بالصيغ البديلة لعدد من الانتقادات الجوهرية التي تحد من استخدامها الواسع. يتمثل النقد الرئيسي في أن المتطلبات النظرية للتكافؤ التام (التساوي في المتوسط، التباين، والارتباط بالدرجة الحقيقية) نادراً ما يتم تلبيتها بالكامل في الواقع العملي. ويشير النقاد إلى أن ما يتم تحقيقه في الغالب هو “أشكال متشابهة” (Similar Forms) وليست “أشكال متوازية” (Parallel Forms) بالمعنى الدقيق. وإذا لم تكن الأشكال متكافئة بشكل حقيقي، فإن معامل الارتباط الناتج يقلل من تقدير الموثوقية الحقيقية للأداة، مما يؤدي إلى استنتاجات خاطئة حول جودة القياس.

قيد عملي آخر هو التكلفة والوقت. إن تطوير بنك بنود كافٍ لإنشاء صيغتين متكافئتين يتطلب استثمارًا كبيرًا في الموارد. في العديد من البيئات البحثية، يكون هذا الاستثمار غير مبرر، خاصة عندما تكون هناك بدائل إحصائية أسرع، مثل تحليل الاتساق الداخلي، والذي يمكن أن يتم إجراؤه باستخدام بيانات تطبيق واحد فقط. ولذلك، غالبًا ما تُحصر هذه المنهجية في المؤسسات الكبيرة التي تقوم بتطوير اختبارات موحدة عالية المخاطر (High-Stakes Tests)، مثل اختبارات القبول الجامعي أو التراخيص المهنية.

كما أن هناك قيودًا تتعلق بالسمات المقاسة نفسها. إذا كانت السمة المقاسة متقلبة بطبيعتها أو حساسة للتغيير القصير الأجل (مثل الحالة المزاجية أو الانتباه)، فإن الفصل الزمني بين تطبيق الصيغتين، حتى لو كان قصيرًا، قد يسمح بحدوث تغير حقيقي في السمة. في هذه الحالة، يصبح من المستحيل التمييز بين الخطأ الناتج عن عدم التكافؤ بين الصيغتين والخطأ الناتج عن التغير الحقيقي في السمة لدى المفحوص، مما يربك تفسير معامل الموثوقية الناتج ويقلل من فائدته التشخيصية.