black retractable pen on white printer paper

المقومات الأساسية لنظرية القياس التقليدية

ما المقومات الأساسية لنظرية القياس التقليدية  .

هنالك  لثلاثة إنجازات بارزة :

أولاً : الاعتراف بوجود أخطاء في القياس .

ثانياً : إدراك الأخطاء كمتغيرات أو أخطاء عشوائية .

ثالثاً : إدراك الارتباطات بين المتغيرات , وتأشيرها (Traub , 1997:8) .

ان النظرية التقليدية (Classical Test Theory) هي واحدة من نظريات القياس التي تستخدم بغرض تحديد العوامل التي تؤثر على الدرجة التي يحصل عليها الفرد في الاختبار . وترتكز هذه النظرية على مفهوم الدرجة الحقيقة والدرجة الخطأ , والذي يفترض أنه لو أمكن أن نجرى الاختبار عدة مرات على الفرد بعناصر جديدة وتحت ظروف مختلفة , فإننا نحصل على درجات ملحوظة مختلفة متوسطها هو أقرب تقدير غير متحيز لقدرة الفرد أو درجته الحقيقية (Schumacker , 1998:4) .

انموذج الدرجة الحقيقية التقليدي Classical Ture Scour Model :

هيمنة نظرية الاختبار الكلاسيكية CTT على ميدان الاختبارات المعيارية مستندة الى افتراض أن اخذ اختبار له درجة ملاحظة ودرجة حقيقية . وعادة ما ينظر الى الدرجة الملاحظة للفرد الممتحن كتقدير للدرجات الحقيقة لهذا الفرد (زائد / ناقص) بعض أخطاء القياس غير القابلة للملاحظة (Wiberg , 2004:1) .

وان النظرية التقليدية (معروف كذلك بنظرية الدرجة الحقيقية التقليدية) وهو أنموذج بسيط يصف كيف ان أخطاء القياس يمكن أن تؤثر على الدرجة الملاحظة (Erguven , 2014:24) . حيث ترى بان الدرجة الملاحظة مزيج من الدرجة الحقيقية والخطأ . والدرجة الحقيقة هي التي تعكس ما يعرفه الفرد الممتحن في الواقع , ولكن ملوثة دائماً من قبل مصادر مختلفة من الأخطاء (Adedoynil , et al , 2008:83) . وهناك قضية مهمة في هذا الأنموذج ترجع لمفهوم معامل الارتباط الذي جاء به عالم النفس جارلس سبيرمان Charles E. Spaerman . فبمحاولات متكررة لتفسير القياسات المعرضة للخطأ والقيم الحقيقية للسمة طرح سبيرمان أساس أنموذج الدرجة الحقيقية التقليدي ,  وأعاد العديد من المؤلفين أمثال : جيلفورد , وجوليكسين , وماغنسون , ولورد ونوفيك صياغة هذا الأنموذج وتوضيحه (كروكر , والجينا , 2009: 148) .

وبهذا فأن نظرية الاختبار الأنموذج الأصلي لمشكلة فريدة في البحث النفسي التي تتطلب  حلا إحصائياً . وان دراسة درجة الاختبار من وجهة نظر إحصائية , مرغوب جداً لاشتقاق بيان إضافي لدقتها . وفي المنهج الأساسي لنظرية الدرجة الحقيقية , يعتبر درجة الاختبار (X) مجموع الدرجة الحقيقية (T) و (E) الذي يمثل الخطأ العشوائي (Jones , & Thissen , 2007 :10) . ويعبر عن هذا الأنموذج بالصيغة الآتية :

X= T + E …………………………………………………. (1)

      حيث تمثل :  X= الدرجة الملاحظة , T  = الدرجة الحقيقية , E = عنصر الخطأ العشوائي  (كروكر , والجينا , 2009 : 149) . ولا يمكن   ملاحظة الدرجة الحقيقية بسهولة , وبدلا من ذلك , ينبغي ان تقدر الدرجة الحقيقية من استجابات الفرد على مجموعة من فقرات الاختبار (Erguven , 2014:24) . بمعنى ان الدرجة التي يحصل عليها الفرد في مقياس أو اختبار معين تسمى بالدرجة الملاحظة (Obtained Score) , غير ان هذه الدرجة تكون في كثير من الأحيان مشوبة بأخطاء القياس التي اذا أمكن تحديد مقدارها فإننا نحصل على درجة الخطأ (Error Score) , وإذا طرحنا درجة الخطأ من الدرجة الملاحظة فأننا نحصل على درجة الفرد خالية من الأخطاء العشوائية , وهذه تسمى الدرجة الحقيقية True Score (علام , 2000: 121) .

ما الافتراضات التي حددها هامبلتون وجونس Hambleton , & Jones , 1993

الافتراضات التي يستند إليها أنموذج الاختبار التقليدي وهي :

  • الدرجة الحقيقية ودرجة الخطأ غير مترابطة .
  • متوسط درجات الخطأ لمجتمع الممتحنين يساوي صفراً .
  • درجات الخطأ مع اختبار (متوازي) غير مترابطة (Hambleton , & Jones , 1993:40 ) .

نماذج القياس التقليدية Models of Classical Measurement  :

      يحدد ساميجيما Samejima , 1997 الهدف الرئيس للقياس النفسي بوضع النمذجة الرياضية للسلوك البشري  (Erguven , 2014:24) . ويمكن للنظرية أو أنموذج اختبار جيد أيضا أن توفر إطاراً مرجعياً للقيام بتصميم عمل اختبار أو حل المشاكل العملية الأخرى . ويمكن لأنموذج اختبار جيد تحديد العلاقات الدقيقة بين فقرات الاختبار ودرجات القدرة لكي يمكن إجراء اختبار دقيق لإنتاج توزيعات لدرجات الاختبار والأخطاء المرغوبة بالمقدار المسموح به  (Hambleton , and Jones , 1993:39,40  ) .

ما الافتراضات الأساسية التي تعتمد عليها النماذج  القياس التقليدية

  • التوزيع الاعتدالي Normal Distribution للدرجات على متصل القدرة يقيسها الاختبار . فعدد الأفراد الواقع في مستوى معين من القدرة , يناظر العدد المتوقع من دالة الكثافة الاحتمالية .
  • تجزئة الدرجة الخام الملاحظة الى مكونين (الدرجة الحقيقية , ودرجة الخطأ) يمكن جمعهما Additive Components . وأن الارتباط بين مجموعتين من الدرجات الخام , المستمدتين من اختبارين متوازيين , أو ثبات الاختبارات في مجتمع معين , يساوي تباين الدرجات الحقيقية الى تباين الدرجات الخام , وأن الزيادة أو النقص  في طول الاختبار يؤثر في ثبات درجاته .
  • الاستقلال الخطي بمعنى ينبغي ان يكون الخطأ ثابتاً على مدى الدرجة الحقيقية والمقدرة من درجة ما ملاحظة . وان يكون انحدار الدرجة الحقيقية على الدرجة الخام خطياً (علام , 2005: 48, 49). ويندرج تحت نظرية القياس التقليدية أنموذجان , وكلا الأنموذجين تهتم بالأخطاء العشوائية للقياس (علام , 2000: 139):

أنموذج معاينة السلوك Domain Sampling  :

تشير النظرية التقليدية الى مفهوم النماذج المتوازية من الاختبارات التي تقيس سمة معينة وتحدد مجموعة من الشروط لتحقق افتراض التوازي . كما تشير النظرية الى مفهوم الاختبارات المتكافئة والتي تتحرر من بعض شروط الاختبارات المتوازية نتيجة لصعوبة توفر تلك الشروط في الواقع العملي . كما تعتبر كل من الدرجة الحقيقية والأخطاء الخاصة بها درجات نظرية من الصعب الوصول اليها , وإنما يتم تقديرها من الدرجة الملاحظة (محاسنة , 2013: 108).

ويعد هذا الأنموذج من النماذج التقليدية شائعة الاستخدام في بناء الاختبارات والمقاييس النفسية والتربوية . ويفترض  هذا الأنموذج إن هناك نطاقاً شاملاً من الفقرات Item Universe  يمكن ان تنتقى منه عينات عشوائية من الفقرات يشتمل عليها الاختيار أو المقياس . ويهدف هذا الأنموذج لتقدير درجة النطاق الشامل , وكذلك تقييم إمكانية تعميم هذا التقدير باستخدام منهجيات تحليل التباين , والدرجة التي يمكن ان يحصل عليها الفرد في النطاق الشامل للفقرات تسمى الدرجة الحقيقية (علام , 2005: 49) .

 أنموذج الاختبارات المتوازية Parallel Tests Model :

تعرف النماذج المتوازية بانها الاختبارات التي تقيس نفس المحتوى وتكون للأفراد الممتحنين نفس الدرجة الحقيقية , وحيث حجم أخطاء القياس عبر النماذج متساوية . وبطبيعة الحال , ان تعريف النماذج المتوازية يشير ضمنا الى افتراض بأنه يمكن بناء أشكال أو نماذج متوازية للاختبار  (Hambleton , and Jones , 1993: 40  ) .

ويهتم هذا الأنموذج بتقدير النطاق السلوكي بتقدير ثابت درجات الاختبارات عن طريق ايجاد الارتباط بين احد الاختبارات وعدد آخر من الاختبارات التي تشتمل على فقرات مستمدة من النطاق السلوكي نفسه . ولكن هذا غير واقعي إذ يقتصر تقدير الثبات على الارتباط بين درجات اختبارين فقط ويعد هذا الارتباط متوسط لعدد غير معلوم من الارتباطات , وتقديراً دقيقاً لثبات درجات أي منهما , وهذا بلاشك موضع تساؤل . لذلك إن هذا الأنموذج يفترض التوازي الفعلي للاختبارين . وعلى الرغم من الاختلافات في  فرضيات كل من الأنموذجين , إلا انهما يؤديان الى نتائج متماثلة فيما يتعلق بأخطاء القياس (علام , 2005: 49 , 50) .

تفسير الدرجة وفقاً لنظرية القياس التقليدية

Interpretation of the Score , According to Classical Test Theory :

يرتبط المعنى الذي يعطى للدرجة التي يحصل عليها الفرد نتيجة تقدمه لاختبار ما , ارتباطا وثيقا بالنظرية المستخدمة في تفسيرها , فالتفسير الذي يعطى للدرجة وفق النظرية التقليدية يختلف عن التفسير الذي يعطى لها وفق النظرية الحديثة . وفي كلا النظريتين تتم المقارنة من خلال مظهرين للدرجة هما :1 –  المعيار الذي بموجبه تتم عملية المقارنة . 2- الخصائص المطلوبة توافرها في الدرجة التي يتم الاعتماد عليها في عملية المقارنة .

فنظرية القياس التقليدي تتعامل مع التوزيع للمجموعة التي تتقدم للاختبار , ويتم فيها وصف تحصل الفرد من خلال موقعه في هذا التوزيع (التقي , 2013 : 58) . ولذلك فأن المعيار الذي تعتمده النظرية هو المجموعة التي ينتمي اليها الفرد . وفي النظرية التقليدية في القياس لا يمكننا معرفة ما تدل عليه الدرجة بدون معرفة شكل التوزيع الذي جاءت منه هذه الدرجة . ولتسهيل هذه المقارنة يتم تحول هذه الدرجة خطيا , الى درجة معيارية تدل على موقعها النسبي للتوزيع الذي ترتبط فيه , والتي لها أكثر من معنى مباشر , ولذلك كثيراً ما يتم الاعتراض على معنى مرجعية المعيار , والذي مفاده بأنه ليس للدرجات معنى لما يمكن ان يقوم بها الفرد فعلاً (Embretson , 1996:346 ) .

الثبات في النظرية التقليدية The Reliability in Classical Test Theory  

ان الهدف الرئيس لنظرية القياس التقليدية هو تقدير ثبات الدرجات الملاحظة لإختبار معين . وفي حال ان الاختبار طبق على عينة من الفقرات , وفي وقت معينة , وفي شروط ثابتة , يعطي هذا الاختبار درجة ملاحظة للممتحن , وتحت كل الشروط المحتملة في الاوقات المختلفة , وباستعمال كل الفقرات المماثلة المحتملة , فإنه سيكون متوسط كل هذه الدرجات الملاحظة التقدير الأكثر عدالة لقدرة الفرد . وهكذا , يعرف متوسط الدرجات كدرجة حقيقية , وغالباً ما تختلف الدرجة الملاحظة عن الدرجة الحقيقية في أي تطبيق لمرة واحدة لإختبار ما. وهذا الاختلاف ما . وهذا الاختلاف يسمى بدرجة خطأ عشوائية (Erguven , 2014:24).

ان قضية مهمة في نظرية الدرجة الحقيقية ترجع لمفهوم معامل الارتباط الذي جاء به عالم النفس جارلس سبيرمان Charles E. Spaerman , فمنذ عام 1904 وحتى عام 1913 قدم سبيرمان دلائل منطقية ورياضية على أن درجات الاختبار عبارة عن قياسات معرضة لأخطاء الإنسان , وعلى هذا فإن الارتباط بين درجات الاختبار المعرضة للخطأ يكون اقل من الارتباط بين القيم الحقيقية للسمة المقيسة (كروكر , والجينا , 2009: 148) . اذ يستخدم مفهوم الثبات بمعناه الواسع ليدل على مدى اعتماد الفروق الفردية في درجات الاختبار على أخطاء الصدفة المتضمنة في القياس (والتي تدل على ضعف الثبات) أو على الاختلافات الحقيقية في السمة أو الخاصية النفسية المستهدفة (أبو حطب , وآخران , 2008 : 136) .

وعموماً يمكن ان ينظر الى قضية الثبات في النظرية التقليدية من خلال العلاقة القائمة بين الثبات والدرجة الحقيقية , ودليل أو مؤشر الثبات :

العلاقة بين الثبات والدرجة الحقيقية : يستخدم الثبات في تقييم الاختبارات عن طريق تقدير الدرجات الحقيقية Ture Score المناظرة للدرجات الخام (الملاحظة) وتقدير خطأ القياس فضلاً

عن تحديد فترات الثقة . وان الانحراف المعياري للأخطاء (E) عبارة عن (عدم) الدقة , أو الخطأ المعياري لدرجة الاختبار . ويمكن تقدير الخطأ المعياري باستخدام  تقدير ثبات الدرجة (X) , حيث ان الثبات هي علاقة تربيعية بين الدرجات الملاحظة و الدرجات الحقيقية (Jones , & Thissen , 2007 :10) . ويتم التعبير عن ثبات الاختبار كنسبة بين درجة التباين الحقيقي درجة التباين الملاحظة (Adedoynil , et al , 2008:83).

ويمكن التعبير عن أنواع التباين بالمعادلة ( التباين الكلي = التباين الحقيقي – تباين الخطأ ) . ويستنتج من هذه المعادلة انه اذا زاد تباين الخطأ قل التباين الحقيقي ويؤدي ذلك تذبذب الاختبار فيما يقيس وعدم اتساقه أو ثباته , والعكس صحيح , بمعنى اذا زاد التباين الحقيقي يقل تباين الخطأ مؤدياً الى المزيد من استقرار الاختبار وثباته (أبو حطب , وآخران , 2008: 136) .

دليل الثبات Reliability Index : أو مؤشر الثبات , حيث يسمى معامل الارتباط عن درجة العلاقة بين الدرجات الحقيقية والملاحظة بـ(دليل الثبات) . ويمكن التعبير عن دليل الثبات بأنه نسبة الانحراف المعياري للدرجات الحقيقية الى الانحراف المعياري لدرجات الخطأ . ويبدو ان هذا التطبيق له قيمة عملية قليلة لأنه لا يمكن الحصول على الدرجات الحقيقية مباشرة(كروكر , والجينا , 2009: 157) .

ان التعريف المقبول والمتعارف عليه للثبات , هو مربع الارتباط بين الدرجات الملاحظة والدرجات الحقيقية p2(X,T) . وهناك تعبيرات أخرى للثبات كما في هذه المعادلة :

p2(X,T)= ρ (X , X`) =  =  ………………(2)

      وان التعبيرات الثلاثة الاخيرة تشتق من خلال افتراض ان مجتمع الأفراد كبير بشكل غير محدد : (أ) وان الاختبارين متوازيين (X , X` ) في الخصائص القياسية , (ب) التباين بين أخطاء الأشكال المتوازية تساوي (0) . و (ج) التباين بين الدرجات الحقيقية ودرجات الخطأ تساوي (0) , وان العديد من التقديرات التقليدية للثبات مدفوعة من التعبير (X , X` )ρ للثبات (Brennan , 2011:4) .

ويمكن تعريف معامل الثبات بأنه النسبة بين تباين الدرجات الحقيقية وتباين الدرجات و الدرجات الملاحظة , أي ان معامل الثبات = (تباين للدرجات الحقيقية Tϭ/ تباين الدرجات الملاحظة Xϭ). وهذا يعني ان معامل الثبات هو مدى ما تعكسه الفروق بين الدرجات الملاحظة على الفروق في الدرجات الحقيقية , أو مدى إعزاء تباين الدرجات الملاحظة الى تباين الدرجات الحقيقية (علام , 2006: 92) . ويمكن اعتبار الدرجة الملاحظة بديلا عن الدرجة الحقيقية , في حال ان يكون الثبات عالي بما فيه الكفاية . ويعتمد اتساق القياس على ثبات الاختبار المبني . والاختبار الثبات , يعطي تقريباً نفس النتائج في مختلف الظروف والحالات , بما في ذلك المقيمون وبيئات الاختبار المختلفة (Erguven , 2014:24). ويقترح الباحث شكل (4) لتوضيح العلاقة بين الثبات وتباين الدرجات .

مراجعة نقدية لنظرية القياس التقليدية

وفقا لهامبليتون وجونز Hambleton and Jones , 1993 , ان اهم مزايا نظرية الاختبار التقليدية CTT هي

  • ان افتراضاتها النظرية ضعيفة نسبياً , وقد اتسمت بيسرها وسهولة تطابقها مع بيانات الاختبارات الفعلية والتي تعل من السهل تطبيق النظرية التقليدية في العديد من حالات الاختبار (على الرغم من أنه نذكر أن ليس كل النماذج في إطار هذه النظرية هي ضعيفة . فنماذج مثل أنموذج الاختبار ذي الحدين , والتي تقوم على افتراضات مقيدة الى حد ما عن توزيع درجات خطأ , تعتبر نماذج قوية) . وبينما أثبتت النماذج التقليدية بأنها مفيدة جداً ولها سجل حافل في تطوير الاختبارات , إلا أن لها العديد من القيود الهامة . حيث ان كل من معالم الأفراد (أي , الدرجات الحقيقية) , ومعالم الفقرات (أي , صعوبة وتمييز الفقرات) , على حد سواء تابعة للاختبار وللعينة , وان هذه التبعية تحد من فائدة إحصائيات الفرد والفقرة في إجراءات تطوير الاختبارات وتعقيد أي تحليلات (Hambleton , & Jones , 1993:40 ) .
  • ان أنموذج نظرية الاختبار التقليدية , يفتقر إلى معلومات بشأن كيف يتوقع الممتحن الأداء على فقرة معينة , فأنه لا يمكن استيعاب الاختبارات التي تستهدف مستوى كفاءة الممتحن , لأن المؤشرات لمعلم الفقرة تعتمد على العينة , إلا أنها تفتقر الثبات لمعالم الفقرة عبر مجموعات الممتحنين (Adedoynil , et al , 2008:84) . إذ , ان هذه النظرية لا تقدم التفسير النفسي الذي يوضح كيف ان الفرد يحاول الإجابة عن إحدى فقرات الاختبار , وعلى الرغم من أن هذا التفسير يعد ضرورياً ولازماً إذا أردنا التنبؤ بخصائص الدرجات المستمدة من مجتمع معين أو مجتمعات مختلفة من الأفراد , أو إذا أردنا تصميم اختبارات تتميز بخصائص سيكومترية معينة تناسب مجتمعاً من الأفراد (علام , 1985 : 102) . فضلاً عن ذلك , أن تكوين فقرات الاختبار ومعناها تتغير بتغير عامل الزمن , أي بمضي الزمن بالنسبة لعينة الأفراد الذين أعد لهم الاختبار , فالظروف البيئية تتغير , والظروف الإختبارية ليست دائماً مقننة كما أن حذف أو تغيير أي مفردة من مفردات الأختبار يؤدي الى تغيير في درجات الأفراد , وهذا التغيير يصعب التنبؤ به (محاسنة , 2013 : 99) .
  • ان الدرجة الحقيقية ليست خاصية مطلقة للأفراد المختبرين لأنها تعتمد على محتوى الاختبار . فإذا كان هناك متقدمين للاختبار ذوي مستويات مختلفة للقدرة , فمن شأن ان سهولة الاختبار أو صعوبته يؤدي الى تقديرات او درجات مختلفة .
  • وثمة انتقاد آخر , هو أن صعوبة الفقرات يمكن أن تختلف تبعاً لعينة الأفراد المختبرين باختبار معين . وبالتالي , صعوبة المقارنة بين نتائج هؤلاء الأفراد في الاختبارات المختلفة . وأخيراً , هناك حاجة الى تقنيات ملائمة لتصحيح أخطاء القياس   وأما بالنسبة للافتراض , (أن الدرجات التي تمثل السمة أو القدرة المقاسة دالة خطية مطردة). بمعنى انه كلما زادت درجة الفرد على الاختبار دل ذلك على زيادة مقدار السمة أو القدرة لديه , فهذا موضع شك ولا يكون هذا صحيحا في كثير من الحالات , إذ أن بعض الأفراد ذوي القدرات المرتفعة يحصلون أحياناً على درجات منخفضة في الاختبارات وقد يحدث العكس أحياناً بالنسبة للأفراد ذوي القدرات المنخفضة (علام , 2000: 205) .
x