التحليل الاحصائي لفقرات الاختبار
المحتويات:
التعريف الأساسي للتحليل الإحصائي لفقرات الاختبار ومفهومه
يمثل الاختبار أداة محورية في عمليات القياس والتقويم التربوي والنفسي، فهو الوسيلة التي نعتمد عليها لجمع بيانات كمية أو كيفية حول سمات وقدرات الأفراد. سواء كان الهدف هو قياس التحصيل الدراسي، أو تقييم القدرات العقلية، أو تشخيص جوانب الشخصية، فإن فعالية الاختبار وكفاءته تعتمد بشكل كبير على جودة مكوناته الأساسية: الفقرات (Items) أو الأسئلة. إن بناء اختبار جيد لا يتوقف عند صياغة أسئلة تبدو مناسبة ظاهرياً، بل يمتد ليشمل تحليلاً دقيقاً ومنهجياً لأداء كل فقرة على حدة بعد تطبيق الاختبار على عينة من المفحوصين. هذا التحليل، المعروف بـ “التحليل الإحصائي لفقرات الاختبار” (Item Analysis)، يعد بمثابة المجهر الذي يكشف لنا عن خصائص كل فقرة، ومدى مساهمتها في تحقيق أهداف الاختبار، وما إذا كانت تعمل كما هو متوقع منها.
إن عملية تحليل الفقرات ليست مجرد إجراء روتيني، بل هي عملية تشخيصية حيوية تزود معد الاختبار بمعلومات قيمة حول نقاط القوة والضعف في أداته. فمن خلالها، يمكننا التعرف على الفقرات السهلة جداً أو الصعبة جداً، والفقرات التي تميز بفعالية بين الطلاب ذوي القدرة العالية والمنخفضة، والفقرات التي قد تكون معيبة أو مضللة بسبب مشكلات في الصياغة أو في بدائل الإجابة (المشتتات). وكما يشير إيبل وفريسبي (Ebel & Frisbie, 1991)، فإن “جودة الاختبار ككل لا يمكن أن تتجاوز جودة الفقرات التي يتكون منها”. لذلك، يعد فهم وتطبيق مبادئ تحليل الفقرات أمراً لا غنى عنه لأي ممارس في مجال القياس والتقويم يسعى إلى بناء أدوات قياس دقيقة وموثوقة وعادلة. يهدف هذا المدخل إلى تقديم عرض شامل ومفصل للمفاهيم والأساليب الإحصائية المستخدمة في تحليل فقرات الاختبار، مع التركيز بشكل خاص على المؤشرات المستمدة من النظرية الكلاسيكية في القياس (Classical Test Theory – CTT).
السياق التاريخي وتطور النظرية الكلاسيكية في القياس
تعود جذور التحليل الإحصائي لفقرات الاختبار إلى بدايات القرن العشرين، مع التطور المتزامن لـ علم القياس النفسي والتقويم التربوي. مع تزايد استخدام الاختبارات المقننة في التعليم وعلم النفس، برزت الحاجة إلى منهجيات علمية لتقييم جودة هذه الاختبارات ومكوناتها. كانت الأساليب الأولية لتحليل الفقرات بسيطة، تركز على حساب نسب الإجابات الصحيحة والخاطئة، ولكن مع مرور الوقت، تطورت هذه الأساليب لتصبح أكثر تعقيداً ودقة. أحد أبرز الإسهامات في هذا المجال جاء من توماس إل. كيلي (Truman Lee Kelley) في عام 1939، الذي اقترح استخدام المجموعتين المتطرفتين (العليا والدنيا) لتقييم قدرة الفقرة على التمييز، وهي الطريقة التي لا تزال تستخدم في مؤشر التمييز البسيط.
تُعد النظرية الكلاسيكية في القياس (CTT) الإطار النظري الأقدم والأكثر انتشاراً الذي يوفر الأساس لهذه المؤشرات التقليدية لتحليل الفقرات. نشأت CTT في أوائل القرن العشرين، وتحديداً في أعمال سبيرمان (Spearman) في عام 1904، ثم تطورت لاحقاً على يد ثورندايك (Thorndike)، جوليكسن (Gulliksen)، وآخرين. تفترض هذه النظرية أن الدرجة الملاحظة للفرد في الاختبار تتكون من درجته الحقيقية (True Score) وخطأ القياس (Measurement Error). ضمن هذا الإطار، يتم تقييم الفقرات بناءً على مدى مساهمتها في زيادة دقة الدرجة الحقيقية وتقليل خطأ القياس، وذلك من خلال مؤشرات مثل معامل الصعوبة ومعامل التمييز. وقد لعبت هذه النظرية دوراً حاسماً في تطوير الاختبارات المقننة وتحسين جودتها على مدى عقود طويلة، ولا تزال تشكل حجر الزاوية في ممارسات القياس اليومية.
أهمية التحليل الإحصائي لفقرات الاختبار وتأثيره
قبل الغوص في تفاصيل الأساليب الإحصائية، من الضروري التأكيد على الأسباب الجوهرية التي تجعل من تحليل فقرات الاختبار خطوة حاسمة في دورة حياة تطوير أي أداة قياس. قد يتساءل البعض: لماذا لا نكتفي بالحكم المبدئي للمختصين على جودة الفقرات؟ الإجابة تكمن في أن الحكم الذاتي، رغم أهميته في المراحل الأولى للصياغة والمراجعة، يظل قاصراً عن التنبؤ الدقيق بكيفية أداء الفقرة فعلياً عند تطبيقها على عينة من الأفراد المستهدفين بالقياس. فما يبدو واضحاً ومباشراً لواضع الاختبار قد يكون غامضاً أو مضللاً للمفحوص، وما يُعتقد أنه متوسط الصعوبة قد يتضح أنه سهل جداً أو صعب للغاية في الواقع. هنا يأتي دور التحليل الإحصائي القائم على بيانات الأداء الفعلية ليقدم صورة موضوعية وملموسة عن خصائص كل فقرة. تتجلى أهمية تحليل الفقرات في عدة جوانب رئيسية، يمكن تلخيصها فيما يلي:
تحسين جودة الاختبار الكلية: يعتبر الهدف الأساسي لتحليل الفقرات هو تحسين الخصائص السيكومترية للاختبار ككل، وتحديداً الصدق (Validity) والثبات (Reliability). الفقرات الجيدة هي تلك التي تقيس ما يفترض أن تقيسه (تساهم في صدق المحتوى والصدق البنائي)، وتفعل ذلك باتساق (تساهم في ثبات الاختبار). من خلال تحديد وإزالة أو تعديل الفقرات الضعيفة أو المعيبة – كتلك التي لا تميز بين مستويات الأداء المختلفة، أو التي تحتوي على مشتتات غير فعالة، أو التي تقيس شيئاً مختلفاً عن بقية الاختبار – يمكن رفع مستوى ثبات الاختبار وصدقه بشكل ملحوظ (Crocker & Algina, 1986). ببساطة، الاختبار المكون من فقرات قوية إحصائياً هو اختبار أكثر موثوقية وصلاحية في قياس السمة أو القدرة المستهدفة.
تحديد الفقرات المعيبة أو التي تحتاج إلى مراجعة: يكشف تحليل الفقرات عن المشكلات الكامنة في صياغة السؤال نفسه أو في بدائل الإجابة. على سبيل المثال: الفقرات شديدة السهولة أو الصعوبة قد لا تكون مفيدة في التمييز بين المفحوصين في معظم الاختبارات معيارية المرجع. الفقرات ذات التمييز المنخفض أو السلبي تشير إلى أن الفقرة لا تفرق بين ذوي الأداء المرتفع والمنخفض على الاختبار ككل، أو الأسوأ من ذلك، أن ذوي الأداء المنخفض يجيبون عليها بشكل صحيح أكثر من ذوي الأداء المرتفع، مما يشير إلى مشكلة جدية في الفقرة (مثل خطأ في مفتاح الإجابة أو صياغة مضللة). المشتتات غير الفعالة، وهي البدائل الخاطئة التي لا يختارها أحد، أو التي يختارها الطلاب المتميزون بنسبة أعلى من الطلاب الأقل تميزاً، تقلل من فعالية الفقرة وقد تحتاج إلى إعادة صياغة أو استبدال (Haladyna, Downing, & Rodriguez, 2002).
تزويد مطوري الاختبارات والمعلمين بتغذية راجعة قيمة: يقدم تحليل الفقرات معلومات تشخيصية مفصلة تساعد المعلمين ومعدي الاختبارات على فهم أداء طلابهم أو مفحوصيهم بشكل أعمق. يمكن لهذه المعلومات أن تكشف عن مفاهيم معينة يجد فيها الطلاب صعوبة عامة (إذا كانت نسبة كبيرة تجيب بشكل خاطئ على فقرة معينة مرتبطة بمفهوم محدد)، أو عن سوء فهم شائع (إذا كان عدد كبير من الطلاب يختارون نفس المشتت الخاطئ). هذه التغذية الراجعة لا تقتصر فائدتها على تحسين الاختبار الحالي أو المستقبلي فحسب، بل يمكن أن توجه أيضاً عملية التدريس والمراجعة داخل الفصل الدراسي (Odeh, 1998).
بناء بنوك الأسئلة (Item Banks): في سياق بناء بنوك الأسئلة للاختبارات المحوسبة أو التكيفية، يعد تحليل الفقرات وتوثيق خصائصها الإحصائية (مثل الصعوبة والتمييز) أمراً ضرورياً. يسمح هذا بمعرفة دقيقة لخصائص كل فقرة مخزنة، مما يتيح اختيار فقرات ذات مواصفات محددة لتكوين اختبارات متكافئة أو متدرجة الصعوبة حسب الحاجة (Hambleton, Swaminathan, & Rogers, 1991).
باختصار، يعد التحليل الإحصائي للفقرات جسراً حيوياً يربط بين عملية بناء الاختبار وتطبيقه وتفسير نتائجه. إنه يوفر الأساس التجريبي لتقييم جودة كل لبنة من لبنات الاختبار، مما يضمن أن الصرح النهائي (الاختبار ككل) قادر على أداء وظيفته القياسية بفعالية وموثوقية. إهمال هذه الخطوة يعني المخاطرة باستخدام أدوات قياس قد تكون معيبة، مما يؤدي إلى استنتاجات وقرارات غير دقيقة قد تكون لها عواقب وخيمة على الأفراد والمؤسسات.
المؤشرات التقليدية لتحليل الفقرات في النظرية الكلاسيكية
تعتمد الأساليب الأكثر شيوعاً واستخداماً في تحليل فقرات الاختبار على مبادئ النظرية الكلاسيكية في القياس (CTT)، والتي يشار إليها أحياناً بنظرية الدرجة الحقيقية (True Score Theory). تركز هذه النظرية على تحليل أداء الفقرات ضمن سياق الاختبار الكلي الذي تنتمي إليه وعلى العينة المحددة التي طُبق عليها الاختبار. أهم المؤشرات التي توفرها النظرية الكلاسيكية لتحليل الفقرات هي معامل الصعوبة، ومعامل التمييز، وتحليل فعالية البدائل (المشتتات). سنتناول كلاً منها بالتفصيل.
معامل الصعوبة: قياس سهولة الفقرة النسبية
يعتبر معامل الصعوبة أبسط مؤشرات تحليل الفقرات وأكثرها استخداماً، ولكنه قد يكون مضللاً بعض الشيء في تسميته. فهو في الواقع لا يقيس “الصعوبة” بالمفهوم المطلق، بل يقيس “السهولة” النسبية للفقرة بالنسبة للعينة التي طُبق عليها الاختبار. يُعرّف معامل الصعوبة لفقرة ما بأنه نسبة (أو نسبة مئوية) المفحوصين الذين أجابوا عن هذه الفقرة إجابة صحيحة من بين العدد الكلي للمفحوصين الذين حاولوا الإجابة عنها (أو من العدد الكلي للمفحوصين في العينة).
يتم حساب معامل الصعوبة (ويرمز له عادة بالرمز p) باستخدام الصيغة البسيطة التالية:
p = (عدد المفحوصين الذين أجابوا عن الفقرة إجابة صحيحة) / (العدد الكلي للمفحوصين الذين أجابوا عن الفقرة)
على سبيل المثال، إذا طُبق اختبار على 100 طالب، وأجاب 75 منهم بشكل صحيح عن الفقرة رقم 5، فإن معامل الصعوبة لهذه الفقرة هو: p = 75 / 100 = 0.75.
تتراوح قيمة معامل الصعوبة نظرياً بين صفر (0) وواحد (1.00). قيمة قريبة من الصفر (مثلاً، p = 0.10) تشير إلى أن الفقرة كانت صعبة جداً على هذه العينة، حيث لم يتمكن سوى عدد قليل جداً من المفحوصين من الإجابة عليها بشكل صحيح. بينما قيمة قريبة من الواحد (مثلاً، p = 0.95) تشير إلى أن الفقرة كانت سهلة جداً على هذه العينة، حيث تمكن معظم المفحوصين من الإجابة عليها بشكل صحيح. أما قيمة قريبة من 0.50 (مثلاً، p = 0.50) فتشير إلى أن الفقرة متوسطة الصعوبة لهذه العينة، حيث أجاب نصف المفحوصين تقريباً بشكل صحيح والنصف الآخر بشكل خاطئ. يعتمد المستوى “المناسب” أو “الأمثل” لصعوبة الفقرة على الغرض من الاختبار وطبيعة الفقرات. في الاختبارات معيارية المرجع، التي تهدف إلى مقارنة أداء الفرد بأداء الآخرين، يُفضل أن تكون معظم الفقرات متوسطة الصعوبة (بين 0.30 و 0.70) لخلق تباين كافٍ في الدرجات وتحقيق أقصى قدر من التمييز. في المقابل، في الاختبارات محكية المرجع، التي تقيس مدى تمكن الفرد من محتوى معين، قد يكون مقبولاً وجود فقرات سهلة جداً أو صعبة جداً بناءً على مستوى الإتقان المستهدف.
معامل التمييز: القدرة على التمييز بين الأفراد
يعد معامل التمييز أحد أهم مؤشرات جودة الفقرة في الاختبارات، خاصة المعيارية المرجع. يقيس هذا المؤشر مدى قدرة الفقرة على التفريق أو التمييز بين المفحوصين الذين حصلوا على درجات مرتفعة في الاختبار ككل (ويفترض أنهم ذوو قدرة عالية في السمة المقاسة) والمفحوصين الذين حصلوا على درجات منخفضة في الاختبار ككل (ويفترض أنهم ذوو قدرة منخفضة). بعبارة أخرى، الفقرة الجيدة هي تلك التي يجيب عليها المفحوصون ذوو القدرة العالية بشكل صحيح بنسبة أكبر بكثير من المفحوصين ذوي القدرة المنخفضة. تعتمد فكرة حساب معامل التمييز على مقارنة أداء مجموعتين متطرفتين من المفحوصين على الفقرة المراد تحليلها: مجموعة ذات أداء عالٍ ومجموعة ذات أداء منخفض، حيث يتم تحديد هاتين المجموعتين بناءً على الدرجة الكلية للمفحوصين على الاختبار بأكمله.
هناك عدة طرق لحساب معامل التمييز، وأكثرها شيوعاً في إطار النظرية الكلاسيكية هما: مؤشر التمييز البسيط (D) ومعامل ارتباط بوينت بايسيريال (r_pb). لحساب مؤشر D، يتم ترتيب المفحوصين تنازلياً حسب درجاتهم الكلية، ثم يتم تحديد مجموعة عليا (مثلاً، 27% العليا) ومجموعة دنيا (27% الدنيا). تُحسب نسبة الإجابات الصحيحة في كل مجموعة (p_U للمجموعة العليا، و p_L للمجموعة الدنيا)، ثم يُطرح p_L من p_U للحصول على D (D = p_U – p_L). على سبيل المثال، إذا كان لدينا 100 مفحوص، نأخذ أعلى 27 مفحوصاً وأدنى 27 مفحوصاً. لنفترض أنه في فقرة معينة، أجاب 24 من المجموعة العليا بشكل صحيح (p_U ≈ 0.89) وأجاب 9 من المجموعة الدنيا بشكل صحيح (p_L ≈ 0.33). إذن، معامل التمييز D لهذه الفقرة هو: 0.89 – 0.33 = 0.56.
أما معامل ارتباط بوينت بايسيريال (r_pb)، فهو يقيس الارتباط بين الاستجابة على الفقرة (متغير ثنائي: صحيح=1، خاطئ=0) والدرجة الكلية على الاختبار (متغير مستمر). يشير معامل الارتباط الموجب إلى أن المفحوصين الذين يجيبون على الفقرة بشكل صحيح يميلون إلى الحصول على درجات كلية أعلى في الاختبار. يعتبر r_pb مقياساً أكثر دقة للتمييز لأنه يستخدم معلومات من جميع المفحوصين. تتراوح قيمة معامل التمييز (سواء D أو r_pb) نظرياً بين -1.00 و +1.00. يشير التمييز الموجب المرتفع (مثلاً، D ≥ 0.40 أو r_pb ≥ 0.30) إلى أن الفقرة تميز بفعالية كبيرة بين ذوي الأداء المرتفع والمنخفض. بينما يشير التمييز السلبي (D < 0 أو r_pb < 0) إلى وجود مشكلة خطيرة في الفقرة، حيث يجيب عليها المفحوصون ذوو الأداء المنخفض بشكل صحيح أكثر من ذوي الأداء المرتفع، مما يستدعي استبعادها فوراً والتحقق من سبب ذلك (Anastasi & Urbina, 1997).
تحليل فعالية البدائل: مثال عملي لفحص المشتتات
يركز هذا التحليل بشكل خاص على فقرات الاختيار من متعدد (Multiple-Choice Items). بالإضافة إلى الإجابة الصحيحة (Key)، تتكون هذه الفقرات من مجموعة من الإجابات الخاطئة التي تسمى المشتتات (Distractors) أو البدائل (Alternatives). الهدف من المشتتات هو أن تبدو معقولة أو جذابة للمفحوصين الذين لم يتقنوا المحتوى أو المهارة التي تقيسها الفقرة، ولكن يجب ألا تكون مضللة للمفحوصين الذين أتقنوا المادة. تحليل فعالية البدائل يهدف إلى تقييم مدى جودة أداء كل مشتت في القيام بهذه الوظيفة. يشبه تحليل فعالية البدائل في خطواته الأولى حساب مؤشر التمييز D: يتم ترتيب المفحوصين حسب الدرجة الكلية، وتحديد المجموعة العليا والدنيا، ثم لكل فقرة، يتم حساب عدد أو نسبة المفحوصين في كل من المجموعة العليا والمجموعة الدنيا الذين اختاروا كل بديل من البدائل (بما في ذلك الإجابة الصحيحة).
يتم الحكم على فعالية كل مشتت بناءً على نمط اختياره من قبل المجموعتين العليا والدنيا. المشتت الفعال (Good Distractor) هو الذي يجذب عدداً أكبر (أو نسبة أعلى) من المفحوصين في المجموعة الدنيا مقارنة بالمفحوصين في المجموعة العليا. هذا يشير إلى أن المشتت ينجح في تضليل الطلاب الأقل قدرة، بينما يتمكن الطلاب الأعلى قدرة من استبعاده. على النقيض، المشتت غير الفعال (Poor or Ineffective Distractor) قد لا يختاره أحد، أو يختاره عدد قليل جداً، مما يعني أنه لا يقوم بوظيفته. الأسوأ من ذلك، إذا اختاره عدد أكبر من المفحوصين في المجموعة العليا مقارنة بالمجموعة الدنيا، فهذا مؤشر خطير يعني أن المشتت يضلل الطلاب المتميزين أكثر من الطلاب الأقل تميزاً، وقد يشير إلى خطأ في مفتاح الإجابة أو صياغة مضللة جداً.
مثال عملي لتحليل فعالية البدائل:
لنفترض فقرة اختيار من متعدد بأربعة بدائل (أ, ب, ج, د) والإجابة الصحيحة هي (ب). تم تطبيقها على عينة كبيرة، وتم تحديد مجموعة عليا (100 طالب) ومجموعة دنيا (100 طالب). كانت نتائج الاختيارات كالتالي:
| البديل | المجموعة العليا (عدد) | المجموعة الدنيا (عدد) | الحكم المبدئي |
| أ | 5 | 25 | فعال (يجذب الدنيا أكثر) |
| ب (صحيح) | 85 | 30 | (معامل تمييز الفقرة جيد: 85% مقابل 30%) |
| ج | 8 | 35 | فعال (يجذب الدنيا أكثر) |
| د | 2 | 10 | مقبول (يجذب الدنيا أكثر، لكن جاذبيته قليلة نسبياً) |
| المجموع | 100 | 100 |
في هذا المثال، البديلان (أ) و (ج) يعتبران مشتتين فعالين جداً لأنهما جذبا عدداً كبيراً من طلاب المجموعة الدنيا ونسبة قليلة جداً من المجموعة العليا. البديل (د) مقبول لكن جاذبيته قليلة. الأهم هو أن الإجابة الصحيحة (ب) اختارها عدد أكبر بكثير من المجموعة العليا مقارنة بالمجموعة الدنيا (85 مقابل 30)، مما يؤكد أن الفقرة تميز بشكل جيد. يساعد هذا التحليل معد الاختبار على تحديد نقاط الضعف في المشتتات، وفهم الأخطاء الشائعة أو المفاهيم الخاطئة لدى الطلاب، وتحسين جودة فقرات الاختيار من متعدد عن طريق استبدال أو تعديل المشتتات غير الفعالة.
التفاعل بين مؤشرات الفقرة والعلاقة بالصدق والثبات
لا تعمل مؤشرات تحليل الفقرات (الصعوبة، التمييز، فعالية البدائل) بمعزل عن بعضها البعض، بل تتفاعل وتترابط لتشكل صورة متكاملة لجودة الفقرة. فهم هذه العلاقات يساعد في تفسير النتائج بشكل أعمق واتخاذ قرارات أكثر استنارة. أولاً، هناك علاقة واضحة بين صعوبة الفقرة وقدرتها التمييزية القصوى الممكنة. الفقرات ذات الصعوبة المتطرفة (قريبة جداً من 0 أو 1) لا يمكنها أن تميز بفعالية. على سبيل المثال، إذا كانت فقرة سهلة جداً (p = 0.95)، فإن 95% من العينة أجابوا صح. حتى لو كانت نسبة الإجابة الصحيحة في المجموعة العليا 100%، فإن أقصى فرق يمكن تحقيقه مع المجموعة الدنيا سيكون محدوداً، مما يؤدي إلى تمييز منخفض. الفقرات متوسطة الصعوبة (p حوالي 0.50 إلى 0.65 لفقرات الاختيار من متعدد الشائعة) هي التي تمتلك الإمكانية الأكبر لتحقيق معاملات تمييز مرتفعة، لأنها تسمح بظهور تباين أكبر في الأداء بين المجموعتين العليا والدنيا (Crocker & Algina, 1986).
ثانياً، تؤثر فعالية المشتتات بشكل مباشر على كل من معامل الصعوبة ومعامل التمييز. لنفترض فقرة ذات إجابة صحيحة واضحة ومشتتات ضعيفة جداً وواضحة الخطأ. سيتمكن معظم الطلاب، حتى ذوي القدرة المنخفضة، من التعرف على الإجابة الصحيحة بسهولة، مما يؤدي إلى معامل صعوبة مرتفع (أي فقرة سهلة) ومعامل تمييز منخفض (لأن الفرق بين أداء المجموعتين العليا والدنيا سيكون صغيراً). على العكس، إذا كانت الفقرة تحتوي على مشتت “فعال بشكل مفرط” يضلل حتى الطلاب المتميزين (يجذب المجموعة العليا أكثر من الدنيا)، فقد يؤدي ذلك إلى انخفاض معامل الصعوبة (تبدو الفقرة أصعب)، والأهم من ذلك، سيؤدي إلى معامل تمييز منخفض أو حتى سلبي. المشتتات الجيدة، التي تجذب المجموعة الدنيا وتتجنبها المجموعة العليا، تساهم في تحقيق معامل تمييز إيجابي وجيد للفقرة. تحليل فعالية البدائل يساعد في تشخيص سبب ضعف التمييز في فقرة ما؛ هل هو بسبب مشكلة في صياغة السؤال نفسه أم بسبب مشكلة في أحد البدائل؟ (Haladyna et al., 2002).
ثالثاً، يمكن استخدام المؤشرات معاً للحكم الشامل على الفقرة واتخاذ قرار بشأنها. على سبيل المثال، الفقرة ذات معامل صعوبة متوسط ومعامل تمييز مرتفع ومعظم مشتتاتها فعالة تعتبر فقرة جيدة جداً ويجب الإبقاء عليها. بينما الفقرة ذات التمييز السلبي، بغض النظر عن صعوبتها، تعتبر معيبة جداً ويجب استبعادها فوراً والتحقق من مفتاح الإجابة. من المهم التأكيد على أن هذه مجرد إرشادات عامة. القرار النهائي بشأن كل فقرة يجب أن يأخذ في الاعتبار أيضاً أهمية المحتوى الذي تقيسه الفقرة، والغرض من الاختبار، وطبيعة العينة التي طبق عليها. المرونة والحكم المهني ضروريان في تفسير نتائج تحليل الفقرات.
تحديات النظرية الكلاسيكية ونشأة نظرية استجابة الفقرة
على الرغم من أهمية وفائدة مؤشرات تحليل الفقرات المستمدة من النظرية الكلاسيكية في القياس (CTT)، إلا أن لها بعض المحددات التي يجب أخذها في الاعتبار، والتي أدت إلى تطوير نماذج أحدث مثل نظرية استجابة الفقرة (IRT). أهم محددات مؤشرات CTT (الصعوبة والتمييز) هي تبعيتها للعينة (Sample-Dependent). هذا يعني أن قيم معامل الصعوبة ومعامل التمييز المحسوبة لفقرة ما تعتمد بشكل كبير على خصائص العينة التي طبق عليها الاختبار. فكما ذكرنا، الفقرة نفسها ستبدو أسهل (معامل p أعلى) إذا طُبقت على عينة من الطلاب ذوي القدرة العالية مقارنة بتطبيقها على عينة ذات قدرة منخفضة. وبالمثل، قد يختلف معامل التمييز لنفس الفقرة باختلاف مستوى وتباين قدرة العينة. هذا يجعل من الصعب مقارنة خصائص الفقرات التي تم تحليلها باستخدام عينات مختلفة، ويعقد عملية بناء بنوك أسئلة ذات خصائص فقرات ثابتة ومعروفة بدقة (Hambleton et al., 1991).
لمواجهة بعض محددات CTT، تم تطوير نماذج نظرية استجابة الفقرة (IRT). تقدم IRT إطاراً رياضياً أكثر تطوراً لوصف العلاقة بين قدرة الفرد (السمة الكامنة، ويرمز لها عادة θ) واحتمالية إجابته بشكل صحيح عن فقرة معينة. بدلاً من معامل الصعوبة والتمييز المعتمدين على العينة في CTT، تقدر نماذج IRT معلمات (Parameters) للفقرة يفترض أنها غير معتمدة على العينة (Sample-Invariant) ضمن حدود معينة. أهم هذه المعلمات عادة هي: معلمة الصعوبة (Difficulty Parameter – b) التي تمثل مستوى القدرة الذي تكون فيه احتمالية الإجابة الصحيحة عن الفقرة 0.50؛ ومعلمة التمييز (Discrimination Parameter – a) التي تقيس مدى حدة منحنى خصائص الفقرة؛ ومعلمة التخمين (Guessing Parameter – c) التي تمثل احتمالية التخمين العشوائي.
تتميز IRT بمزايا عديدة، منها عدم اعتماد معلمات الفقرة على العينة، وإمكانية تقدير قدرة الفرد بشكل مستقل عن صعوبة الاختبار، وتوفير الأساس لـ الاختبارات التكيفية المحوسبة (CAT) التي تزيد من كفاءة ودقة القياس. كما توفر IRT أدوات قوية لتحليل الانحياز التفاضلي للفقرة (DIF) للكشف عما إذا كانت الفقرة تعمل بشكل مختلف لمجموعات فرعية مختلفة من المفحوصين. ومع ذلك، تتطلب نماذج IRT افتراضات أقوى من CTT (مثل أحادية البعد والاستقلال الموضعي)، وتحتاج إلى عينات كبيرة جداً لتقدير المعلمات بدقة، كما أنها تتطلب برامج حاسوبية متخصصة وإلماماً إحصائياً أكبر لتطبيقها وتفسير نتائجها (Hambleton et al., 1991). في الختام، بينما تظل مؤشرات CTT هي الأكثر استخداماً نظراً لسهولتها، فإن فهم محدداتها والوعي بنماذج IRT الأكثر تطوراً يعد أمراً مهماً لممارسي القياس النفسي والتربوي.
الخاتمة
يعد التحليل الإحصائي لفقرات الاختبار عملية لا غنى عنها لضمان جودة أدوات القياس المستخدمة في المجالات التربوية والنفسية. فمن خلال تطبيق مؤشرات مثل معامل الصعوبة، ومعامل التمييز، وتحليل فعالية البدائل، يمكن لمعدي الاختبارات الحصول على رؤى تفصيلية وموضوعية حول أداء كل فقرة ومدى مساهمتها في تحقيق أهداف الاختبار. لقد أوضح هذا الفصل كيفية حساب وتفسير هذه المؤشرات في إطار النظرية الكلاسيكية في القياس (CTT)، مبيناً كيف تساعد هذه المعلومات في تحديد الفقرات الجيدة والضعيفة والمعيبة.
إن استخدام هذه المؤشرات بشكل متكامل، مع الأخذ في الاعتبار العلاقة المتبادلة بينها، يمكّن من اتخاذ قرارات مستنيرة بشأن كل فقرة: هل يتم الإبقاء عليها كما هي؟ هل تحتاج إلى تعديل في الصياغة أو البدائل؟ أم هل يجب استبعادها تماماً من الاختبار؟ هذه القرارات، المبنية على الأدلة التجريبية المستمدة من أداء المفحوصين الفعلي، تساهم بشكل مباشر في تحسين صدق وثبات الاختبار ككل. وعلى الرغم من شيوع وسهولة استخدام مؤشرات CTT، أشرنا أيضاً إلى بعض محدداتها، وأهمها اعتمادها على خصائص العينة، وقدمنا لمحة موجزة عن نظرية استجابة الفقرة (IRT) كبديل أو مكمل يوفر معلمات للفقرة أكثر استقراراً ويتيح تطبيقات متقدمة مثل الاختبارات التكيفية المحوسبة.
في نهاية المطاف، يبقى الهدف الأساسي من تحليل الفقرات هو السعي المستمر نحو تحسين جودة القياس. فالاختبار الجيد ليس نتاج الصدفة أو الانطباعات الذاتية، بل هو نتاج عملية منهجية ودقيقة من البناء والمراجعة والتجريب والتحليل. إن إتقان وتطبيق أدوات التحليل الإحصائي لفقرات الاختبار يمثل خطوة جوهرية نحو بناء أدوات تقويم أكثر عدلاً ودقة وموثوقية، مما ينعكس إيجاباً على جودة القرارات التعليمية والمهنية والشخصية التي تُبنى على نتائج هذه الاختبارات.
المراجع
علام، صلاح الدين محمود. (2000). القياس والتقويم التربوي والنفسي: أساسياته وتطبيقاته وتوجهاته المعاصرة. دار الفكر العربي.
عودة، أحمد سليمان. (1998). القياس والتقويم في العملية التدريسية. دار الأمل للنشر والتوزيع.
Anastasi, A., & Urbina, S. (1997). Psychological testing (7th ed.). Prentice Hall.
Crocker, L., & Algina, J. (1986). Introduction to classical and modern test theory. Holt, Rinehart and Winston.
Ebel, R. L., & Frisbie, D. A. (1991). Essentials of educational measurement (5th ed.). Prentice Hall.
Haladyna, T. M., Downing, S. M., & Rodriguez, M. C. (2002). A review of multiple-choice item-writing guidelines for classroom assessment. Applied Measurement in Education, 15(3), 309–334. https://doi.org/10.1207/S15324818AME1503_5
Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of item response theory. Sage.
Kelley, T. L. (1939). The selection of upper and lower groups for the validation of test items. Journal of Educational Psychology, 30(1), 17–24. https://doi.org/10.1037/h0057123
اقتبس من هذا المقالة
مدرس الدكتور محمد لوتي (2025). التحليل الاحصائي لفقرات الاختبار. عرب سايكلوجي. تم الاسترجاع من https://arabpsychology.com/lesson/%d8%a7%d9%84%d8%aa%d8%ad%d9%84%d9%8a%d9%84-%d8%a7%d9%84%d8%a7%d8%ad%d8%b5%d8%a7%d8%a6%d9%8a-%d9%84%d9%81%d9%82%d8%b1%d8%a7%d8%aa-%d8%a7%d9%84%d8%a7%d8%ae%d8%aa%d8%a8%d8%a7%d8%b1/
مدرس الدكتور محمد لوتي. "التحليل الاحصائي لفقرات الاختبار." عرب سايكلوجي, 1 أكتوبر. 2025, https://arabpsychology.com/lesson/%d8%a7%d9%84%d8%aa%d8%ad%d9%84%d9%8a%d9%84-%d8%a7%d9%84%d8%a7%d8%ad%d8%b5%d8%a7%d8%a6%d9%8a-%d9%84%d9%81%d9%82%d8%b1%d8%a7%d8%aa-%d8%a7%d9%84%d8%a7%d8%ae%d8%aa%d8%a8%d8%a7%d8%b1/.
مدرس الدكتور محمد لوتي. "التحليل الاحصائي لفقرات الاختبار." عرب سايكلوجي, 2025. https://arabpsychology.com/lesson/%d8%a7%d9%84%d8%aa%d8%ad%d9%84%d9%8a%d9%84-%d8%a7%d9%84%d8%a7%d8%ad%d8%b5%d8%a7%d8%a6%d9%8a-%d9%84%d9%81%d9%82%d8%b1%d8%a7%d8%aa-%d8%a7%d9%84%d8%a7%d8%ae%d8%aa%d8%a8%d8%a7%d8%b1/.
مدرس الدكتور محمد لوتي (2025) 'التحليل الاحصائي لفقرات الاختبار', عرب سايكلوجي. متاح في: https://arabpsychology.com/lesson/%d8%a7%d9%84%d8%aa%d8%ad%d9%84%d9%8a%d9%84-%d8%a7%d9%84%d8%a7%d8%ad%d8%b5%d8%a7%d8%a6%d9%8a-%d9%84%d9%81%d9%82%d8%b1%d8%a7%d8%aa-%d8%a7%d9%84%d8%a7%d8%ae%d8%aa%d8%a8%d8%a7%d8%b1/.
[1] مدرس الدكتور محمد لوتي, "التحليل الاحصائي لفقرات الاختبار," عرب سايكلوجي, مجلد X, عدد Y, ص Z-Z, أكتوبر, 2025.
مدرس الدكتور محمد لوتي. التحليل الاحصائي لفقرات الاختبار. عرب سايكلوجي. 2025;vol(issue):pages.