مؤشر التمييز – discrimination index

مدرس الدكتور محمد لوتي

المحتويات:

مؤشر التمييز (Discrimination Index)

مجالات الانضباط الأساسية: القياس النفسي، التقييم التربوي، الإحصاء التطبيقي، بناء الاختبارات.

1. التعريف الجوهري

مؤشر التمييز (Discrimination Index)، ويُرمز له عادةً بالرمز D، هو مقياس إحصائي أساسي يُستخدم في مجال القياس النفسي والتقييم التربوي لتحديد مدى جودة فقرة اختبار فردية في التمييز بين الأفراد الذين يمتلكون مستوى عالياً من السمة أو المعرفة المقاسة، والأفراد الذين يمتلكون مستوى منخفضاً منها. وبعبارة أخرى، يقيس المؤشر فعالية الفقرة في الفصل بين المُمتحنين ذوي الأداء العالي والمُمتحنين ذوي الأداء المنخفض في الاختبار الكلي.

يُعد هذا المؤشر عنصراً محورياً في عملية تحليل الفقرات (Item Analysis)، وهي المرحلة التي تلي تطبيق الاختبار وقبل اعتماده بصورة نهائية. يشير مؤشر التمييز المرتفع (القريب من +1.0) إلى أن الفقرة تعمل بفعالية؛ فالطلاب الذين حققوا درجات عالية في الاختبار العام كانوا أكثر احتمالاً للإجابة عليها بشكل صحيح، بينما الطلاب الذين حققوا درجات منخفضة كانوا أكثر احتمالاً للإجابة عليها بشكل خاطئ. هذا التباين هو ما يؤكد أن الفقرة تقيس بالفعل نفس البناء (Construct) الذي يقيسه الاختبار ككل.

إن الهدف الأساسي من حساب مؤشر التمييز هو ضمان أن الاختبارات تتمتع بـصلاحية البناء (Construct Validity) الكافية وأن جميع مكوناتها تعمل بتناغم لقياس القدرة المستهدفة. إذا أظهرت فقرة ما مؤشراً تمييزياً ضعيفاً (قريباً من الصفر) أو سلبياً (أقل من الصفر)، فهذا يشير إلى أن الفقرة إما غير واضحة، أو معيبة، أو تقيس مفهوماً مختلفاً عن بقية الاختبار، مما يستلزم إعادة صياغتها أو حذفها لتعزيز الجودة الكلية لأداة القياس.

2. السياق التاريخي والتطور

تطور مفهوم مؤشر التمييز بشكل متزامن مع نشأة نظرية الاختبار الكلاسيكية (Classical Test Theory – CTT) في أوائل ومنتصف القرن العشرين. مع تزايد استخدام الاختبارات الموحدة في التعليم والجيش وعلم النفس، ظهرت الحاجة إلى أساليب منهجية لضمان أن هذه الأدوات ليست فقط موثوقة (Reliable) ولكن أيضاً صالحة (Valid). كانت الجهود المبكرة لعلماء القياس النفسي، مثل إدوارد ثورندايك وزملاؤه، تهدف إلى إضفاء الطابع الكمي الصارم على عملية بناء الاختبارات.

أصبح تحليل الفقرات، بما في ذلك حساب مؤشر التمييز ومؤشر الصعوبة، جزءاً لا يتجزأ من الإجراءات القياسية لتطوير الاختبارات خلال الخمسينيات والستينيات. كانت الفكرة هي استخدام مجموعات مرجعية كبيرة لتقييم أداء كل فقرة على حدة قبل تجميعها في الصورة النهائية للاختبار. اعتمدت المنهجيات المبكرة على مقارنة نسب الإجابة الصحيحة بين المجموعات المتطرفة (العليا والدنيا) كطريقة بسيطة وفعالة لحساب القوة التمييزية.

على الرغم من ظهور نماذج إحصائية أكثر تعقيداً في وقت لاحق، مثل نظرية استجابة الفقرة (Item Response Theory – IRT)، التي توفر معامل تمييز أكثر تطوراً ولا يعتمد على العينة (Sample-Invariant)، إلا أن مؤشر التمييز الكلاسيكي ظل مستخدماً على نطاق واسع بسبب بساطته وسهولة حسابه يدوياً أو باستخدام برامج إحصائية بسيطة. ويظل المؤشر بمثابة نقطة انطلاق أساسية وسريعة لتقييم جودة الفقرات في السياقات التعليمية والتدريبية التي لا تتطلب تعقيد نماذج IRT.

3. الخصائص والمكونات الرئيسية

يعتمد حساب مؤشر التمييز التقليدي على تقسيم عينة المُمتحنين إلى مجموعتين متطرفتين بناءً على درجاتهم الكلية في الاختبار: المجموعة العليا (Upper Group) والمجموعة الدنيا (Lower Group). عادةً ما يتم تعريف هاتين المجموعتين بأنهما تمثلان أعلى 27% وأدنى 27% من إجمالي عدد المُمتحنين، على الرغم من أن بعض المنهجيات قد تستخدم نسباً مختلفة (مثل 25% أو 33%). اختيار نسبة 27% يعود إلى دراسات إحصائية تشير إلى أن هذه النسبة تحقق التوازن الأمثل بين حجم العينة والتباين الإحصائي المطلوب للتمييز الفعال.

المجموعة العليا (P_U): تمثل نسبة المُمتحنين في المجموعة العليا الذين أجابوا على الفقرة بشكل صحيح. هؤلاء هم الأفراد الذين يمتلكون مستوى عالياً من السمة المقاسة.
المجموعة الدنيا (P_L): تمثل نسبة المُمتحنين في المجموعة الدنيا الذين أجابوا على الفقرة بشكل صحيح. هؤلاء هم الأفراد الذين يمتلكون مستوى منخفضاً من السمة المقاسة.
نطاق المؤشر: يتراوح مؤشر التمييز (D) بين -1.0 و +1.0.

تُعد قيمة المؤشر إيجابية عندما تتجاوز نسبة الإجابات الصحيحة في المجموعة العليا نسبة الإجابات الصحيحة في المجموعة الدنيا، وهذا هو الهدف المنشود. أما إذا كانت القيمة سلبية، فهذا يشير إلى وجود خلل خطير في الفقرة؛ إذ إن المُمتحنين الأفضل أداءً في الاختبار العام هم من أخطأوا في الإجابة على هذه الفقرة، بينما نجح فيها الأفراد الأضعف. وهذا قد يحدث بسبب صياغة مضللة، أو وجود خطأ في مفتاح الإجابة، أو أن الفقرة تقيس سمة غير مرغوبة.

4. حساب المؤشر والتفسير

يتم حساب مؤشر التمييز (D) باستخدام صيغة بسيطة تستند إلى الفرق بين نسبتي الإجابة الصحيحة في المجموعتين المتطرفتين. الصيغة الرياضية هي:

$$D = P_{U} – P_{L}$$

حيث (D) هو مؤشر التمييز، و ($$P_{U}$$) هي نسبة الإجابة الصحيحة للمجموعة العليا، و ($$P_{L}$$) هي نسبة الإجابة الصحيحة للمجموعة الدنيا. على سبيل المثال، إذا أجاب 80% من المجموعة العليا و 30% من المجموعة الدنيا على الفقرة بشكل صحيح، فإن $$D = 0.80 – 0.30 = 0.50$$. تُعتبر قيمة 0.50 قيمة ممتازة تشير إلى أن الفقرة تميز بشكل فعال.

لغرض التفسير العملي، يتم تصنيف قيم مؤشر التمييز عادةً على النحو التالي:

D ≥ 0.40: ممتاز. فقرة ذات قوة تمييزية عالية جداً، وهي مرشحة للاحتفاظ بها.
D بين 0.30 و 0.39: جيد. فقرة فعالة جداً ولا تحتاج عادةً إلى مراجعة.
D بين 0.20 و 0.29: مقبول. فقرة جيدة ولكن قد تحتاج إلى مراجعة طفيفة لتحسينها.
D < 0.20: ضعيف. فقرة يجب مراجعتها بشكل أساسي أو حذفها.
D < 0.00 (سالب): معيب. فقرة تضر بثبات الاختبار وصلاحيته ويجب حذفها فوراً أو تصحيح الخطأ فيها.

يجب التنويه إلى أن مؤشر التمييز يتأثر أيضاً بمؤشر صعوبة الفقرة (Difficulty Index). فالفقرات السهلة جداً (التي يجيب عليها الجميع) أو الصعبة جداً (التي لا يجيب عليها أحد) ستمتلك بالضرورة مؤشراً تمييزياً قريباً من الصفر، لأنها لا تظهر تبايناً كافياً بين المجموعتين. لذا، يجب تفسير مؤشر التمييز دائماً في ضوء صعوبة الفقرة.

5. الأهمية والتطبيقات

تكمن الأهمية الكبرى لمؤشر التمييز في دوره الحاسم في تطوير الاختبارات الموحدة وتحسين جودة أدوات القياس. من خلال تحديد الفقرات التي لا تعمل بشكل صحيح، يمكن للمختصين في القياس النفسي ضمان أن الاختبار النهائي يقدم مقياساً دقيقاً وموثوقاً للقدرة المستهدفة. هذا يؤدي بدوره إلى نتائج تقييم أكثر عدالة وإنصافاً.

في المجال التربوي، يُستخدم مؤشر التمييز لتحديد ما إذا كانت الفقرات قادرة على قياس نواتج التعلم المرجوة بالفعل. إذا أظهرت فقرة تمييزاً ضعيفاً، فقد يشير ذلك إلى مشكلة في طريقة تدريس ذلك المفهوم، أو أن الفقرة نفسها تقيس مهارة لم يتم تدريسها بوضوح. وبالتالي، لا يقتصر التطبيق على تحسين الاختبار فحسب، بل يمتد ليشمل تقييم فعالية المناهج وطرق التدريس.

كما يُستخدم المؤشر في تحليل المُشتتات في أسئلة الاختيار من متعدد. فالفقرة الجيدة هي التي يختار فيها الأفراد في المجموعة العليا الإجابة الصحيحة، بينما يميل الأفراد في المجموعة الدنيا إلى اختيار المُشتتات (الإجابات الخاطئة). إذا لاحظ المحلل أن المجموعة العليا تختار مُشتتاً معيناً أكثر من المجموعة الدنيا، فهذا يعد دليلاً قوياً على أن هذا المُشتت معيب أو مضلل بشكل غير مقصود، مما يستدعي تعديله.

6. الانتقادات والقيود

على الرغم من فائدته العملية، يواجه مؤشر التمييز العديد من الانتقادات الجوهرية، خاصة عند مقارنته بالمعاملات المتقدمة في نظرية استجابة الفقرة (IRT). أهم قيد هو أن المؤشر يعتمد على العينة (Sample Dependent) ويعتمد على الاختبار (Test Dependent).

الاعتماد على العينة: تتغير قيمة D بناءً على خصائص العينة التي أُجري عليها الاختبار. فإذا تم تطبيق الاختبار على عينة من الطلاب الأكثر تجانساً (Homogeneous) في القدرات، فسيكون مؤشر التمييز أقل، مقارنة بتطبيقه على عينة واسعة التباين. وهذا يجعل من الصعب مقارنة جودة الفقرات عبر مجموعات مختلفة أو سياقات زمنية مختلفة.
الاعتماد على المجموعات المتطرفة: يعتمد المؤشر على تقسيم عينة المُمتحنين إلى مجموعتين متطرفتين (العليا والدنيا)، متجاهلاً أداء الأفراد الواقعين في المنطقة الوسطى (حوالي 46% من العينة). هذا التجاهل يُفقد المؤشر بعض المعلومات الإحصائية القيمة حول كيفية أداء الفقرة عبر مستويات القدرة المتوسطة.
التفسير الثنائي: يوفر مؤشر التمييز قيمة واحدة فقط (D)، بينما توفر نماذج IRT، وخاصة النموذج اللوجستي ثنائي المعاملات (2PL)، معاملاً للتمييز (a) يكون أكثر دقة ويوضح ميل منحنى خاصية الفقرة (Item Characteristic Curve)، مما يقدم فهماً أعمق لكيفية تفاعل القدرة مع احتمالية الإجابة الصحيحة.

نتيجة لهذه القيود، غالباً ما يُنظر إلى مؤشر التمييز في الأوساط الأكاديمية والبحثية المتقدمة على أنه مقياس إحصائي وصفي (Descriptive Statistic) مفيد لغربلة الفقرات الأولية، ولكنه ليس بديلاً عن النماذج الإحصائية المعيارية التي توفرها نظرية استجابة الفقرة لتقدير المعاملات التمييزية الحقيقية للفقرات.