بحوث التقييم – assessment research

بحث التقييم (Assessment Research)

Primary Disciplinary Field(s): المنهجية العلمية؛ علم الاجتماع؛ التنمية الدولية؛ الإدارة العامة؛ التربية.

1. التعريف الجوهري

يشكل بحث التقييم، المعروف أيضاً بالبحث التقويمي أو تقييم البرامج، مجالاً منهجياً متخصصاً يهدف إلى تحديد الميزة والقيمة والأهمية لبرنامج أو تدخل أو سياسة أو منظمة معينة. على عكس البحث الأكاديمي التقليدي الذي يسعى في المقام الأول إلى توليد المعرفة النظرية أو اختبار الفرضيات، يتميز بحث التقييم بتركيزه العملي والموجه نحو الاستخدام؛ إذ إن هدفه الأساسي هو توفير معلومات موثوقة ومحايدة لدعم اتخاذ القرارات، وتحسين الأداء، وتعزيز المساءلة. وبعبارة أخرى، هو تطبيق منتظم وموضوعي للمناهج البحثية لتقدير تصميم التدخل وتنفيذه ونتائجه، ويستخدم أدوات التحليل المنهجي لفهم ما إذا كانت البرامج تحقق أهدافها المرجوة وكيف يمكن أن يتم ذلك بفعالية أكبر.

تتمحور فكرة بحث التقييم حول الإجابة على مجموعة محددة من الأسئلة التي يطرحها أصحاب المصلحة، والتي غالباً ما تتجاوز مجرد قياس النتائج لتشمل دراسة العملية والسياق. على سبيل المثال، قد يتساءل التقييم عما إذا كان التدخل قد تم تنفيذه كما هو مخطط له (تقييم العملية)، أو ما إذا كان البرنامج قد أدى إلى تغييرات قابلة للقياس في حياة المستفيدين (تقييم الأثر)، أو ما إذا كانت التكاليف تبرر الفوائد المحققة (تحليل التكلفة والمنفعة). ويستدعي هذا التنوع في الأسئلة تبني مناهج بحثية مرنة، تشمل التصاميم الكمية الصارمة (مثل التجارب العشوائية المُحكمة) والتصاميم الكيفية الغنية (مثل دراسات الحالة والمقابلات المتعمقة)، لتقديم صورة شاملة وموثوقة لفعالية التدخلات.

إن الدور المحوري لبحث التقييم يكمن في سد الفجوة بين النظرية والتطبيق، وبين النية والنتيجة. فهو لا يكتفي بوصف الواقع، بل يهدف إلى تحسين ذلك الواقع من خلال توفير أدلة قائمة على البيانات. ويُعد بحث التقييم عنصراً أساسياً في دورة إدارة البرامج، حيث يساهم في بناء القدرات المؤسسية، وتوجيه إعادة تخصيص الموارد نحو البرامج الأكثر نجاحاً، وضمان الشفافية والمساءلة أمام الممولين والجمهور. ولذلك، يتطلب هذا النوع من البحث ليس فقط الكفاءة المنهجية، بل أيضاً فهماً عميقاً للسياق السياسي والثقافي والتنظيمي الذي يعمل فيه البرنامج موضوع التقييم.

2. السياق النظري والتطور التاريخي

تعود الجذور الحديثة لبحث التقييم كعلم منهجي متميز إلى منتصف القرن العشرين، خاصة في الولايات المتحدة وأوروبا، حيث تزامن نموه مع التوسع الكبير في البرامج الاجتماعية الممولة حكومياً، لا سيما في حقبة “المجتمع العظيم” (Great Society) في الستينيات. قبل هذه الفترة، كان التقييم يُمارس بشكل غير رسمي أو كان مدمجاً ضمن عمليات المراجعة الإدارية. إلا أن الضغوط المتزايدة للمساءلة عن الإنفاق العام وضخامة الاستثمارات في مجالات التعليم والصحة والرعاية الاجتماعية، حفزت الحاجة إلى أدوات منهجية صارمة لإثبات فعالية هذه البرامج وتبرير وجودها. هذا الاحتياج هو ما أدى إلى تبلور التقييم كمهنة ومجال بحثي مستقل.

شهدت السبعينيات تطوراً منهجياً كبيراً، حيث لعب دونالد كامبل وغيره من العلماء دوراً بارزاً في دمج التصميمات التجريبية وشبه التجريبية في التقييم، بهدف تحديد العلاقة السببية بين التدخل والنتائج بدقة عالية. وقد ركز “التقييم التجريبي” في هذه المرحلة المبكرة بشكل مكثف على قياس الأثر النهائي (Outcomes)، متبنياً نموذج الصندوق الأسود الذي يركز على المدخلات والمخرجات دون التعمق في كيفية عمل البرنامج داخلياً. ومع ذلك، ظهرت انتقادات لهذا النهج الصارم، حيث اعتبر البعض أنه يفشل في فهم تعقيدات البيئات الاجتماعية والبرامج المعقدة، مما أدى إلى ظهور نماذج تقييم بديلة.

في الثمانينات والتسعينات، تحول التركيز ليشمل نماذج تقييم أكثر شمولاً وتوجيهاً نحو المستخدم، مثل نموذج التقييم الموجه نحو الاستخدام (Utilization-Focused Evaluation) الذي طوره مايكل كوين باتون. هذا التحول أكد على أن قيمة التقييم لا تكمن فقط في دقة المنهجية، بل في قدرته على تلبية احتياجات مستخدمي النتائج الفعلية، مما يضمن أن تكون النتائج ذات صلة وقابلة للتطبيق. كما شهدت هذه الفترة اعترافاً متزايداً بأهمية المناهج الكيفية والمختلطة في فهم السياق والآليات التي من خلالها تحقق البرامج نتائجها، وظهرت مفاهيم مثل “التقييم التشاركي” و”التقييم التنموي” التي تؤكد على دور أصحاب المصلحة في جميع مراحل عملية البحث.

3. المناهج والأنواع الأساسية

يتسم بحث التقييم بالتنوع المنهجي الهائل، حيث لا يوجد نهج واحد يناسب جميع البرامج والأسئلة. ويتم اختيار المنهج (كمي، كيفي، أو مختلط) بناءً على الهدف المحدد للتقييم، ومرحلة دورة حياة البرنامج، والموارد المتاحة. المناهج الكمية تستخدم لقياس الأداء والنتائج بشكل رقمي (مثل مقاييس الإحصاء والاختبارات)، بينما تستخدم المناهج الكيفية لفهم الأسباب والدوافع والتجارب الذاتية للمستفيدين (مثل دراسات الحالة وتحليل المحتوى). أما المناهج المختلطة، فتجمع بين نقاط القوة في كلا النوعين لتقديم تحليل أعمق وأكثر تكاملاً.

تُصنف أنواع بحث التقييم عادةً وفقاً لوظيفتها في دورة حياة البرنامج، ويُعد التمييز بين التقييم التكويني والتقييم الختامي هو الأكثر شيوعاً. يركز التقييم التكويني (Formative Evaluation) على تحسين البرنامج أثناء مرحلة تصميمه وتنفيذه المبكرة، حيث يقدم تغذية راجعة مستمرة حول كيفية عمل البرنامج، وتحديد نقاط الضعف، وضمان أن الأنشطة تتوافق مع الأهداف المحددة. هذا النوع من التقييم ذو أهمية قصوى للمديرين التنفيذيين الذين يسعون إلى الضبط والتكييف الفوري.

في المقابل، يتم إجراء التقييم الختامي (Summative Evaluation) بعد اكتمال البرنامج أو بعد فترة زمنية كافية لظهور النتائج، ويهدف إلى إصدار حكم نهائي حول قيمة البرنامج أو فعاليته الإجمالية. ويركز هذا التقييم على الإجابة على سؤال “هل نجح البرنامج؟” و “هل يستحق الاستمرار؟”، وتكون نتائجه حاسمة للممولين وصانعي السياسات فيما يتعلق بالمساءلة وتحديد مصير البرنامج المستقبلي. ويندرج تحت التقييم الختامي أنواع متخصصة مثل تقييم الأثر وتقييم الفعالية من حيث التكلفة.

بالإضافة إلى الأنواع الرئيسية، هناك أنواع فرعية متخصصة تلبي احتياجات تحليلية محددة. على سبيل المثال، يركز تقييم العملية (Process Evaluation) على كيفية تنفيذ البرنامج، والتحقق مما إذا كانت الموارد تُستخدم بكفاءة وما إذا كان المستفيدون المستهدفون يتلقون الخدمات بالفعل. بينما يسعى تقييم الأثر (Impact Evaluation) إلى تحديد التغييرات السببية المباشرة التي يمكن إسنادها إلى التدخل حصرياً، وغالباً ما يتطلب هذا النوع تصاميم تجريبية أو شبه تجريبية صارمة. إن تحديد النوع المناسب من التقييم هو الخطوة الأولى الحاسمة لضمان أن يكون البحث ذا صلة ومفيداً.

  • التقييم التكويني (Formative Evaluation): يهدف إلى التحسين المستمر أثناء التنفيذ.
  • التقييم الختامي (Summative Evaluation): يهدف إلى الحكم على القيمة الإجمالية والفعالية بعد الانتهاء.
  • تقييم العملية (Process Evaluation): يركز على كفاءة وجودة تنفيذ الأنشطة.
  • تقييم الأثر (Impact Evaluation): يحدد التغييرات السببية التي يمكن إسنادها بشكل مباشر للتدخل.

4. الخصائص والمبادئ الرئيسية

تخضع ممارسة بحث التقييم لمجموعة من المعايير والمبادئ الأخلاقية والمهنية التي تضمن جودة البحث وقبوله. وقد وضعت لجان مهنية دولية، مثل اللجنة المشتركة لمعايير التقييم (Joint Committee on Standards for Educational Evaluation)، إطاراً شاملاً يتكون عادةً من أربعة معايير رئيسية: المنفعة، والجدوى، والنزاهة، والدقة. هذه المعايير تعمل بمثابة بوصلة للمُقيّمين لضمان أن عملهم لا يكون فقط صحيحاً منهجياً، بل أيضاً أخلاقياً ومفيداً في السياق التنظيمي.

يُعد مبدأ المنفعة (Utility) ربما الأهم في بحث التقييم، إذ يشدد على ضرورة تصميم التقييم وتنفيذه وإبلاغ نتائجه بطريقة تخدم احتياجات المعلومات الخاصة بالمستخدمين المعتزمين. وهذا يتطلب مشاركة فعالة لأصحاب المصلحة في تحديد أسئلة التقييم، وضمان أن تكون النتائج ذات صلة وفي الوقت المناسب وقابلة للفهم. إن التقييم الذي لا يُستخدم لتحسين صنع القرار يعتبر فشلاً، بغض النظر عن مدى دقته المنهجية. ولذلك، يجب أن يكون المُقيّم قادراً على ترجمة البيانات المعقدة إلى توصيات واضحة وعملية.

أما مبدأي الجدوى العملية (Feasibility) والنزاهة والأخلاق (Propriety)، فيتعلقان بالقيود التنفيذية والسلوك المهني. يجب أن يكون التقييم واقعياً وممكناً من حيث الموارد المتاحة (الوقت، الميزانية، البيانات)، ولا يجب أن يعطل تنفيذ البرنامج بشكل غير مبرر. ومن الناحية الأخلاقية، يجب أن يضمن بحث التقييم احترام حقوق ورفاهية جميع الأفراد المشاركين، بما في ذلك السرية والموافقة المستنيرة والعدالة. كما يتطلب مبدأ النزاهة أن يكون المُقيّم محايداً وموضوعياً، وأن يتجنب تضارب المصالح، وأن يكون شفافاً بشأن القيود المنهجية.

ويضمن مبدأ الدقة والموثوقية (Accuracy) أن يتم جمع البيانات وتحليلها وتفسيرها بطريقة منهجية صحيحة تبرر الاستنتاجات التي يتم التوصل إليها. وهذا يشمل استخدام أدوات قياس صالحة وموثوقة، وتطبيق تصاميم بحثية تسيطر على مصادر التحيز والتهديدات للصدق الداخلي والخارجي، وتقديم أدلة كافية لدعم الأحكام الصادرة عن التقييم. إن الالتزام بهذه المبادئ الأربعة يرفع من مستوى بحث التقييم من مجرد ممارسة إدارية إلى تحقيق علمي يهدف إلى خدمة الصالح العام من خلال أدلة راسخة.

  • المنفعة (Utility): يجب أن تكون نتائج التقييم ذات صلة ومفيدة للمستخدمين المعتزمين.
  • الجدوى العملية (Feasibility): يجب أن يكون التقييم واقعياً وممكناً من الناحية التنفيذية والموارد المتاحة.
  • النزاهة والأخلاق (Propriety): الالتزام بأعلى المعايير الأخلاقية وضمان حماية المشاركين.
  • الدقة والموثوقية (Accuracy): استخدام مناهج صارمة لضمان صحة وموثوقية النتائج والاستنتاجات.

5. الأدوات وإجراءات جمع البيانات

يتطلب بحث التقييم استخدام مجموعة واسعة من الأدوات والإجراءات لجمع وتحليل البيانات، اعتماداً على طبيعة البرنامج والسؤال المُراد الإجابة عليه. في التقييمات التي تتطلب إثباتاً قوياً للسببية، يتم اللجوء إلى التجارب العشوائية المُحكمة (RCTs) حيث يتم توزيع المشاركين عشوائياً بين مجموعة علاج ومجموعة ضابطة، مما يوفر أقوى دليل على أن التغيير الملحوظ يعود فعلاً للتدخل وليس لعوامل خارجية. ومع ذلك، نظراً للصعوبات الأخلاقية واللوجستية في إجراء التجارب العشوائية في السياقات الاجتماعية، غالباً ما يتم استخدام التصاميم شبه التجريبية (Quasi-Experimental Designs)، مثل مقارنات المجموعات غير المتكافئة أو تحليلات السلاسل الزمنية المتقطعة.

بالإضافة إلى التصاميم الكمية، يلعب جمع البيانات الكيفية دوراً حيوياً في توفير العمق والسياق اللازمين لفهم سبب عمل أو فشل برنامج معين. تشمل الأدوات الكيفية الشائعة المقابلات المتعمقة مع المستفيدين والموظفين، ومجموعات التركيز (Focus Groups) لاستكشاف الآراء الجماعية، والملاحظة المباشرة للعمليات التنفيذية. وتساعد هذه الأساليب في الكشف عن الآليات الكامنة (Theory of Change) التي تربط أنشطة البرنامج بالنتائج المرجوة، وهي ضرورية بشكل خاص في التقييمات التكوينية التي تهدف إلى تحسين العملية.

في العصر الحديث، توسع نطاق أدوات جمع البيانات ليشمل الاستفادة من البيانات الضخمة والبيانات الإدارية الثانوية، مما يقلل من عبء جمع البيانات الأولية ويتيح تقييمات واسعة النطاق بتكلفة أقل. كما أصبحت أدوات المسح والاستبيانات الرقمية، وتقنيات رسم الخرائط المنطقية (Logic Modeling) لتوضيح علاقات السبب والنتيجة المتوقعة، جزءاً لا يتجزأ من الإجراءات المنهجية. يتطلب المُقيّم المعاصر إتقان ليس فقط المهارات الإحصائية التقليدية، بل أيضاً القدرة على دمج وتحليل مجموعات بيانات متعددة ومتباينة (Mixed Methods Analysis) لتقديم استنتاجات قوية ومتكاملة.

6. الأهمية والتأثير

تكمن الأهمية الجوهرية لبحث التقييم في كونه حجر الزاوية للمساءلة الرشيدة والحوكمة الفعالة. في بيئة تتسم بشح الموارد وزيادة التوقعات العامة، يوفر التقييم دليلاً موضوعياً يُمكّن الحكومات والمنظمات غير الحكومية والمؤسسات الخيرية من إثبات أن استثماراتها تحقق القيمة المرجوة. إن تقييمات الأثر، على وجه الخصوص، تُعد ضرورية لتبرير استمرار البرامج، حيث تمنع هدر الأموال العامة على تدخلات غير فعالة، وتضمن تخصيص الموارد للبرامج التي أثبتت فعاليتها إحصائياً وعملياً.

بالإضافة إلى المساءلة، يلعب بحث التقييم دوراً حاسماً في تعزيز التعلم المؤسسي. عندما يتم تصميم التقييم بشكل تكويني وتشاركي، فإنه يوفر آلية منظمة للمنظمة لكي تفهم ليس فقط “ماذا حدث”، بل “لماذا حدث” و “كيف يمكن القيام به بشكل أفضل”. هذه التغذية الراجعة المستمرة تُمكّن المديرين من إجراء تعديلات سريعة على البرنامج، وتحسين جودة الخدمات، وتعزيز قدرة المؤسسة على الاستجابة للتحديات المتغيرة. ويتحول التقييم بذلك من مجرد أداة مراقبة إلى محرك استراتيجي للابتكار والتحسين.

يمتد تأثير بحث التقييم ليشمل صنع السياسات العامة على مستوى أوسع. توفر النتائج القوية والقائمة على الأدلة الأساس اللازم لتطوير سياسات مستنيرة، بعيداً عن القرارات القائمة على الحدس أو التحيز السياسي. على سبيل المثال، يمكن لتقييمات واسعة النطاق للبرامج التعليمية أو الصحية أن تحدد أفضل الممارسات التي يمكن توسيع نطاقها وتطبيقها على المستوى الوطني. وبالتالي، فإن بحث التقييم هو الأداة التي تضمن أن تكون الاستجابات المجتمعية للتحديات الكبرى منهجية، ومثبتة الفعالية، وموجهة نحو تحقيق أهداف التنمية المستدامة.

7. التحديات والانتقادات

على الرغم من الأهمية المتزايدة لبحث التقييم، فإنه يواجه عدداً من التحديات الجوهرية والانتقادات المنهجية والعملية. أحد أبرز هذه التحديات هو فجوة الاستخدام (Utilization Gap)، حيث تشير العديد من الدراسات إلى أن نتائج التقييمات، حتى الأكثر دقة منها، غالباً ما يتم تجاهلها أو لا تُستخدم بالكامل في عملية صنع القرار. ويعود هذا غالباً إلى العوائق التنظيمية، أو توقيت التقييم غير المناسب، أو عدم كفاية التواصل بين المُقيّم والمستخدمين، أو مقاومة التغيير داخل المؤسسة.

كما يواجه بحث التقييم تحديات كبيرة تتعلق بالتحيز والسياق السياسي. يمكن أن يكون التقييم أداة سياسية، حيث قد يسعى صانعو القرار إلى “تقييم” البرامج بهدف تبرير خفض الميزانية أو إنهائها، بدلاً من السعي بصدق للتعلم والتحسين. وهذا يضع ضغوطاً هائلة على حيادية المُقيّم، الذي قد يجد نفسه مضطراً للموازنة بين الحاجة إلى النزاهة المهنية والضغوط من الجهة الممولة. كما أن طبيعة البرامج الاجتماعية المعقدة تجعل من الصعب للغاية عزل تأثير التدخل عن تأثير العوامل الخارجية المتزامنة (مشكلة الإسناد)، مما يقلل من القوة الاستدلالية حتى للتصاميم البحثية المتقدمة.

من الناحية المنهجية، يواجه المُقيّمون صعوبة في التعامل مع التعقيد المتزايد للبرامج، خاصة تلك التي تعتمد على نظريات تغيير غير خطية وتعمل في بيئات ديناميكية. النماذج التقليدية التي تفترض علاقة سببية بسيطة قد تفشل في فهم التفاعل بين المكونات المختلفة للبرنامج. وقد أدت هذه الانتقادات إلى ظهور نماذج تقييم جديدة، مثل التقييم المرتكز على النظرية (Theory-Based Evaluation) والتقييم التنموي (Developmental Evaluation)، التي تحاول التعامل مع عدم اليقين والتكيف المستمر كجزء أساسي من عملية البحث.

أخيراً، هناك تحديات أخلاقية مرتبطة بضمان العدالة والمشاركة. يجب أن يحرص بحث التقييم على ألا يصبح أداة لتعزيز وجهات نظر النخبة أو الممولين على حساب أصوات المستفيدين. وتتطلب القضايا المتعلقة بحماية البيانات، والتعامل مع النتائج السلبية المحتملة، وضمان أن يكون التقييم عادلاً ثقافياً وحساساً للسياق، يقظة أخلاقية مستمرة من قبل الباحثين في هذا المجال.

8. مصادر إضافية للقراءة