النماذج الإحصائية المعممة: تحليل البيانات بنظرة نفسية أدق

مدرس الدكتور محمد لوتي

المحتويات:

النموذج المضاف المعمم (Generalized Additive Model – GAM)

المجالات التخصصية الرئيسية: الإحصاء التطبيقي، التعلم الآلي، الاقتصاد القياسي، نمذجة البيانات البيئية والبيولوجية.

1. النموذج المضاف المعمم: التعريف والنطاق

يمثل النموذج المضاف المعمم (GAM) توسيعاً مرناً وقوياً للنماذج الخطية المعممة (GLMs)، حيث يسمح باستكشاف العلاقات المعقدة وغير الخطية بين المتغيرات التنبؤية ومتغير الاستجابة دون الحاجة إلى تحديد مسبق للشكل الوظيفي لهذه العلاقات. على عكس النماذج الخطية التقليدية التي تفترض أن تأثير كل متغير تنبؤي على الاستجابة يتم تمثيله بمعامل واحد ثابت، يستبدل GAM المكون الخطي البسيط بمجموع دوال تجانسية (Smooth Functions) غير معلمية (Non-parametric)، مما يوفر مرونة تحليلية كبيرة. وقد تم تطوير هذا الإطار في البداية بواسطة تريفور هاستي وروبرت تيبشيراني في أواخر الثمانينات وبداية التسعينات، ليصبح أداة أساسية في مجالات تتطلب فهماً دقيقاً للتفاعلات المعقدة التي لا تتبع بالضرورة الافتراضات الخطية الصارمة.

يكمن جوهر قوة GAM في قدرته على الحفاظ على قابلية التفسير التي تتميز بها النماذج الخطية، مع دمج المرونة اللازمة لالتقاط الأشكال غير الخطية المعقدة للبيانات. رياضياً، يمكن التعبير عن النموذج المضاف المعمم بشكل عام كالتالي: حيث يشير إلى دالة الارتباط (Link Function) التي تربط القيمة المتوقعة لمتغير الاستجابة بتركيبة خطية من الدوال التجانسية. هذه الدوال التجانسية (التي تُرمز عادةً بـ ) هي دوال غير معلمية تعتمد على المتغيرات التنبؤية ، ويتم تقديرها من البيانات بدلاً من تحديد شكلها مسبقاً (مثل التربيعي أو اللوغاريتمي). هذه المرونة تجعل GAM مثالياً لتحليل البيانات التي تظهر فيها العلاقات نقاط انعطاف، أو منحنيات متعددة القمم، أو تغيرات في شكل التأثير بناءً على نطاق المتغير التنبؤي.

إن النطاق التطبيقي لـ GAM واسع جداً، ويمتد من علم الأوبئة وتحليل المخاطر البيئية إلى التمويل والتسويق. ففي المجالات البيئية على سبيل المثال، قد تكون العلاقة بين درجة الحرارة ومعدل نمو الكائنات الحية غير خطية، حيث يكون التأثير إيجابياً حتى نقطة معينة ثم يصبح سلبياً. GAM يسمح للبيانات “بالتحدث عن نفسها” وتحديد شكل هذه العلاقة التجانسية دون تدخل الباحث لفرض شكل خطي قد يكون غير دقيق. بالإضافة إلى ذلك، يحافظ GAM على الخاصية الإضافية (Additive Property)، مما يعني أن تأثير كل متغير تنبؤي يمكن تفسيره بشكل منفصل، وهو ما يسهل عملية فهم المساهمة الفردية لكل متغير في التنبؤ بالاستجابة، خلافاً للنماذج غير الخطية المعقدة الأخرى مثل الشبكات العصبية التي غالباً ما تكون صناديق سوداء يصعب تفسيرها.

2. الخلفية النظرية: من النماذج الخطية المعممة (GLMs)

لفهم النموذج المضاف المعمم، من الضروري البدء بالنماذج الخطية المعممة (GLMs)، التي وضع أسسها جون نيلدر وروبرت ويدربيرن في عام 1972. تهدف GLMs إلى توسيع النماذج الخطية الكلاسيكية لتشمل متغيرات استجابة لا تتبع التوزيع الطبيعي، مثل البيانات الثنائية (باستخدام توزيع برنولي) أو بيانات العد (باستخدام توزيع بواسون). يتكون GLM من ثلاثة عناصر رئيسية: المكون العشوائي (توزيع متغير الاستجابة)، والمكون الخطي (التركيبة الخطية للمتغيرات التنبؤية)، ودالة الارتباط (التي تربط هذين المكونين). ومع ذلك، يفترض GLM أن المكون الخطي هو علاقة خطية صارمة بين المتغيرات التنبؤية ومحولها الخطي، وهو افتراض قد يكون مقيداً بشدة في البيانات الواقعية.

جاء GAM ليعالج القيد الأساسي في GLM المتعلق بالخطية الصارمة. في حين أن GLM يمثل العلاقة بين المتغيرات التنبؤية والمُحوَّل الخطي باستخدام ، حيث تمثل المعاملات الثابتة، فإن GAM يستبدل هذا المكون بمجموع الدوال التجانسية: . هذا التحول الجوهري يسمح لـ GAM بالتعامل مع البيانات المعقدة التي تفشل فيها الافتراضات الخطية بشكل كبير. بمعنى آخر، حافظ GAM على هيكل GLM (دالة الارتباط وعائلة التوزيع الأسية) ولكنه استبدل الجزء المعلمي (الخطية) بجزء غير معلمي (الدوال التجانسية). هذا المزيج سمح للإحصائيين بالحفاظ على الإطار النظري القوي لـ GLMs مع اكتساب قدر أكبر من المرونة في نمذجة العلاقات الوظيفية.

يعد الانتقال من GLMs إلى GAMs تطوراً طبيعياً في الإحصاء الحديث، مدفوعاً بالحاجة إلى نمذجة بيانات أكثر ثراءً وتعقيداً، خاصة مع تزايد توافر البيانات الضخمة. بينما يتطلب GLM تحديد شكل العلاقة (خطية، لوغاريتمية، إلخ) قبل تحليل البيانات، فإن GAM يستخدم تقنيات التجانس لتعلم الشكل الأمثل للعلاقة مباشرة من البيانات نفسها. هذا يجعل GAM أقل عرضة لأخطاء التحديد المسبق للنموذج (Model Misspecification)، مما يؤدي إلى تنبؤات أكثر دقة وفهم أعمق للظواهر الأساسية التي يتم دراستها.

3. المكونات الأساسية للنموذج المضاف المعمم

يتألف النموذج المضاف المعمم من ثلاثة مكونات هيكلية رئيسية تعمل بالتنسيق لتوفير المرونة الإحصائية المطلوبة. المكون الأول هو عائلة التوزيع الأسية (Exponential Family Distribution)، وهي نفس العائلة المستخدمة في GLMs. تحدد هذه العائلة طبيعة متغير الاستجابة (مثل التوزيع الطبيعي للبيانات المستمرة، أو بواسون لبيانات العد، أو برنولي لبيانات الاحتمالات). اختيار التوزيع الصحيح أمر بالغ الأهمية لضمان صحة الاستدلالات الإحصائية.

المكون الثاني هو دالة الارتباط (Link Function)، والتي تربط القيمة المتوقعة للاستجابة بالمُجمَّع الخطي للدوال التجانسية. تضمن دالة الارتباط أن تكون التنبؤات النهائية ضمن النطاق الصحيح لمتغير الاستجابة. على سبيل المثال، إذا كانت الاستجابة ثنائية (احتمال)، يتم استخدام دالة “اللوجيت” (Logit Function) لربط الاحتمال بالمُجمَّع الخطي، مما يضمن أن تتراوح التنبؤات بين صفر وواحد. اختيار دالة الارتباط الصحيحة يضمن التوافق بين الخصائص الرياضية للنموذج والخصائص الإحصائية للبيانات.

المكون الثالث والأكثر تميزاً في GAM هو الدوال التجانسية المضافة (Additive Smooth Functions). هذه الدوال مسؤولة عن التقاط الشكل غير الخطي لتأثير المتغيرات التنبؤية. بدلاً من استخدام المعاملات الثابتة، يتم تمثيل هذه الدوال بمزيج خطي من دوال الأساس (Basis Functions)، مثل شرائح B-splines أو شرائح اللوحة الرقيقة (Thin Plate Splines). إن درجة “التجانس” أو المرونة لهذه الدوال يتم التحكم فيها بواسطة معاملات التجانس (Smoothing Parameters)، التي تعمل كعقوبة (Penalty) على تعقيد النموذج. إذا كانت قيمة معامل التجانس عالية، يصبح المنحنى أكثر سلاسة ويقترب من الخط المستقيم؛ وإذا كانت منخفضة، يصبح المنحنى أكثر تذبذباً وغير خطي، مما يزيد من خطر الملاءمة المفرطة (Overfitting) للبيانات.

دالة الارتباط: تربط المتوسط المتوقع للاستجابة بالمتنبئات الخطية.
عائلة التوزيع: تحدد التوزيع الاحتمالي لمتغير الاستجابة (مثل الغاوسي، بواسون، جاما).
الدوال التجانسية: تمثل التأثيرات غير الخطية للمتغيرات التنبؤية وتُبنى باستخدام دوال الأساس والتقدير غير المعلمي.

4. تطوير GAM والرواد الأوائل

ظهرت فكرة النمذجة المضافة في الإحصاء في وقت مبكر، ولكن الصياغة الرسمية والموثوقة للنموذج المضاف المعمم تم تحقيقها من خلال عمل تريفور هاستي وروبرت تيبشيراني في أواخر الثمانينات، وتوجت بنشر كتابهما المؤثر “النماذج الإحصائية المضافة والمنطبقة” (Generalized Additive Statistical Models) في عام 1990. وقد جاء هذا العمل في سياق بحث أوسع عن طرق لدمج المرونة غير المعلمية في الإطار القوي للنماذج الخطية المعممة. كانت التحديات الرئيسية تكمن في كيفية تقدير هذه الدوال التجانسية بكفاءة وكيفية التحكم في درجة تجانسها بشكل موضوعي.

في المراحل الأولى، اعتمد تقدير GAMs على خوارزمية تعرف باسم التعديل الخلفي (Backfitting Algorithm). هذه الخوارزمية هي طريقة تكرارية لتقدير كل دالة تجانسية على حدة، مع تثبيت الدوال الأخرى، وتكرار العملية حتى يتم التقارب. على الرغم من أن التعديل الخلفي كان فعالاً في تقديم حلول قابلة للتطبيق، إلا أنه كان يواجه تحديات حاسوبية ولم يكن يدمج بشكل مباشر اختيار معاملات التجانس ضمن عملية الملاءمة نفسها. كان هذا يعني أن الباحث يحتاج إلى تحديد درجة التجانس (أو درجات الحرية الفعالة) لكل دالة بشكل مسبق أو تجريبي.

حدثت ثورة حقيقية في تطوير GAMs مع عمل سيمون وود (Simon Wood) في أوائل العقد الأول من القرن الحادي والعشرين، الذي قدم تحسينات كبيرة في الجوانب الحسابية والنظرية. فقد قام وود بإعادة صياغة مشكلة تقدير GAM على أنها مشكلة ملاءمة مقدرة بأقصى ترجيح مع عقوبة (Penalized Likelihood Estimation)، حيث يمكن اعتبار الدوال التجانسية كشرائح (Splines) يتم تحديدها من خلال العقوبات. الأهم من ذلك، أظهر وود كيف يمكن تحديد معاملات التجانس بشكل آلي وموضوعي كجزء من عملية الملاءمة، غالباً باستخدام طرق مثل الحد الأقصى للترجيح المقيد (REML) أو التحقق المتقاطع المعمم (GCV)، مما جعل GAMs أداة أكثر قوة ويسهل تطبيقها عملياً. هذه التطورات جعلت مكتبة mgcv في لغة R هي المعيار الفعلي لتطبيق GAMs.

5. تقدير المعلمات والوظائف التجانسية

يختلف تقدير النموذج المضاف المعمم عن النماذج الخطية التقليدية نظراً للطبيعة غير المعلمية للدوال التجانسية. يتمثل الهدف في GAM في إيجاد الدوال التجانسية التي تزيد من ترجيح البيانات (أو تقلل من مجموع مربعات الأخطاء في حالة التوزيع الطبيعي)، مع تطبيق عقوبة على تعقيد هذه الدوال. يتم تحقيق ذلك من خلال دمج مصطلح العقوبة (Penalty Term) في دالة الهدف (الترجيح المقدر). هذه العقوبة تتناسب مع درجة تذبذب الدالة التجانسية، وتعمل على “تجانس” المنحنى. رياضياً، يتم حل مشكلة التحسين (Optimization) لإيجاد دوال الأساس ومعاملاتها التي توازن بين ملاءمة البيانات ودرجة التجانس المطلوبة.

تعتمد عملية التقدير الحديثة التي طورها سيمون وود على إعادة صياغة مشكلة GAM كنموذج خطي معمَّم مختلط (Generalized Additive Mixed Model – GAMM) أو كنظام مُعاقَب (Penalized System). يتم تمثيل كل دالة تجانسية كتركيبة خطية من دوال الأساس، مثل شرائح B-splines المكبوتة (P-splines). تؤدي إضافة مصطلح العقوبة إلى تحويل مشكلة التقدير غير المعلمي إلى مشكلة تقدير معلمي مقيد، والتي يمكن حلها باستخدام خوارزميات فعالة تعتمد على المصفوفات. هذا يسمح بتقدير النموذج كاملاً باستخدام خوارزميات التكرار (مثل طريقة نيوتن أو التعديل الخلفي) التي تصل إلى حلول مستقرة وفعالة.

إن المفتاح للتقدير الفعال هو معاملات التجانس (Smoothing Parameters)، التي تحدد مدى قوة العقوبة المطبقة. إذا كانت قيمة معامل التجانس صفراً، فإن النموذج يعود إلى كونه نموذجاً مضافاً غير معاقَب، مما يؤدي غالباً إلى ملاءمة مفرطة. إذا كانت القيمة كبيرة جداً، فإن النموذج يجبر الدالة التجانسية على أن تكون خطية، مما يعيدنا إلى النموذج الخطي المعمم. يتم اختيار هذه المعاملات بشكل آلي عادةً عن طريق آليات مثل التحقق المتقاطع المعمم (GCV) أو تقدير الترجيح الأقصى المقيد (REML). يسمح REML، على وجه الخصوص، بإدراج عدم اليقين المرتبط باختيار التجانس في حسابات التباين، مما يوفر استدلالات إحصائية أكثر دقة حول شكل الدوال التجانسية.

6. اختيار النموذج والتجانس

يعد اختيار درجة التجانس المناسبة أمراً حاسماً في تطبيق GAMs، لأنه يحدد التوازن بين الانحياز والتباين (Bias-Variance Trade-off). إذا كان التجانس كبيراً (عقوبة عالية)، يكون النموذج متحيزاً ولكنه مستقر (تباين منخفض). وإذا كان التجانس قليلاً (عقوبة منخفضة)، يكون النموذج أكثر مرونة ولكنه عرضة لتقلبات البيانات (تباين عالٍ وملاءمة مفرطة). تُقاس درجة تعقيد الدالة التجانسية عادةً من خلال درجات الحرية الفعالة (Effective Degrees of Freedom – EDF)، والتي تشير إلى عدد المعاملات الخطية التي يمكن استبدال النموذج التجانس بها.

تُستخدم عدة معايير لضبط واختيار معاملات التجانس. أحد المعايير التاريخية هو التحقق المتقاطع المعمم (GCV)، وهو تقريب رياضي للتحقق المتقاطع التقليدي مصمم لتقليل التكلفة الحسابية. يهدف GCV إلى اختيار معاملات التجانس التي تقلل من خطأ التنبؤ المتوقع على مجموعة بيانات جديدة. في التطبيقات الحديثة، أصبح تقدير الترجيح الأقصى المقيد (REML) هو الخيار المفضل على نطاق واسع. يعتبر REML أكثر كفاءة وموثوقية، خاصة عند التعامل مع البيانات الصغيرة أو عندما تكون درجات الحرية الفعالة قريبة من الصفر، حيث يوفر تقديرات غير متحيزة لمعاملات التباين.

بالإضافة إلى ضبط التجانس، يتطلب اختيار نموذج GAM الجيد تقييم ما إذا كانت الشروط غير الخطية ضرورية على الإطلاق. يمكن للباحثين استخدام اختبارات النسبة الترجيحية (Likelihood Ratio Tests) أو اختبارات والْد (Wald Tests) لمقارنة نموذج GAM كامل بنموذج GLM خطي مكافئ (عندما تكون جميع الدوال التجانسية خطية). كما يمكن استخدام معايير معلوماتية قياسية، مثل معيار آيكيكي للمعلومات (AIC) أو معيار بايز للمعلومات (BIC)، للمقارنة بين نماذج GAMs مختلفة، على الرغم من أن تفسير هذه المعايير في سياق النماذج غير المعلمية يتطلب حذراً. الأهم هو فحص الرسوم البيانية للدوال التجانسية بعد التقدير، إلى جانب فترات الثقة المحيطة بها، لتقييم أهمية وشكل التأثيرات غير الخطية.

7. تطبيقات النموذج المضاف المعمم

نظراً لمرونته الكبيرة وقابليته للتفسير، يجد النموذج المضاف المعمم تطبيقات واسعة في مجموعة متنوعة من المجالات العلمية والتحليلية. في مجال علم البيئة وعلم المحيطات، يعد GAM أداة أساسية لنمذجة العلاقات بين توزيع الكائنات الحية والمتغيرات البيئية (مثل درجة حرارة المياه، والملوحة، والعمق). تسمح GAMs لعلماء البيئة بتحديد الأنماط المعقدة التي تظهر فيها الأنواع تفاعلات غير خطية مع بيئتها، مثل المناطق المثلى (Sweet Spots) حيث يكون التواجد أو الوفرة في أقصى الحدود.

في علم الأوبئة والصحة العامة، يستخدم GAM بشكل متكرر لنمذجة العلاقة بين التعرض للملوثات البيئية (مثل جزيئات PM2.5) والمخاطر الصحية (مثل معدلات الوفيات أو دخول المستشفيات). غالباً ما تكون هذه العلاقات على شكل منحنى J أو U مقلوب، حيث لا يمكن للنموذج الخطي التقاطها بدقة. يسمح GAM بتقدير منحنيات الجرعة-الاستجابة (Dose-Response Curves) التي قد تكون غير خطية، مما يساعد صانعي السياسات على تحديد مستويات التعرض الآمنة أو الخطرة بدقة أكبر. كما يُستخدم في تحليل السلاسل الزمنية لبيانات الأمراض المعدية، حيث يمكنه فصل الاتجاهات الموسمية والاتجاهات الطويلة الأجل بمرونة.

تتضمن التطبيقات الأخرى المهمة استخدام GAM في الاقتصاد القياسي والتمويل لنمذجة أسعار الأصول أو التنبؤات الاقتصادية عندما يُشتبه في وجود تأثيرات عتبة (Threshold Effects) أو غير خطية في العلاقة بين المتغيرات الكلية. كما أنه مفيد في التسويق وتحليل العملاء لنمذجة احتمالية الشراء كدالة للعمر، أو الدخل، أو عدد المرات التي تم فيها عرض إعلان معين، حيث من المحتمل أن يكون تأثير هذه المتغيرات غير خطي (على سبيل المثال، زيادة طفيفة في الاستجابة عند مستويات منخفضة، وزيادة حادة عند مستويات متوسطة، ثم ثبات عند مستويات عالية).

8. المزايا والقيود والانتقادات

يتمتع النموذج المضاف المعمم بعدد من المزايا البارزة التي تفسر انتشاره الواسع. أولاً، المرونة البنيوية: فهو يوفر حلاً وسطاً مثالياً بين النماذج الخطية القابلة للتفسير والأساليب غير المعلمية المعقدة (مثل التعلم العميق). يمكن لـ GAM التقاط العلاقات غير الخطية المعقدة بشكل جيد دون أن يصبح “صندوقاً أسود”. ثانياً، قابلية التفسير: نظراً لطبيعته الإضافية، يمكن تفسير تأثير كل متغير تنبؤي بشكل رسومي كدالة تجانسية ثنائية الأبعاد، مما يسهل فهم المساهمة الهامشية لكل متغير بشكل واضح ومباشر. ثالثاً، الصلابة الإحصائية: يحافظ GAM على الأساس النظري القوي لـ GLMs، بما في ذلك القدرة على التعامل مع عائلات التوزيع غير الطبيعية واستخدام اختبارات الفرضيات الموثوقة.

ومع ذلك، يواجه GAM عدداً من القيود. التحدي الأبرز هو لعنة الأبعاد (Curse of Dimensionality). على الرغم من أن GAMs تعمل بشكل جيد مع متغيرات تنبؤية قليلة، فإن نمذجة التفاعلات التجانسية عالية الأبعاد (أكثر من متغيرين) تصبح صعبة حاسوبياً وتتطلب بيانات وفيرة جداً لتجنب الملاءمة المفرطة. إن التمثيل الرسومي للتأثيرات الثنائية (التفاعلات بين متغيرين) ممكن، ولكنه يصبح معقداً أو مستحيلاً عندما تزيد أبعاد التفاعل. كما أن التعقيد الحسابي لتقدير معاملات التجانس بشكل آلي (باستخدام REML أو GCV) يمكن أن يكون كبيراً، خاصة بالنسبة لمجموعات البيانات الكبيرة جداً أو النماذج التي تحتوي على عدد كبير من الدوال التجانسية.

على صعيد الانتقادات، غالباً ما يتم توجيه النقد إلى GAMs فيما يتعلق بالافتراض الإضافي (Additive Assumption) نفسه. يفترض GAM أن التأثير الكلي هو مجرد مجموع التأثيرات الفردية لكل متغير، مما يعني أن تأثير متغير ما لا يعتمد على قيمة المتغيرات الأخرى. في العديد من الظواهر الواقعية (خاصة في البيولوجيا والفيزياء)، تكون التفاعلات بين المتغيرات ضرورية وحاسمة. بينما يمكن لـ GAM أن يدرج مصطلحات تفاعلية تجانسية، فإن تضمينها غالباً ما يقلل من قابلية التفسير ويزيد من متطلبات البيانات بشكل كبير، مما يدفع بعض الباحثين إلى تفضيل نماذج أخرى مثل أشجار القرار أو التعلم العميق عندما تكون التفاعلات غير المضافة هي العنصر الأكثر أهمية في التنبؤ.

9. قضايا متقدمة: GAMs الهرمية والمكانية

للتغلب على بعض قيود النموذج المضاف المعمم الأساسي، تم تطوير العديد من التوسعات المتقدمة. أحد أهم هذه التوسعات هو النماذج المضافة المعممة المختلطة (Generalized Additive Mixed Models – GAMMs). تسمح GAMMs بدمج التأثيرات العشوائية (Random Effects) في الإطار المضاف المعمم، وهو أمر ضروري عند التعامل مع البيانات المجمعة، أو بيانات السلاسل الزمنية، أو البيانات التي تحتوي على تكرارات متعددة القياسات ضمن وحدات مختلفة (مثل قياس درجات الحرارة في مواقع جغرافية مختلفة). تسمح GAMMs بتقدير التأثيرات التجانسية العامة مع حساب التباين الهيكلي داخل البيانات، مما يحسن من دقة الاستدلالات الإحصائية.

توسيع آخر مهم هو النماذج المضافة المعممة المكانية والزمانية (Spatio-Temporal GAMs). في العديد من التطبيقات البيئية، يعتمد متغير الاستجابة ليس فقط على المتغيرات التنبؤية المباشرة ولكن أيضاً على الموقع الجغرافي (الإحداثيات المكانية) أو الوقت. يمكن لـ GAMs نمذجة هذه التأثيرات المكانية والزمانية بشكل مرن عن طريق إدراج دوال تجانسية ثنائية الأبعاد للإحداثيات المكانية (مثل خطوط الطول ودوائر العرض). وهذا يسمح بتقدير الاتجاهات المكانية غير الخطية في البيانات، مما يمكّن الباحثين من عزل التأثيرات البيئية الصرفة عن التباين الناتج عن الموقع الجغرافي أو الزمن.

بالإضافة إلى ذلك، تم تطوير أساليب لدمج اختيار التجانس غير المعلمي المتعدد (Multiple Non-parametric Smoothing Selection) داخل GAM. هذا يسمح بتقدير نماذج حيث يتم نمذجة بعض المتغيرات كخطية بسيطة، والبعض الآخر كدوال تجانسية غير خطية، مع ترك النظام الإحصائي يختار تلقائياً الشكل الأكثر ملاءمة لكل متغير. هذا يزيد من كفاءة النموذج ويقلل من الحاجة إلى تدخل الباحث في مرحلة ما قبل التحديد، مما يعزز من قوة GAM كأداة لاكتشاف المعرفة في البيانات.