التباين الموضح – explained variance

مدرس الدكتور محمد لوتي

المحتويات:

التباين المفسر (Explained Variance)

Primary Disciplinary Field(s): الإحصاء، الاقتصاد القياسي، علم النفس القياسي، التعلم الآلي.

1. التعريف الجوهري

يمثل مفهوم التباين المفسر (Explained Variance) حجر الزاوية في التحليل الإحصائي التطبيقي، وهو مقياس كمي يحدد النسبة المئوية من التباين الكلي في متغير تابع (متغير الاستجابة) التي يمكن تفسيرها أو التنبؤ بها بنجاح بواسطة النموذج الإحصائي المستخدم، وذلك بالاعتماد على المتغيرات المستقلة (المتغيرات التوضيحية) المدرجة في هذا النموذج. بعبارة أخرى، إذا كان هناك تقلب أو تشتت في قيم البيانات المرصودة لظاهرة معينة، فإن التباين المفسر يسعى لتحديد مقدار هذا التشتت الذي لا يعزى للعشوائية أو الخطأ، بل يعزى بشكل مباشر للتأثيرات المنهجية التي تسببها المتغيرات التي قام الباحث بقياسها وإدراجها في النموذج. هذا المقياس ضروري لتقييم مدى جودة الملاءمة (Goodness of Fit) للنموذج المقترح، حيث تعكس القيمة الأعلى للتباين المفسر قدرة تنبؤية أو تفسيرية أقوى للنموذج.

يتم التعبير عن التباين المفسر عادة كنسبة تتراوح بين الصفر والواحد، أو كنسبة مئوية تتراوح بين 0% و 100%. عندما تكون هذه النسبة قريبة من 1 (أو 100%)، فهذا يعني أن المتغيرات المستقلة تنجح في تفسير أو التقاط الغالبية العظمى من التباين المشاهد في المتغير التابع، مما يشير إلى أن النموذج شامل وموثوق. على النقيض من ذلك، إذا كانت النسبة قريبة من الصفر، فإن ذلك يدل على أن النموذج لا يملك أي قدرة تفسيرية تذكر، وأن التباين المشاهد في المتغير التابع يعزى بشكل رئيسي إلى التباين غير المفسر (Unexplained Variance)، والذي يشار إليه غالباً باسم الخطأ العشوائي أو البواقي (Residuals). يعد فهم هذا التوازن بين التباين المفسر والتباين غير المفسر أمراً محورياً في تحديد صلاحية النماذج الإحصائية وتحديد المتغيرات الأكثر تأثيراً في دراسة الظواهر المعقدة.

2. المجال التخصصي الأساسي والتطور التاريخي

ينتمي مفهوم التباين المفسر بشكل أساسي إلى حقل الإحصاء الاستدلالي (Inferential Statistics)، وتحديداً في سياق نماذج الانحدار الخطي (Linear Regression Models) وتحليل التباين (ANOVA). لم يظهر المفهوم بشكل مفاجئ، بل تطور تدريجياً مع تطور تقنيات نمذجة البيانات في أوائل القرن العشرين. كان الرائد في وضع الأسس الرياضية لهذا المفهوم هو الإحصائي البارز رونالد فيشر، الذي طور منهجية تحليل التباين (ANOVA) في عشرينيات القرن الماضي. كانت منهجية فيشر تهدف إلى تقسيم التباين الكلي في مجموعة البيانات إلى مكونات يمكن عزوها إلى مصادر محددة (مثل المعالجات التجريبية) ومكونات تعزى للخطأ العشوائي. هذا التقسيم هو الجوهر الفلسفي والرياضي للتباين المفسر.

على الرغم من أن فيشر وضع الأساس لتقسيم التباين، فإن الشكل الأكثر شيوعاً لقياس التباين المفسر، وهو معامل التحديد (R-squared)، ارتبط بتطور نماذج الانحدار الخطي المتعدد. وقد تم ترسيخ وتعميم استخدام معامل التحديد كأداة قياسية لتقييم أداء النموذج في مجالات متعددة مثل الاقتصاد القياسي وعلم النفس والبيولوجيا. في العقود اللاحقة، خاصة مع ظهور التعلم الآلي (Machine Learning) في أواخر القرن العشرين، ظل مفهوم التباين المفسر ذا أهمية قصوى، حيث يُستخدم لتقييم النماذج التنبؤية، ولكن غالباً ما يتم استكماله بمقاييس أخرى أكثر ملاءمة للبيانات غير الخطية أو لتقييم التعميم على بيانات غير مرئية (Out-of-sample data).

3. المقاييس الرئيسية للتباين المفسر: معامل التحديد (R-squared)

إن المقياس الأكثر شهرة وتمثيلاً لمفهوم التباين المفسر هو معامل التحديد، والذي يُرمز له بالرمز R². يُعرف R² رياضياً بأنه نسبة مجموع مربعات الانحرافات المفسرة (Sum of Squares Explained – SSE) إلى مجموع مربعات الانحرافات الكلي (Total Sum of Squares – SST). الصيغة الرياضية الأساسية تعكس العلاقة بين التباين الذي ينجح النموذج في التقاطه والتباين الإجمالي الموجود في البيانات. هذا المقياس يمثل بشكل مباشر النسبة المئوية للتباين في المتغير التابع التي يتم تفسيرها بواسطة المتغيرات المستقلة في نموذج الانحدار الخطي.

معامل التحديد (R²) هو مقياس بسيط وسهل التفسير، مما جعله أداة أساسية في تقارير الانحدار. ومع ذلك، هناك تحذير مهم يتعلق باستخدامه: فعند إضافة أي متغير مستقل جديد إلى نموذج الانحدار، حتى لو لم يكن له أي قوة تفسيرية حقيقية، فإن قيمة R² إما أن تظل كما هي أو تزداد، ولا يمكن أن تنقص أبداً. وهذا يخلق مشكلة الإفراط في الملاءمة (Overfitting)، حيث قد يتم تضخيم جودة النموذج بشكل مصطنع. لمعالجة هذه المشكلة، طور الإحصائيون مقياساً معدلاً يُعرف باسم معامل التحديد المعدل (Adjusted R-squared).

يقوم معامل التحديد المعدل بمعاقبة (Penalizing) النموذج على إدراج متغيرات مستقلة لا تساهم بشكل كبير في تفسير التباين، وذلك عن طريق أخذ عدد المتغيرات المستقلة (درجات الحرية) وحجم العينة في الاعتبار. لذلك، يعتبر معامل التحديد المعدل مقياساً أكثر موثوقية لتقييم جودة النموذج، خاصة عند مقارنة نماذج متعددة تحتوي على أعداد مختلفة من المتغيرات التوضيحية. لا يزال R² القياسي مفيداً كتقييم أولي، لكن R² المعدل يوفر رؤية أعمق حول القوة التفسيرية الحقيقية للنموذج.

4. التباين المفسر في تحليل التباين (ANOVA)

في سياق تحليل التباين (ANOVA)، يتم تطبيق مفهوم التباين المفسر لتحديد ما إذا كانت هناك فروق ذات دلالة إحصائية بين متوسطات مجموعتين أو أكثر. في هذه المنهجية، ينقسم التباين الكلي في البيانات (SST) إلى قسمين رئيسيين: مجموع مربعات التباين بين المجموعات (Sum of Squares Between Groups – SSB)، والذي يمثل التباين المفسر (أي التأثير الناتج عن المعالجة أو العامل المدروس)، ومجموع مربعات التباين داخل المجموعات (Sum of Squares Within Groups – SSW)، والذي يمثل التباين غير المفسر (أي الخطأ العشوائي أو التباين المتبقي).

يتمثل الهدف الأساسي لتحليل التباين في مقارنة نسبة التباين المفسر إلى التباين غير المفسر. إذا كانت نسبة التباين بين المجموعات كبيرة مقارنة بالتباين داخل المجموعات، فإن ذلك يشير إلى أن المعالجة أو العامل المدروس يمارس تأثيراً حقيقياً ومهماً على المتغير التابع، وبالتالي فإن جزءاً كبيراً من التباين الكلي في البيانات يمكن تفسيره من خلال هذا العامل. يتم قياس هذه النسبة عبر إحصائية F، التي تعد أساس اختبار الفرضيات في ANOVA.

في سياق ANOVA، يُستخدم مقياس مشابه لـ R² يُعرف باسم إيتا تربيع (Eta Squared – η²). هذا المقياس يعمل كمؤشر على قوة حجم التأثير (Effect Size)، ويحدد النسبة المئوية للتباين الكلي في المتغير التابع التي تعزى إلى كل عامل من عوامل التصميم التجريبي. تعتبر قيم إيتا تربيع مقياساً مباشراً للتباين المفسر في سياق التجارب المحكمة، وهي تساعد الباحثين على تجاوز مجرد تحديد الدلالة الإحصائية (P-value) إلى قياس الأهمية العملية (Practical Significance) للعوامل المدروسة.

5. التباين المفسر في تحليل المكونات الرئيسية (PCA)

يلعب مفهوم التباين المفسر دوراً بالغ الأهمية في تقنيات تقليل الأبعاد، وعلى رأسها تحليل المكونات الرئيسية (PCA). الغرض من PCA هو تحويل مجموعة كبيرة من المتغيرات المترابطة إلى مجموعة أصغر من المتغيرات غير المترابطة تسمى المكونات الرئيسية (Principal Components)، مع الحفاظ على أكبر قدر ممكن من المعلومات الأصلية. يتم تعريف “المعلومات” في هذا السياق بأنها التباين.

عند إجراء تحليل PCA، يتم ترتيب المكونات الرئيسية بترتيب تنازلي حسب مقدار التباين الذي يفسره كل مكون. يمثل المكون الرئيسي الأول (PC1) الاتجاه الذي يحمل أكبر قدر من التباين في البيانات، ويأتي بعده المكون الثاني (PC2) الذي يحمل أكبر قدر من التباين المتبقي، وهكذا. يتم قياس التباين المفسر لكل مكون عن طريق قيمة كامنة (Eigenvalue) لهذا المكون مقسومة على مجموع القيم الكامنة لجميع المكونات. هذا يوفر نسبة التباين الكلي التي يفسرها كل مكون على حدة.

إن تحديد التباين التراكمي المفسر (Cumulative Explained Variance) هو الخطوة الأكثر أهمية في تطبيق PCA. يقرر الباحثون عدد المكونات الرئيسية التي يجب الاحتفاظ بها بناءً على مدى التباين الذي يرغبون في الاحتفاظ به، حيث يتوقفون عادةً عند النقطة التي يشكل فيها التباين التراكمي المفسر نسبة عالية (مثل 80% أو 90%) من التباين الكلي. يعد هذا المقياس هو المعيار الأساسي لتقليل الأبعاد بكفاءة، مما يضمن أن البيانات المخفضة الأبعاد لا تزال تحتفظ بالخصائص الهيكلية والتباين الأصليين الضروريين للتحليل اللاحق.

6. الخصائص الرياضية والاشتقاق

يمكن فهم التباين المفسر بشكل أفضل من خلال تفكيك التباين الكلي (Total Sum of Squares – SST) في نموذج الانحدار الخطي. التباين الكلي هو ببساطة مجموع مربعات الفروق بين القيمة المرصودة (Y_i) والمتوسط الكلي (Ȳ) للمتغير التابع:

SST = Σ (Y_i – Ȳ)²

يتم تقسيم هذا التباين الكلي إلى مكونين رئيسيين وفقاً للمبدأ الإحصائي الأساسي:

SST = SSE + SSR

حيث:

SSE (Sum of Squares Explained): مجموع مربعات الانحرافات المفسرة، وهو التباين الذي يفسره النموذج. يتم حسابه عبر الفروق بين القيمة المتنبأ بها (Ŷ_i) والمتوسط الكلي (Ȳ): SSE = Σ (Ŷ_i – Ȳ)².
SSR (Sum of Squares Residual): مجموع مربعات البواقي، وهو التباين غير المفسر (الخطأ). يتم حسابه عبر الفروق بين القيمة المرصودة (Y_i) والقيمة المتنبأ بها (Ŷ_i): SSR = Σ (Y_i – Ŷ_i)².

من خلال هذا التفكيك، يُعرّف التباين المفسر (R²) رسمياً بأنه نسبة SSE إلى SST: R² = SSE / SST. هذه العلاقة الرياضية تضمن أن R² يقع دائماً بين الصفر والواحد (أو 0% و 100%)، حيث يمثل الصفر غياب أي تفسير للتباين، ويمثل الواحد تفسيراً كاملاً لجميع التقلبات في المتغير التابع. هذه الخصائص الرياضية تمنح المقياس قوة تفسيرية مباشرة وموحدة عبر مختلف التطبيقات الإحصائية.

7. الأهمية والتطبيقات الإحصائية

تكمن الأهمية الأساسية للتباين المفسر في كونه مقياساً لـ جودة الملاءمة (Model Fit). ففي العلوم الاجتماعية والاقتصاد والطب، نادراً ما يتمكن أي نموذج من تفسير 100% من التباين؛ لذلك، فإن قيمة التباين المفسر لا تحدد فقط مدى دقة النموذج، بل تحدد أيضاً ما إذا كانت المتغيرات المستقلة المختارة مهمة بما يكفي لتشكيل فهم علمي قابل للتطبيق. إذا كانت قيمة R² عالية، فهذا يطمئن الباحث إلى أن المتغيرات المدروسة هي بالفعل القوى الدافعة وراء الظاهرة المرصودة، مما يدعم الاستدلالات السببية أو التنبؤية.

علاوة على ذلك، يُستخدم التباين المفسر بشكل روتيني في عملية اختيار النموذج (Model Selection). عند تطوير نماذج متعددة لتحليل نفس الظاهرة، يمكن للباحثين استخدام R² (أو R² المعدل) لمقارنة القوة التفسيرية النسبية لكل نموذج. النموذج الذي يحقق أعلى قيمة للتباين المفسر، مع الحفاظ على البساطة (مبدأ الاقتصاد)، غالباً ما يُعتبر النموذج الأفضل والأكثر كفاءة. هذه الأداة حاسمة في الاقتصاد القياسي لتحديد النماذج التي تتنبأ بشكل أفضل بالمتغيرات الاقتصادية مثل الناتج المحلي الإجمالي أو معدلات التضخم.

في مجال التعلم الآلي والبيانات الضخمة، يتم استخدام التباين المفسر، على الرغم من أن مقاييس أخرى مثل متوسط الخطأ التربيعي (Mean Squared Error – MSE) أو دقة التصنيف قد تكون أكثر شيوعاً. ومع ذلك، يظل التباين المفسر عنصراً هاماً في تقييم مدى جودة أداء نموذج الانحدار في التنبؤ بالقيم العددية الجديدة، وخصوصاً عند استخدامه في سياق التحقق المتبادل (Cross-Validation) للتأكد من أن القوة التفسيرية للنموذج قابلة للتعميم على مجموعات بيانات مختلفة.

8. الانتقادات والقيود

على الرغم من الاستخدام الواسع النطاق لمقاييس التباين المفسر، خاصة R²، إلا أنها تواجه العديد من الانتقادات والقيود التي يجب على الباحثين أخذها في الاعتبار. أولاً، كما ذكرنا سابقاً، فإن R² يميل إلى التضخم عند إضافة المزيد من المتغيرات المستقلة، بغض النظر عن أهميتها الإحصائية أو النظرية. وهذا يمكن أن يؤدي إلى نماذج معقدة بشكل غير ضروري (Over-parameterization) لا تقدم قيمة تفسيرية إضافية حقيقية، مما يؤكد الحاجة إلى الاعتماد على R² المعدل.

ثانياً، يعد التباين المفسر مقياساً إحصائياً بحتاً لا يقدم دليلاً على السببية (Causality). فمجرد أن نموذجاً يفسر نسبة عالية من التباين لا يعني بالضرورة أن المتغيرات المستقلة تسبب التغيرات في المتغير التابع؛ قد يكون هناك متغير ثالث غير مدرج (Lurking Variable) هو السبب الحقيقي، أو قد تكون العلاقة مجرد ارتباط زائف. ولذلك، يجب تفسير R² دائماً في سياق الإطار النظري والتصميم البحثي الذي أنتج البيانات.

ثالثاً، يواجه R² قيوداً كبيرة عند التعامل مع النماذج غير الخطية أو عندما يكون المتغير التابع تصنيفياً (Categorical). في هذه الحالات، قد لا يكون التفكيك التقليدي للتباين (SST = SSE + SSR) قابلاً للتطبيق بشكل مباشر أو سهل التفسير. ولهذا السبب، تم تطوير بدائل مثل شبه R² (Pseudo R-squared)، المستخدم في نماذج الانحدار اللوجستي (Logistic Regression)، والتي تحاول محاكاة فكرة التباين المفسر ولكنها لا تمتلك نفس التفسير المباشر لنسبة التباين المفسر.