تحليل متعارف عليه – canonical analysis

التحليل الكنسي (Canonical Analysis)

Primary Disciplinary Field(s): الإحصاء متعدد المتغيرات، علم البيانات، الاقتصاد القياسي، علم النفس القياسي

1. التعريف الجوهري

يمثل التحليل الكنسي (Canonical Analysis)، والذي يُعرف بشكل أدق باسم تحليل الارتباط الكنسي (Canonical Correlation Analysis – CCA)، إحدى التقنيات الإحصائية المتقدمة ضمن مجال الإحصاء متعدد المتغيرات. الهدف الأساسي من هذه المنهجية هو دراسة العلاقة المتبادلة بين مجموعتين منفصلتين من المتغيرات الكمية. على عكس طرق الارتباط البسيطة (مثل معامل ارتباط بيرسون) التي تقيس العلاقة بين متغيرين فقط، فإن التحليل الكنسي يبحث عن أفضل طريقة لتلخيص العلاقة بين مجموعتين كاملتين، حيث تحتوي كل مجموعة على متغيرات متعددة. يفترض هذا التحليل أن المتغيرات في كل مجموعة ترتبط فيما بينها وتُشكل بناءً أو بُعداً واحداً، ويسعى إلى إيجاد أزواج من التوليفات الخطية (المتغيرات الكنسية) التي تعظم الارتباط بين المجموعتين.

تكمن القوة التحليلية للتحليل الكنسي في قدرته على تقليل الأبعاد المعقدة للبيانات. بدلاً من التعامل مع مصفوفة ضخمة من معاملات الارتباط بين جميع المتغيرات في المجموعة الأولى وجميع المتغيرات في المجموعة الثانية، يقوم التحليل بتكثيف هذه العلاقات في عدد أصغر من الأزواج المترابطة خطيًا. كل زوج يتكون من متغير كنسي واحد من المجموعة الأولى ومتغير كنسي مقابل من المجموعة الثانية. هذه المتغيرات الكنسية هي في جوهرها مؤشرات مركبة تمثل أفضل تلخيص للعلاقة بين المجموعتين، مما يسهل تفسير التفاعلات المعقدة التي قد تكون مخفية في التحليلات أحادية المتغيرات أو حتى الثنائية.

يجب التأكيد على أن التحليل الكنسي لا يهدف بالضرورة إلى إيجاد علاقات سببية (Causation)؛ بل يركز بشكل أساسي على قياس قوة ونوع العلاقة الخطية (Association) بين البُنى الكامنة التي تمثلها مجموعتا المتغيرات. إن المخرجات الرئيسية لهذا التحليل تشمل معاملات الارتباط الكنسي (التي تقيس قوة العلاقة بين المتغيرات الكنسية)، والأوزان الكنسية (التي توضح مساهمة كل متغير أصلي في تشكيل المتغير الكنسي الخاص به)، بالإضافة إلى اختبارات الدلالة الإحصائية التي تحدد عدد الأزواج الكنسية ذات المغزى.

2. النشأة والتطور التاريخي

تعود الجذور النظرية والمنهجية للتحليل الكنسي إلى أعمال عالم الإحصاء الأمريكي هارولد هوتيلينغ (Harold Hotelling)، الذي قدم هذه التقنية الرائدة في عام 1936. جاء عمل هوتيلينغ استجابة للحاجة المتزايدة إلى تطوير أدوات إحصائية قادرة على التعامل مع تعقيد البيانات في مجالات مثل الاقتصاد والقياس النفسي، حيث تتطلب دراسة الظواهر قياس مجموعات متعددة من المتغيرات في آن واحد. قبل ظهور التحليل الكنسي، كانت الأساليب المتاحة إما تقتصر على تحليل أزواج بسيطة من المتغيرات أو تتطلب افتراضات صارمة حول طبيعة المتغيرات التابعة والمستقلة، كما في حالة الانحدار المتعدد (Multiple Regression).

تأسس عمل هوتيلينغ على مفاهيم الجبر الخطي والمصفوفات الإحصائية، حيث سعى إلى تعميم فكرة ارتباط بيرسون. فبينما يقيس ارتباط بيرسون الارتباط بين متجهين أحاديين، يهدف التحليل الكنسي إلى إيجاد متجهين خطيين (توليفات من المتغيرات) داخل فضاء مصفوفي متعدد الأبعاد، بحيث يكون الارتباط بين هذين المتجهين التوليفيين هو الأقصى. شكل هذا التطور نقطة تحول، حيث مهد الطريق لظهور وتطور العديد من تقنيات التحليل متعدد المتغيرات اللاحقة، مثل تحليل المكونات الرئيسية (PCA) وتحليل التمييز الخطي (LDA)، التي تشترك معه في الأساسيات الرياضية المتعلقة باستخلاص الأبعاد المثلى.

في العقود التي تلت تقديم هوتيلينغ، استمر تطوير التحليل الكنسي، خاصة مع التقدم في القدرات الحاسوبية. في البداية، كان التعقيد الحسابي يشكل عائقاً أمام تطبيقه واسع النطاق، لكن مع ظهور الحواسيب الحديثة في النصف الثاني من القرن العشرين، أصبح من الممكن إجراء العمليات الحسابية المعقدة اللازمة لاستخلاص المتغيرات الكنسية وتقييم دلالتها الإحصائية. وقد ساهم الإحصائيون في تحسين طرق اختبار الفرضيات، مثل استخدام اختبار لامدا لويلكس (Wilks’ Lambda) واختبار بارتليت (Bartlett’s Test)، لتقدير الدلالة الشاملة للنموذج الكنسي وعدد الأبعاد الكنسية التي يجب الاحتفاظ بها.

3. المبادئ الأساسية للتحليل الكنسي

يعتمد التحليل الكنسي على مبدأ تعظيم التباين المشترك (Covariance) بين مجموعتي المتغيرات. يفترض التحليل أن لدينا مجموعة من المتغيرات التابعة (Y) ومجموعة من المتغيرات المستقلة أو التنبؤية (X). بدلاً من محاولة التنبؤ بمتغير تابع واحد، يسعى CCA إلى إيجاد مجموعة من الأوزان لكل مجموعة (A للأولى و B للثانية) بحيث تكون التوليفات الخطية الناتجة (U = XA و V = YB) مترابطة بأقصى درجة ممكنة. تُعرف هذه التوليفات الخطية الناتجة باسم “المتغيرات الكنسية” أو “المركبات الكنسية”.

يتم استخلاص أزواج متتالية من المتغيرات الكنسية. يتميز الزوج الأول (U1, V1) بأنه يمتلك أعلى معامل ارتباط كنسي ممكن. يتم استخلاص الزوج الثاني (U2, V2) بحيث يكون غير مرتبط (Orthogonal) تمامًا بالزوج الأول، ولكنه يمتلك أعلى ارتباط متبقٍ ممكن بين المجموعتين، وهكذا. تستمر عملية الاستخلاص حتى يتم استنفاد جميع الأبعاد الممكنة أو حتى يصبح الارتباط الكنسي غير ذي دلالة إحصائية. يبلغ الحد الأقصى لعدد الأزواج الكنسية التي يمكن استخلاصها هو الأصغر بين عدد المتغيرات في المجموعة الأولى وعدد المتغيرات في المجموعة الثانية.

يتم تقييم أهمية كل زوج كنسي بواسطة القيمة الذاتية (Eigenvalue) المقابلة له، والتي تمثل جزء التباين المشترك الذي يفسره ذلك الزوج. إن مربع معامل الارتباط الكنسي (R_c²) يمثل مقدار التباين المشترك بين المتغيرين الكنسيين. تُستخدم هذه المقاييس لتحديد مدى أهمية كل بُعد كنسي في وصف العلاقة الكلية. إذا كانت القيمة الذاتية صغيرة، فإن الزوج الكنسي المقابل له لا يفسر إلا جزءاً ضئيلاً من العلاقة، وقد يُستبعد من التفسير.

4. المكونات الرئيسية ومصفوفات التفسير

لتفسير نتائج التحليل الكنسي بشكل فعال، يجب الاعتماد على عدة مصفوفات ومقاييس إحصائية تتجاوز مجرد معامل الارتباط الكنسي. تتضمن هذه المكونات الرئيسية: الأوزان الكنسية، التحميلات الكنسية، والتحميلات المتقاطعة، ومؤشر التكرار. يعد فهم هذه المكونات أمراً بالغ الأهمية لتحديد كيفية مساهمة المتغيرات الأصلية في تشكيل البُنى الكامنة.

أولاً: الأوزان الكنسية (Canonical Weights). وهي تشبه معاملات الانحدار المعيارية. تحدد هذه الأوزان الأهمية النسبية لكل متغير أصلي في بناء المتغير الكنسي الخاص به (U أو V). فكلما زادت القيمة المطلقة للوزن، زادت مساهمة ذلك المتغير في التوليفة الخطية. ومع ذلك، يمكن أن تكون الأوزان حساسة جداً لمشكلة الارتباط المتعدد (Multicollinearity) بين المتغيرات الأصلية داخل المجموعة الواحدة، مما يجعل تفسيرها الفردي صعباً في بعض الأحيان.

ثانياً: التحميلات الكنسية (Canonical Loadings) أو مصفوفة البنية. وهي معاملات ارتباط بيرسون بين كل متغير أصلي (X أو Y) والمتغير الكنسي الخاص به (U أو V). تُعتبر التحميلات الكنسية أكثر استقراراً للتفسير من الأوزان، حيث تشير إلى مدى ارتباط المتغير الأصلي بالبُعد الكنسي المستخلص. يُنصح عادةً بالاعتماد على هذه التحميلات لتحديد المتغيرات التي “تحدد” معنى المتغير الكنسي. ثالثاً: التحميلات المتقاطعة (Cross-Loadings)، وهي معاملات الارتباط بين المتغير الأصلي في مجموعة والمتغير الكنسي في المجموعة الأخرى (مثلاً، ارتباط X1 مع V1). هذه التحميلات ضرورية لتقييم مدى قدرة المتغيرات الأصلية في المجموعة الأولى على تفسير المتغير الكنسي للمجموعة الثانية، والعكس صحيح.

أخيراً، يتم استخدام مؤشر التكرار (Redundancy Index). هذا المؤشر يقدم مقياساً أكثر واقعية للقوة التفسيرية للنموذج. على عكس مربع الارتباط الكنسي (R_c²) الذي يقيس فقط التباين المشترك بين المتغيرين الكنسيين نفسيهما، يقيس مؤشر التكرار مدى التباين المشترك بين مجموعة المتغيرات الأصلية في مجموعة واحدة والتباين المفسر من قبل المتغير الكنسي المقابل في المجموعة الأخرى. بمعنى آخر، يحدد مؤشر التكرار النسبة المئوية من التباين في مجموعة المتغيرات التابعة (Y) التي يتم تفسيرها بواسطة المتغيرات الكنسية للمجموعة المستقلة (X)، وهو المقياس الأكثر أهمية عند استخدام CCA لأغراض تنبؤية.

5. التطبيقات العملية والمجالات

يتمتع التحليل الكنسي بنطاق واسع من التطبيقات في مختلف المجالات الأكاديمية والعملية، نظراً لقدرته الفريدة على نمذجة العلاقات المعقدة بين مجموعات كاملة من المقاييس. في علم النفس، يُستخدم CCA لدراسة العلاقة بين مجموعة من سمات الشخصية (مثل الانبساط، والعصابية، والقبول) ومجموعة من مقاييس الأداء الأكاديمي (مثل الدرجات في الرياضيات، والعلوم، واللغة). يساعد هذا التحليل في تحديد الأبعاد الكامنة في الشخصية التي ترتبط بشكل أقوى بالأبعاد الكامنة في الأداء، مما يكشف عن أنماط ارتباطية لا يمكن اكتشافها عبر تحليل الانحدار المتعدد التقليدي.

في مجال الاقتصاد وعلم الاقتصاد القياسي، يُستخدم التحليل الكنسي لفحص الروابط بين مجموعات المؤشرات الاقتصادية. على سبيل المثال، قد تستخدمه البنوك المركزية لتحليل العلاقة بين مجموعة من أدوات السياسة النقدية (مثل أسعار الفائدة، واحتياطيات البنوك) ومجموعة من متغيرات السوق الكلية (مثل التضخم، ومعدلات البطالة، ونمو الناتج المحلي الإجمالي). يتيح CCA تحديد التوليفات الخطية لأدوات السياسة التي ترتبط بأقصى درجة بالتوليفات الخطية لنتائج السوق، مما يوفر نظرة ثاقبة حول فعالية حزم السياسات المتكاملة.

كما يجد التحليل الكنسي تطبيقات مهمة في علم البيئة (Ecology) وفي علوم الحياة، حيث يُستخدم لربط مجموعة من المتغيرات البيئية (مثل درجة الحرارة، والرطوبة، وتركيز المغذيات) بمجموعة من المتغيرات البيولوجية (مثل تنوع الأنواع، أو معدل نمو الكتلة الحيوية). بالإضافة إلى ذلك، في التسويق وبحوث المستهلك، يمكن لـ CCA أن يربط مجموعة من المتغيرات الديموغرافية والاجتماعية بمجموعة من متغيرات سلوك الشراء وولاء العملاء. إن القدرة على استخلاص الأبعاد الكنسية تساعد الباحثين على فهم “ماذا” (المتغيرات الديموغرافية) يرتبط بـ “كيف” (سلوك الشراء) على مستوى بُعد كامن مشترك.

6. القيود والانتقادات

على الرغم من القوة المنهجية للتحليل الكنسي كأداة متعددة المتغيرات، إلا أنه يواجه عدداً من القيود والتحديات التي يجب على الباحثين أخذها في الاعتبار عند تطبيقه وتفسير نتائجه. أبرز هذه الانتقادات تتعلق بصعوبة التفسير، خاصة عندما يتم استخلاص عدد كبير من الأزواج الكنسية. ففي حين أن الزوج الكنسي الأول عادة ما يكون واضحاً ويحمل أعلى دلالة إحصائية، فإن الأزواج اللاحقة (الثاني والثالث وما يليهما) قد تفسر فقط قدراً ضئيلاً جداً من التباين، وغالباً ما تصبح المتغيرات الكنسية الناتجة مجرد تركيبات رياضية يصعب إعطاؤها معنى نظرياً أو عملياً واضحاً.

ثانياً، يتطلب التحليل الكنسي، مثله مثل العديد من التقنيات البارامترية متعددة المتغيرات، افتراضات صارمة حول طبيعة توزيع البيانات. يفترض CCA أن المتغيرات تتبع التوزيع الطبيعي متعدد المتغيرات (Multivariate Normality)، وأن العلاقات بين المتغيرات هي علاقات خطية. إذا كانت البيانات منحرفة بشكل كبير أو كانت العلاقات بين المتغيرات غير خطية، فقد تؤدي النتائج المستخلصة إلى استنتاجات مضللة. علاوة على ذلك، يتطلب CCA حجماً كبيراً جداً من العينات مقارنة بعدد المتغيرات المستخدمة، لضمان استقرار الأوزان والتحميلات الكنسية وتجنب التباين الكبير في التقديرات.

ثالثاً، تثير مشكلة الارتباط المتعدد (Multicollinearity) داخل المجموعات (X أو Y) تحدياً كبيراً في تفسير الأوزان الكنسية. عندما تكون المتغيرات الأصلية داخل المجموعة الواحدة مترابطة بشكل كبير، يمكن أن تصبح الأوزان الكنسية غير مستقرة، حيث قد يحصل متغير على وزن صغير جداً أو حتى وزن ذي إشارة معاكسة لما هو متوقع منطقياً، فقط لتعويض الارتباط العالي مع متغير آخر. لذلك، يُنصح بشدة بالاعتماد على التحميلات الكنسية والتحميلات المتقاطعة بدلاً من الأوزان الكنسية لتفسير البنية الأساسية للنموذج. كما أن مؤشر التكرار يكشف في كثير من الأحيان أن النسبة الفعلية للتباين المفسر في مجموعة ما بواسطة المتغيرات الكنسية للمجموعة الأخرى تكون منخفضة جداً، حتى لو كان معامل الارتباط الكنسي (R_c) مرتفعاً، مما يقلل من القيمة التنبؤية للنموذج.

7. قراءات إضافية

  • Hotelling, H. (1936). Relations between two sets of variates. Biometrika.
  • Canonical Correlation Analysis – Wikipedia
  • Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2010). Multivariate Data Analysis. Pearson Education.
  • Timm, N. H. (2002). Applied Multivariate Analysis. Springer Science & Business Media.