مصفوفة التشتت – dispersion matrix

مدرس الدكتور محمد لوتي

المحتويات:

مصفوفة التشتت (Dispersion Matrix)

المجالات التأديبية الرئيسية: الإحصاء، الرياضيات التطبيقية، الاقتصاد القياسي، التعلم الآلي

1. التعريف الجوهري

تُعد مصفوفة التشتت، التي غالباً ما تُعرف أيضاً باسم مصفوفة التباين المشترك (Covariance Matrix)، أداة إحصائية ورياضية محورية في مجال الإحصاء متعدد المتغيرات. وهي عبارة عن مصفوفة مربعة ومتناظرة تُستخدم لوصف التباين بين مجموعة من المتغيرات العشوائية، بالإضافة إلى قياس العلاقة الخطية المتبادلة بين كل زوج منها. في نظام يتضمن $p$ من المتغيرات العشوائية ($X_1, X_2, ldots, X_p$)، تكون مصفوفة التشتت ($Sigma$) مصفوفة ذات أبعاد $p times p$، حيث تحتوي العناصر القطرية للمصفوفة على تباينات المتغيرات الفردية ($text{Var}(X_i)$)، بينما تحتوي العناصر غير القطرية على قيم التباين المشترك بين الأزواج المختلفة من المتغيرات ($text{Cov}(X_i, X_j)$).

إن الأهمية الجوهرية لمصفوفة التشتت تكمن في قدرتها على تلخيص شكل وتوجيه سحابة البيانات في فضاء متعدد الأبعاد. فهي لا تكتفي بوصف مدى انتشار كل متغير على حدة (الذي تمثله التباينات)، بل توضح أيضاً كيفية تحرك المتغيرات معاً. على سبيل المثال، إذا كانت قيمة التباين المشترك بين متغيرين موجبة وكبيرة، فهذا يشير إلى أنهما يميلان إلى الزيادة أو النقصان معاً. وعلى النقيض من ذلك، تشير قيمة التباين المشترك القريبة من الصفر إلى أن المتغيرين مستقلان خطياً أو ضعيفا الارتباط، مما يقلل من قدرة أحدهما على التنبؤ بالآخر. هذا التلخيص المنهجي للعلاقات المتبادلة يجعل المصفوفة عنصراً لا غنى عنه في نمذجة العلاقات المعقدة.

من الناحية الرياضية، يتم تعريف مصفوفة التشتت لمتجه عشوائي $X$ على أنها القيمة المتوقعة لناتج المتجه مطروحاً منه متوسطه (متجه الوسط الحسابي، $mu$) مضروباً في منقوله: $Sigma = text{E}[(X – mu)(X – mu)^T]$. في السياقات الإحصائية، وخاصة عند العمل على تقدير المعلمات، يتم تقدير مصفوفة التشتت من بيانات العينة (Sample Dispersion Matrix)، والتي تتطلب حساب انحرافات كل نقطة بيانات عن متوسط العينة. يُعد التقدير الدقيق لهذه المصفوفة تحدياً إحصائياً كبيراً، لا سيما في سيناريوهات البيانات عالية الأبعاد، حيث قد يؤدي عدم الاستقرار الإحصائي أو التحيز إلى تقديرات غير موثوقة تؤثر على جميع التحليلات اللاحقة.

2. التطور التاريخي والسياق الرياضي

نشأت مفاهيم التباين المشترك والتشتت في سياق تطوير الإحصاء الحديث في أواخر القرن التاسع عشر وأوائل القرن العشرين، متأثرة بأعمال علماء مثل فرانسيس غالتون وكارل بيرسون، الذين ركزوا على قياس الارتباط بين السمات البيولوجية. ومع ذلك، لم يتم تجميع هذه المفاهيم في شكل مصفوفة منظم إلا مع التطور الرسمي للإحصاء متعدد المتغيرات. لقد أدرك الإحصائيون الحاجة إلى طريقة منهجية للتعامل مع أكثر من متغيرين في وقت واحد، مما دفع إلى تطبيق أدوات الجبر الخطي على المشكلات الإحصائية.

كانت مساهمة رونالد فيشر في النصف الأول من القرن العشرين حاسمة في ترسيخ دور مصفوفة التشتت كمعيار أساسي في التحليل الإحصائي، خاصة فيما يتعلق بتوزيعات العينات والتقدير. تم تعزيز هذا الإطار الرياضي بشكل أكبر من خلال دراسة التوزيع الطبيعي متعدد المتغيرات (Multivariate Normal Distribution)، حيث تلعب مصفوفة التشتت دوراً مزدوجاً كمعامل قياس وشكل يحدد التوزيع بأكمله. أتاحت هذه الأطر الرياضية إمكانية تطوير اختبارات الفرضيات المعقدة والتحليل التمييزي التي تعتمد بشكل مباشر على طبيعة التشتت.

إن السياق الرياضي لمصفوفة التشتت مرتبط ارتباطاً وثيقاً بمتطلبات الجبر الخطي. لكي تكون المصفوفة صالحة إحصائياً، يجب أن تحقق خاصية إيجابية شبه التحديد (Positive Semi-Definiteness). هذه الخاصية تضمن أن التباين المحسوب لأي تركيبة خطية من المتغيرات العشوائية لا يمكن أن يكون سالباً، وهو شرط منطقي للتباينات في العالم الحقيقي. يتطلب هذا الشرط أن تكون جميع القيم الذاتية (Eigenvalues) للمصفوفة أكبر من أو تساوي الصفر. إذا كانت المصفوفة إيجابية محددة (Positive Definite) (جميع القيم الذاتية موجبة تماماً)، فهذا يعني أن المصفوفة قابلة للعكس (Invertible)، وهي خاصية حاسمة في العديد من التطبيقات الإحصائية مثل الانحدار الخطي متعدد المتغيرات، حيث يتم استخدام معكوس مصفوفة التشتت (أو مصفوفة التشتت للأخطاء) في عمليات حساب التقدير.

3. الخصائص الرياضية الرئيسية

تتمتع مصفوفة التشتت بعدد من الخصائص المنهجية التي تحدد استخدامها في النمذجة الإحصائية:

التناظر (Symmetry): يجب أن تكون مصفوفة التشتت متناظرة، بمعنى أن العنصر في الصف $i$ والعمود $j$ (الذي يمثل التباين المشترك بين $X_i$ و $X_j$) يجب أن يساوي العنصر في الصف $j$ والعمود $i$ (أي $text{Cov}(X_i, X_j) = text{Cov}(X_j, X_i)$). هذا التناظر يعكس حقيقة أن العلاقة المشتركة لا تعتمد على ترتيب المتغيرات.
إيجابية شبه التحديد (Positive Semi-Definiteness): كما ذكرنا سابقاً، هذه الخاصية ضرورية لضمان أن جميع التباينات المحسوبة لتركيبات خطية من المتغيرات تكون غير سالبة. إذا كانت المصفوفة ليست إيجابية شبه محددة، فإنها لا تمثل مصفوفة تشتت صالحة إحصائياً.
تحليل القيم الذاتية والمتجهات الذاتية (Eigen-decomposition): عند تحليل مصفوفة التشتت باستخدام القيم والمتجهات الذاتية، فإن المتجهات الذاتية تشير إلى المحاور الرئيسية للتشتت في الفضاء متعدد الأبعاد، بينما تتناسب القيم الذاتية المقابلة مع مقدار التباين الذي يفسره كل محور. وهذا هو المبدأ الأساسي وراء تقنية تحليل المكونات الرئيسية (Principal Component Analysis – PCA).
المصفوفة القطرية للمتغيرات المستقلة: إذا كانت جميع المتغيرات العشوائية في المتجه مستقلة عن بعضها البعض، فإن التباينات المشتركة بينها تكون صفراً، وتصبح مصفوفة التشتت مصفوفة قطرية. في هذه الحالة، تحتوي العناصر القطرية فقط على تباينات المتغيرات الفردية، مما يشير إلى عدم وجود علاقات خطية بينها.

4. العلاقة بمفاهيم إحصائية أخرى

تُعد مصفوفة التشتت نقطة انطلاق للعديد من المفاهيم الإحصائية الأخرى التي تهتم بقياس الارتباط والتوزيع. العلاقة الأكثر وضوحاً هي مع مصفوفة الارتباط (Correlation Matrix)، والتي يمكن اشتقاقها من مصفوفة التشتت. بينما تحتوي مصفوفة التشتت على التباينات والتباينات المشتركة، تقوم مصفوفة الارتباط بتوحيد هذه القيم عن طريق قسمة كل تباين مشترك على حاصل ضرب الانحرافات المعيارية للمتغيرين المعنيين. هذا التوحيد ينتج عنه مصفوفة تكون فيها العناصر القطرية جميعها وحدات (تمثل ارتباط المتغير بنفسه)، بينما تتراوح العناصر غير القطرية بين -1 و +1، مما يجعلها أداة مفيدة لمقارنة قوة العلاقات بغض النظر عن وحدات قياس المتغيرات الأصلية.

بالإضافة إلى ذلك، تلعب مصفوفة التشتت دوراً أساسياً في تحديد مسافة ماهالانوبيس (Mahalanobis Distance). تُستخدم هذه المسافة لقياس بُعد نقطة معينة عن متوسط التوزيع متعدد المتغيرات، ولكن على عكس المسافة الإقليدية البسيطة، فإن مسافة ماهالانوبيس تأخذ في الاعتبار الهيكل الارتباطي للمتغيرات. يتم ذلك باستخدام معكوس مصفوفة التشتت ($Sigma^{-1}$) لتحديد ما إذا كانت نقطة البيانات شاذة بالنسبة لتوزيع البيانات ككل. إذا كان التشتت كبيراً في اتجاه معين بسبب ارتفاع التباين المشترك، فإن مسافة ماهالانوبيس تقلل من وزن الانحراف في ذلك الاتجاه، مما يوفر مقياساً أكثر دقة للانحراف الإحصائي.

كما أن مصفوفة التشتت هي المعلمة الرئيسية، إلى جانب متجه المتوسط، التي تحدد شكل التوزيع الطبيعي متعدد المتغيرات. في هذا التوزيع، يتم تمثيل الكثافة الاحتمالية للمتغيرات من خلال شكل بيضاوي (أو إهليلجي) في الفضاء متعدد الأبعاد، حيث يتم تحديد اتجاه وطول محاور هذا الشكل البيضاوي بواسطة القيم والمتجهات الذاتية لمصفوفة التشتت. إن فهم كيفية تأثير التغيرات في عناصر المصفوفة على شكل هذا البيضاوي هو أمر حيوي في مجالات مثل التصنيف الإحصائي والتحليل التمييزي.

5. التطبيقات العملية والنمذجة

تنتشر تطبيقات مصفوفة التشتت في مجموعة واسعة من المجالات العلمية والمالية والهندسية نظراً لقدرتها على تلخيص التفاعلات المعقدة بين المتغيرات. في مجال الاقتصاد القياسي وتحليل الانحدار، تُستخدم مصفوفة التشتت للأخطاء (Error Dispersion Matrix) لتعريف هيكل الأخطاء المتبقية في النموذج. إذا كانت الأخطاء غير متجانسة التباين (Heteroscedasticity) أو ذات ارتباط ذاتي (Autocorrelation)، فإن استخدام مصفوفة التشتت المعروفة باسم $Omega$ في تقدير المربعات الصغرى المعممة (Generalized Least Squares – GLS) يسمح بإنتاج تقديرات معامل أكثر كفاءة وغير متحيزة، مما يصحح للانتهاكات الافتراضية للنماذج الخطية القياسية.

في مجال التمويل وإدارة المحافظ، تُعد مصفوفة التشتت للمردودات المالية (Returns Dispersion Matrix) حجر الزاوية في نظرية المحفظة الحديثة (Modern Portfolio Theory) التي طورها هاري ماركويتز. يتم استخدام هذه المصفوفة لحساب المخاطر الإجمالية للمحفظة، حيث لا يتم احتساب مخاطر كل أصل بشكل منفصل فحسب، بل يتم أيضاً أخذ كيفية تحرك الأصول معاً في الاعتبار. الهدف هو العثور على التوزيع الأمثل للأصول الذي يقلل من المخاطر الكلية للمحفظة (من خلال الاستفادة من التباينات المشتركة السالبة أو المنخفضة) مع الحفاظ على مستوى العائد المطلوب، مما يتيح بناء ما يُعرف بالحد الكفء (Efficient Frontier).

في مجال التعلم الآلي والبيانات الضخمة، تُستخدم مصفوفة التشتت بشكل مكثف في تقنيات تقليل الأبعاد. تعد خوارزمية تحليل المكونات الرئيسية (PCA) أحد الأمثلة البارزة، حيث يتم استخدام المصفوفة لتحديد المكونات الرئيسية التي تمثل أكبر قدر من التباين في البيانات. ومن خلال اختيار عدد محدود من هذه المكونات التي تتوافق مع أكبر القيم الذاتية، يمكن تقليل أبعاد مجموعة البيانات بشكل كبير دون فقدان قدر كبير من المعلومات الأساسية، مما يسهل التصور والحوسبة.

6. القيود والتحديات في التقدير

على الرغم من أهميتها، يواجه تقدير واستخدام مصفوفة التشتت تحديات كبيرة، خاصة في بيئات البيانات الحديثة. التحدي الأبرز هو مشكلة الأبعاد العالية (High Dimensionality Problem). عندما يكون عدد المتغيرات ($p$) كبيراً جداً، ويزيد في كثير من الأحيان عن عدد الملاحظات ($n$)، تصبح مصفوفة العينة غير قابلة للعكس (Singular) أو غير مستقرة إحصائياً. في هذه الحالة، يكون التقدير التقليدي لمصفوفة التباين المشترك غير موثوق به، مما يعيق تطبيقات تتطلب معكوس المصفوفة، مثل مسافة ماهالانوبيس أو طرق الانحدار المتقدمة.

تتمثل القيود الأخرى في حساسية التقدير التقليدي للقيم الشاذة (Outliers). نظراً لأن عناصر مصفوفة التشتت تُحسب باستخدام المربعات (التباينات) وحاصل ضرب الانحرافات (التباينات المشتركة)، فإن نقطة بيانات واحدة متطرفة يمكن أن تزيد بشكل غير متناسب من قيمة التباين المشترك أو التباين المقدر. لمواجهة هذه المشكلة، تم تطوير طرق تقدير التشتت القوي (Robust Dispersion Estimation)، مثل تقدير الحد الأدنى لحجم التباين المشترك (Minimum Covariance Determinant – MCD)، التي تحاول عزل وتجاهل تأثير القيم الشاذة، مما ينتج مصفوفة تقديرية أكثر تمثيلاً للغالبية العظمى من البيانات.

لحل مشكلة عدم الاستقرار في الأبعاد العالية، يلجأ الإحصائيون وعلماء البيانات إلى تقنيات التنظيم (Regularization)، مثل تقدير الانكماش (Shrinkage Estimation). تتضمن هذه الطرق دمج معلومات إضافية أو افتراضات هيكلية في عملية التقدير. على سبيل المثال، يقوم أسلوب الانكماش (مثل طريقة Ledoit-Wolf) بـ “تقليص” مصفوفة العينة باتجاه مصفوفة هدف منظمة (مثل مصفوفة قطرية)، مما يقلل من تباين التقديرات على حساب زيادة التحيز قليلاً. هذا الموازنة بين التحيز والتباين ضرورية للحصول على مصفوفات تشتت قابلة للاستخدام وعملية في النمذجة التنبؤية.