دالة مميزة – discriminant function

مدرس الدكتور محمد لوتي

المحتويات:

دالة التمييز

Primary Disciplinary Field(s): الإحصاء، التعلم الآلي، تحليل الأنماط، الذكاء الاصطناعي

1. التعريف الجوهري

تُمثل دالة التمييز (Discriminant Function) مفهومًا مركزيًا في مجالات تحليل الأنماط والتصنيف الإحصائي والتعلم الآلي، حيث تُستخدم لتحديد الفئة أو المجموعة التي ينتمي إليها متجه إدخال أو ملاحظة معينة. جوهريًا، هي دالة رياضية تقبل مجموعة من السمات (الميزات) كمدخلات، وتُنتج قيمة أو مجموعة من القيم التي يمكن من خلالها اتخاذ قرار التصنيف. وتكمن وظيفتها الأساسية في تعيين حدود فاصلة في مساحة الميزات، بحيث يتم تقسيم هذه المساحة إلى مناطق، كل منطقة تتوافق مع فئة تصنيف محددة. وتُعتبر دالة التمييز أداة حاسمة في مهام الإشراف على التعلم (Supervised Learning)، حيث يتم تدريبها باستخدام بيانات مصنفة مسبقًا لتعلم العلاقات المعقدة بين الميزات وفئات المخرجات.

في سياق التصنيف، إذا كان لدينا عدد من الفئات $C_1, C_2, dots, C_k$، فإن دالة التمييز $g_i(mathbf{x})$ تُحسب لكل فئة $i$ للمدخل $mathbf{x}$. يتم تعيين المدخل $mathbf{x}$ إلى الفئة التي تحقق عندها الدالة أعلى قيمة. رياضيًا، يتم التصنيف وفقًا للقاعدة التالية: $mathbf{x} in C_i$ إذا كانت $g_i(mathbf{x}) > g_j(mathbf{x})$ لجميع $j neq i$. وغالبًا ما يتم تصميم هذه الدوال لتمثيل احتمالية الفئة الخلفية (Posterior Probability) أو لقياس مدى قرب المتجه $mathbf{x}$ من مركز الفئة $C_i$ أو مسافة ماهالانوبيس عنها. إن الفهم العميق لكيفية بناء هذه الدوال يفتح الباب أمام تطوير نماذج تصنيف قوية وفعالة قادرة على التعامل مع مجموعات البيانات المعقدة وذات الأبعاد العالية.

يجب التمييز بين مفهوم دالة التمييز وبين مصطلح الحد الفاصل (Decision Boundary). بينما دالة التمييز هي التعبير الرياضي الذي يتم حسابه لكل فئة، فإن الحد الفاصل هو السطح أو الخط الذي يفصل بين منطقتين في مساحة الميزات، حيث تكون قيمة دالتي التمييز متساوية ($g_i(mathbf{x}) = g_j(mathbf{x})$). ويعتمد شكل هذا الحد الفاصل (سواء كان خطيًا أو تربيعيًا أو غير خطي) بشكل مباشر على الصيغة الرياضية لدالة التمييز المستخدمة والافتراضات الإحصائية التي بُنيت عليها، مثل افتراض التوزيع الطبيعي (Gaussian Distribution) للميزات داخل كل فئة.

2. السياق التاريخي والتطور

تعود الجذور التاريخية لمفهوم دالة التمييز إلى أوائل القرن العشرين مع التطورات المبكرة في الإحصاء التطبيقي. ولكن القفزة النوعية جاءت في ثلاثينيات القرن الماضي على يد عالم الإحصاء البريطاني رونالد فيشر (Ronald Fisher). ففي عام 1936، قدم فيشر مفهومه الرائد المعروف باسم تحليل التمييز الخطي (Linear Discriminant Analysis – LDA)، والذي كان يهدف في الأصل إلى إيجاد تركيبة خطية من الميزات تحقق أقصى فصل ممكن بين متوسطات الفئات مع تقليل التباين داخل الفئة الواحدة. وعلى الرغم من أن LDA كان يُنظر إليه في البداية كوسيلة لتقليل الأبعاد، إلا أنه سرعان ما أصبح حجر الزاوية في نظرية التصنيف، حيث تمثل هذه التركيبة الخطية في جوهرها دالة تمييز خطية.

في منتصف القرن العشرين، ومع ظهور نظرية المعلومات وتطور الحوسبة، تم وضع دالة التمييز ضمن إطار أكثر شمولاً وهو نظرية القرار الإحصائي (Statistical Decision Theory)، ولا سيما من خلال إدماجها مع قاعدة بايز (Bayes’ Rule). وقد أتاح هذا الإطار النظري بناء دوال تمييز مثالية (Optimal Discriminant Functions) تهدف إلى تقليل معدل خطأ التصنيف الكلي أو تقليل الخسارة المتوقعة (Expected Risk). وقد أدى هذا التطور إلى ظهور دوال تمييز أكثر تعقيدًا، مثل دالة التمييز التربيعي (Quadratic Discriminant Function – QDA)، التي تخلت عن افتراضات LDA الصارمة حول تساوي مصفوفات التغاير بين الفئات، مما سمح بإنشاء حدود فاصلة منحنية وأكثر مرونة.

في العصر الحديث، وخاصة مع صعود التعلم الآلي والشبكات العصبية، توسع مفهوم دالة التمييز ليشمل مجموعة واسعة من النماذج غير الخطية. فبينما تُعتبر LDA وQDA نماذج بارامترية (Parametric) تفترض توزيعًا إحصائيًا محددًا (كالتوزيع الطبيعي)، ظهرت دوال تمييز غير بارامترية (Non-parametric)، مثل آلات المتجهات الداعمة (Support Vector Machines – SVM) والشبكات العصبية. هذه الأدوات الحديثة، على الرغم من أنها قد لا تستخدم المصطلح “دالة التمييز” بشكل صريح، إلا أنها تؤدي الوظيفة الجوهرية نفسها: بناء حدود فاصلة معقدة في فضاء الميزات لتصنيف المدخلات، مما يدل على استمرارية وتطور المفهوم الأساسي لدالة التمييز في قلب خوارزميات التصنيف المتقدمة.

3. الأساس الرياضي ونظرية بايز

يتم بناء دالة التمييز المثالية عادةً انطلاقًا من قاعدة بايز للتصنيف، والتي توفر الأساس النظري للقرار الأمثل. تنص قاعدة بايز على أن القرار الأمثل لتصنيف متجه الميزات $mathbf{x}$ هو تعيينه للفئة $C_i$ التي تمتلك أعلى احتمالية خلفية (Posterior Probability)، أي التي تحقق $text{max}_i P(C_i | mathbf{x})$. وبما أن حساب الاحتمالية الخلفية مباشرة قد يكون صعبًا، يمكن الاستعاضة عنها باستخدام الاحتمالية المشروطة للفئة (Class-Conditional Density) $p(mathbf{x} | C_i)$ والاحتمالية المسبقة (Prior Probability) $P(C_i)$، وفقًا لصيغة بايز: $P(C_i | mathbf{x}) = frac{p(mathbf{x} | C_i) P(C_i)}{p(mathbf{x})}$.

في سياق دالة التمييز، نظرًا لأن المقام $p(mathbf{x})$ ثابت لجميع الفئات، يمكن تبسيط دالة التمييز بحيث لا تحتاج إلى حساب الاحتمالية الخلفية بشكل كامل. يمكننا تعريف دالة التمييز $g_i(mathbf{x})$ بشكل متناسب مع الاحتمالية الخلفية، أو يمكننا استخدام دالة تضخيم اللوغاريتم (Log-Likelihood) لتبسيط العمليات الحسابية وتجنب المشاكل المرتبطة بضرب القيم الصغيرة جدًا. وعليه، فإن أبسط شكل لدالة التمييز المثالية يكون: $g_i(mathbf{x}) = P(C_i | mathbf{x})$. ولكن الشكل الأكثر شيوعًا والمستخدم عند افتراض التوزيع الطبيعي يكون لوغاريتميًا: $g_i(mathbf{x}) = ln p(mathbf{x} | C_i) + ln P(C_i)$.

عند افتراض أن التوزيعات الاحتمالية لكل فئة $p(mathbf{x} | C_i)$ تتبع التوزيع الطبيعي متعدد المتغيرات (Multivariate Gaussian Distribution)، يمكن استنتاج صيغ محددة لدوال التمييز. ويؤدي التعامل مع لوغاريتم دالة الكثافة الاحتمالية للتوزيع الطبيعي إلى إلغاء دالة الأس (Exponential Function)، مما يترك لدينا دالة تتكون من مكونات تربيعية وخطية وثابتة. إن اختلاف الافتراضات حول مصفوفات التغاير (Covariance Matrices) بين الفئات هو الذي يحدد ما إذا كانت دالة التمييز الناتجة ستكون خطية (LDA) أو تربيعية (QDA). هذه العلاقة الرياضية العميقة بين التوزيعات الافتراضية وشكل دالة التمييز هي ما يمنح هذه الأدوات قوتها التفسيرية والتحليلية.

4. دالة التمييز الخطي (LDA)

تُعد دالة التمييز الخطي (LDA) واحدة من أبسط وأكثر دوال التمييز استخدامًا وفعالية، خاصة في الحالات التي تكون فيها البيانات قابلة للفصل خطيًا. يقوم نموذج LDA على افتراضين رئيسيين هما: أولاً، أن التوزيع المشروط للميزات داخل كل فئة يتبع التوزيع الطبيعي متعدد المتغيرات (Gaussian). ثانيًا، وهو الافتراض الأكثر أهمية، أن جميع الفئات تشترك في نفس مصفوفة التغاير $(mathbf{Sigma}_i = mathbf{Sigma})$، مما يعني أن شكل تشتت البيانات وحجمه متماثلان عبر جميع الفئات، حتى لو اختلفت متوسطاتهم $(boldsymbol{mu}_i)$.

بناءً على هذه الافتراضات، عندما يتم اشتقاق دالة التمييز اللوغاريتمية من قاعدة بايز، تلغي الحدود التربيعية نفسها بسبب تساوي مصفوفات التغاير، مما ينتج دالة خطية في المتغير $mathbf{x}$. يمكن كتابة دالة التمييز الخطي $g_i(mathbf{x})$ على الشكل: $g_i(mathbf{x}) = mathbf{w}_i^T mathbf{x} + w_{i0}$، حيث $mathbf{w}_i$ هو متجه الأوزان (المنحدر)، و$w_{i0}$ هو حد التحيز (Bias Term). ويؤدي هذا الشكل إلى أن يكون الحد الفاصل بين أي فئتين $i$ و$j$ عبارة عن مستوٍ فوقي (Hyperplane) أو خط مستقيم في حالة البعدين، وهو ما يفسر تسميتها بالدالة الخطية.

تتميز LDA بعدة خصائص تجعلها مفضلة في العديد من التطبيقات. إنها فعالة حسابيًا وتتطلب تقدير عدد أقل نسبيًا من المعلمات مقارنة بالنماذج الأكثر تعقيدًا، خاصة عند التعامل مع بيانات ذات أبعاد عالية. كما أنها تتمتع بمقاومة نسبية لمشكلة فرط الملاءمة (Overfitting) مقارنة بالنماذج غير الخطية أو التربيعية، خاصة عندما تكون كمية بيانات التدريب محدودة. ومع ذلك، فإن قوتها هي أيضًا نقطة ضعفها؛ فإذا كانت الافتراضات الإحصائية (خاصة تساوي مصفوفات التغاير) لا تنطبق بشكل جيد على البيانات الحقيقية، فإن أداء LDA قد يتدهور بشكل كبير، مما يقود إلى الحاجة لاستخدام نماذج أكثر مرونة مثل QDA.

5. دالة التمييز التربيعي (QDA)

تُعتبر دالة التمييز التربيعي (Quadratic Discriminant Analysis – QDA) امتدادًا لدالة التمييز الخطي، حيث تتخلى عن الافتراض المقيد بتساوي مصفوفات التغاير بين الفئات. في QDA، يُسمح لكل فئة $C_i$ بأن يكون لها مصفوفة التغاير الخاصة بها $mathbf{Sigma}_i$. وهذا يعني أن شكل تشتت البيانات (اتجاهها وحجمها) يمكن أن يختلف اختلافًا كبيرًا بين الفئات. إن هذا التحرر من القيود الإحصائية يمنح QDA مرونة أكبر بكثير في نمذجة توزيعات البيانات المعقدة، ولكنه يأتي على حساب زيادة في التعقيد الحسابي والحاجة إلى تقدير عدد أكبر من المعلمات.

عندما يتم اشتقاق دالة التمييز اللوغاريتمية باستخدام قاعدة بايز مع السماح بمصفوفات تغاير مختلفة، لا تلغي الحدود التربيعية نفسها، مما ينتج دالة تمييز من الدرجة الثانية (Quadratic Function) في المتغير $mathbf{x}$. ويؤدي هذا الشكل التربيعي إلى أن يكون الحد الفاصل بين الفئات ليس خطًا مستقيمًا، بل سطحًا منحنيًا أو مقطعًا مخروطيًا (Conic Section)، مثل القطع الزائد أو القطع الناقص. وهذا يتيح لـ QDA التعامل بفعالية مع البيانات التي لا يمكن فصلها بشكل جيد بواسطة حد فاصل خطي، أي البيانات التي تتداخل بطرق غير منتظمة.

على الرغم من المرونة العالية لـ QDA، إلا أنها تتطلب كمية أكبر من بيانات التدريب لتقدير مصفوفات التغاير المتعددة بشكل موثوق، خاصة في مساحات الميزات عالية الأبعاد. فإذا كانت أبعاد الميزات كبيرة بالنسبة لعدد الملاحظات، فقد تصبح تقديرات مصفوفات التغاير غير مستقرة أو غير مفردة (Singular)، مما يؤدي إلى فشل النموذج في العمل أو إلى فرط الملاءمة للبيانات. لذلك، يتم اتخاذ قرار استخدام QDA مقابل LDA بناءً على فحص دقيق للبيانات: إذا كانت مصفوفات التغاير متساوية تقريبًا، يُفضل استخدام LDA نظرًا لبساطته وقوته، أما إذا كانت هناك اختلافات جوهرية، فإن QDA هو الخيار الأفضل، شريطة توفر بيانات كافية.

6. المكونات والخصائص الرئيسية

نمذجة الاحتمالية المشروطة: تعتمد دوال التمييز البارامترية (مثل LDA وQDA) بشكل أساسي على افتراض شكل محدد لدالة الكثافة الاحتمالية المشروطة $p(mathbf{x} | C_i)$. هذا الافتراض هو القوة الدافعة لشكل الدالة الرياضية النهائية، وغالبًا ما يكون الافتراض هو التوزيع الطبيعي متعدد المتغيرات.
الحدود الفاصلة: الخاصية الأساسية لدالة التمييز هي قدرتها على تحديد الحدود الفاصلة بين الفئات. هذه الحدود تنشأ من نقاط التساوي بين قيم دوال التمييز المختلفة، وتكون خطية في LDA وتربيعية في QDA.
متجه الميزات (Feature Vector): المدخل إلى دالة التمييز هو متجه يمثل مجموعة من السمات أو الخصائص الكمية للملاحظة المراد تصنيفها. إن جودة هذه الميزات ومدى تمثيلها للبيانات تؤثر مباشرة على أداء الدالة.
المعلمات المقدرة: تتطلب دوال التمييز البارامترية تقدير معلمات إحصائية من بيانات التدريب، والتي تشمل متوسطات الفئات $(boldsymbol{mu}_i)$ ومصفوفات التغاير $(mathbf{Sigma}_i)$. وتُعتبر دقة هذه التقديرات أمرًا بالغ الأهمية لضمان فعالية التصنيف.
التفسير الإحصائي: على عكس العديد من نماذج التعلم الآلي الحديثة (مثل الشبكات العصبية العميقة)، توفر دوال التمييز الإحصائية التقليدية تفسيرًا واضحًا لكيفية اتخاذ القرار، حيث يمكن ربط الأوزان والمعاملات بالخصائص الإحصائية للبيانات.

7. التطبيقات عبر التخصصات

تتمتع دالة التمييز، بتنوع أشكالها، بمجموعة واسعة من التطبيقات عبر مختلف المجالات العلمية والصناعية، حيث تتطلب أي عملية تتضمن تصنيف المدخلات إلى فئات محددة استخدام شكل من أشكال دوال التمييز. في مجال التمويل، تُستخدم دوال التمييز بشكل مكثف في أنظمة تقييم الجدارة الائتمانية (Credit Scoring)، حيث يتم تصنيف المتقدمين للقروض إلى فئات خطر مختلفة (مثل “منخفض المخاطر” أو “مرتفع المخاطر”) بناءً على ميزاتهم المالية والاقتصادية، مما يساعد البنوك والمؤسسات المالية على اتخاذ قرارات الإقراض المستنيرة.

في العلوم البيولوجية والطبية، تُستخدم دوال التمييز في تشخيص الأمراض وتحليل الأنماط الجينية. على سبيل المثال، يمكن استخدام LDA أو QDA لتصنيف عينات الأنسجة إلى فئات مختلفة من الأورام الخبيثة أو الحميدة بناءً على قياسات مجهرية أو مستويات التعبير الجيني. كما تُستخدم في دراسات الأنثروبولوجيا لتصنيف العظام أو البقايا البيولوجية إلى أنواع أو مجموعات سكانية مختلفة. إن قدرة هذه الدوال على التعامل مع مجموعات كبيرة من المتغيرات وتحديد التركيبات التي تزيد الفصل بين الفئات تجعلها مثالية لمثل هذه المهام التحليلية المعقدة.

علاوة على ذلك، تلعب دوال التمييز دورًا هامًا في مجالات التعرف على الأنماط ومعالجة الصور. في مجال التعرف على الوجوه، يمكن استخدام تقنية LDA لتقليل أبعاد بيانات الوجه عالية الأبعاد إلى مساحة فرعية يمكن الفصل فيها بفعالية أكبر، مما يسهل عملية تصنيف صورة الوجه إلى هوية معينة. كما أنها تجد تطبيقات في التنقيب عن البيانات، حيث تُستخدم لتحديد المجموعات المتجانسة أو للتنبؤ بسلوك المستهلكين من خلال تصنيفهم إلى شرائح سوقية مختلفة بناءً على بيانات الشراء والتفاعل.

8. القيود والتحديات

على الرغم من القوة الرياضية والفعالية العملية لدوال التمييز الإحصائية (LDA وQDA)، فإنها تواجه عددًا من القيود والتحديات التي يجب أخذها في الاعتبار عند تطبيقها. التحدي الأبرز يكمن في افتراض التوزيع الطبيعي (Gaussian Assumption). فإذا لم تكن التوزيعات المشروطة للفئات طبيعية (أي كانت ملتوية بشدة أو تحتوي على ذيول سميكة)، فإن تقديرات المعلمات قد تكون غير دقيقة، وقد يتدهور أداء دالة التمييز بشكل كبير، مما يدفع الباحثين إلى اللجوء إلى نماذج غير بارامترية.

التحدي الثاني يتعلق بـ مشكلة الأبعاد العالية وندرة البيانات النسبية. في مساحات الميزات ذات الأبعاد الكبيرة جدًا، يصبح تقدير مصفوفات التغاير (خاصة في QDA) صعبًا للغاية ويتطلب كمية هائلة من البيانات لتجنب فرط الملاءمة وعدم استقرار التقديرات. في مثل هذه الحالات، غالبًا ما يتم استخدام أشكال منقحة من LDA/QDA، مثل تحليل التمييز المقنن (Regularized Discriminant Analysis)، الذي يضيف قيودًا لتقليل تباين التقديرات. كما أن وجود تعدد خطي (Collinearity) قوي بين الميزات قد يؤدي إلى أن تكون مصفوفة التغاير قريبة من المفردة (Singular)، مما يجعل عملية قلب المصفوفة الضرورية لحساب الدالة غير ممكنة أو غير مستقرة رقميًا.

أخيرًا، تكمن مشكلة أخرى في طبيعة دوال التمييز الخطية والتربيعية في أنها لا تستطيع التعامل مع الحدود الفاصلة المعقدة وغير الخطية بشكل كافٍ. إذا كانت الفئات تتداخل بطريقة معقدة تتطلب سطح قرار متعدد الانحناءات، فإن LDA وQDA قد تفشل في فصلها بشكل فعال. في هذه السيناريوهات، تصبح النماذج الأكثر تعقيدًا وغير البارامترية، مثل آلات المتجهات الداعمة مع نواة غير خطية أو الشبكات العصبية، هي الخيار الأفضل، لأنها قادرة على بناء دوال تمييز ضمنية تتجاوز القيود التربيعية.