تحليل شجرة القرار: دليلك لفهم سلوك البيانات بذكاء

مدرس الدكتور محمد لوتي

المحتويات:

تحليل شجرة التصنيف والانحدار (CART)

المجالات الانضباطية الأساسية: الإحصاء الحاسوبي، التعلم الآلي، التنقيب عن البيانات
المؤيدون: ليو بريمان، جيروم فريدمان، ريتشارد أولشن، تشارلز ستون

1. التعريف الأساسي والمبادئ الجوهرية

يمثل تحليل شجرة التصنيف والانحدار (CART) خوارزمية غير معلمية (Non-parametric) تنتمي إلى عائلة أشجار القرار، وقد تم تطويرها ونشرها في عام 1984 من قبل ليو بريمان وزملائه. تكمن أهمية هذه الخوارزمية في قدرتها الفريدة على التعامل مع كل من مشاكل التصنيف (حيث تكون المتغيرات الهدف فئوية) ومشاكل الانحدار (حيث تكون المتغيرات الهدف مستمرة). المبدأ الجوهري لـ CART هو التقسيم التكراري للبيانات، حيث يتم تقسيم مجموعة البيانات الأصلية إلى مجموعات فرعية متجانسة بشكل متزايد بناءً على قيم متغيرات الإدخال. يتم تنفيذ هذا التقسيم بشكل ثنائي بحت، مما يعني أن كل عقدة في الشجرة تتفرع إلى عقدتين جديدتين فقط، مما يمنح الشجرة بنية واضحة وبسيطة.

تعتبر خوارزمية CART حجر الزاوية في العديد من أساليب التعلم الآلي الحديثة، خاصة تلك التي تعتمد على التجميع (Ensemble methods)، مثل الغابات العشوائية (Random Forests) وتعزيز التدرج (Gradient Boosting). إن سهولة تفسير نموذج شجرة القرار الناتج، مقارنة بالنماذج الإحصائية المعقدة الأخرى، تجعلها أداة مفضلة في مجالات تتطلب شفافية عالية في اتخاذ القرارات، مثل التمويل والتشخيص الطبي. يتمثل الهدف النهائي لـ CART في بناء شجرة قرار تكون فيها العقد الطرفية (الأوراق) نقية قدر الإمكان، أي أن كل ورقة تحتوي على غالبية أو جميع نقاط البيانات التي تنتمي إلى فئة واحدة معينة (في حالة التصنيف) أو قيم متقاربة (في حالة الانحدار).

على الرغم من بساطتها الظاهرة، فإن قوة CART تكمن في طريقة اختيارها للتقسيمات المثلى. في كل خطوة، يتم فحص جميع المتغيرات المتاحة وجميع نقاط التقسيم الممكنة لكل متغير. يتم اختيار التقسيم الذي يؤدي إلى أكبر قدر من الحد من عدم النقاء (Impurity reduction)، وهي عملية رياضية دقيقة تضمن أن الشجرة الناتجة هي الأكثر كفاءة في فصل البيانات. هذه العملية التكرارية تستمر حتى يتم استيفاء معيار إيقاف محدد مسبقًا، مثل الوصول إلى حد أدنى لعدد نقاط البيانات في العقدة أو عدم القدرة على تحقيق تحسن كبير في التجانس.

2. التطور التاريخي والنشأة

نشأت خوارزمية CART في سياق الحاجة إلى تطوير نماذج تنبؤية إحصائية تكون أكثر مرونة وقدرة على التعامل مع البيانات المعقدة التي لا تستوفي الافتراضات الصارمة للإحصاءات المعلمية التقليدية. قبل ظهور CART، كانت هناك محاولات سابقة لبناء أشجار القرارات، أبرزها خوارزمية ID3 التي طورها روس كوينلان، ولكن CART مثلت قفزة نوعية من حيث التنظير والقدرة على التطبيق العملي. وقد نُشر العمل الأساسي الذي قدم الخوارزمية في كتاب “Classification and Regression Trees” عام 1984، والذي أصبح مرجعًا كلاسيكيًا في الإحصاء التطبيقي والتعلم الآلي.

كان الدافع وراء تطوير CART هو معالجة القيود الرئيسية لأشجار القرار المبكرة، لا سيما مشكلة الافراط في الملاءمة (Overfitting) وعدم القدرة على التعامل بكفاءة مع المتغيرات المستمرة. قدم بريمان وزملاؤه لأول مرة منهجية شاملة وموحدة لبناء الشجرة (سواء للتصنيف أو الانحدار) ولتقليمها (Pruning) لاحقًا بطريقة منهجية لضمان تعميم النموذج بشكل جيد على بيانات جديدة وغير مرئية. هذا التركيز على التقليم القائم على تعقيد التكلفة (Cost-Complexity Pruning) كان ابتكارًا حاسمًا يميز CART عن سابقاتها.

على مر العقود، لم تفقد CART أهميتها، بل أصبحت أساسًا للعديد من التطورات اللاحقة في مجال التعلم الآلي. إن قدرتها على التعامل مع المتغيرات المختلطة (المستمرة والفئوية) والبيانات المفقودة جعلتها أداة قوية، مما أدى إلى اعتمادها على نطاق واسع في الأوساط الأكاديمية والصناعية. وقد مهدت منهجيتها المنظمة الطريق لظهور خوارزميات أكثر قوة تجمع بين العديد من أشجار CART، مثل الغابات العشوائية (التي طورها بريمان أيضًا)، مما أدى إلى تحسين الدقة التنبؤية بشكل كبير مع الحفاظ على جزء من ميزة التفسير.

3. المكونات والمفاهيم الرئيسية

يتوقف بناء شجرة CART الناجحة على فهم ثلاثة مفاهيم محورية: معايير التقسيم، قواعد الإيقاف، وآلية التقليم. تعتبر معايير التقسيم هي القلب الرياضي للخوارزمية؛ ففي حالة التصنيف، يُستخدم عادةً مؤشر جيني (Gini Index) لقياس عدم النقاء. يقيس مؤشر جيني احتمالية أن يتم تصنيف عنصر تم اختياره عشوائيًا بشكل غير صحيح إذا تم تصنيفه عشوائيًا وفقًا لتوزيع الفئات في مجموعة البيانات الفرعية. الهدف دائمًا هو اختيار التقسيم الذي يقلل من مؤشر جيني للعقدتين الفرعيتين الناتجتين إلى أقصى حد ممكن.

أما في حالة الانحدار، فإن مقياس عدم النقاء المستخدم هو عادةً مجموع مربعات البواقي (Residual Sum of Squares – RSS)، أو التباين. يتم اختيار التقسيم الذي يقلل من التباين داخل كل مجموعة فرعية جديدة. كلما انخفض مجموع مربعات البواقي بعد التقسيم، زادت تجانس البيانات من حيث قيم المتغير الهدف المستمر. هذه المعايير تضمن أن كل تقسيم يساهم بشكل كبير في تحسين قدرة الشجرة على التنبؤ.

بعد بناء الشجرة الأولية، التي غالبًا ما تكون كبيرة ومعرضة للافراط في الملاءمة، تأتي مرحلة التقليم (Pruning). تستخدم CART منهجية متقدمة تُعرف باسم “تقليم تعقيد التكلفة” (Cost-Complexity Pruning). بدلاً من التوقف مبكرًا (مما قد يؤدي إلى شجرة غير مكتملة)، تقوم CART أولاً ببناء شجرة كاملة وكبيرة، ثم تبدأ في تقليمها تدريجيًا عن طريق إزالة الفروع الأقل أهمية. يتم تحديد أهمية الفرع بناءً على التوازن بين مدى تحسينه لدقة التصنيف (أو الانحدار) وحجم (تعقيد) الشجرة، مما يؤدي إلى سلسلة من الأشجار المرشحة، ومن ثم يتم اختيار الشجرة المثلى باستخدام التحقق المتقاطع (Cross-validation).

4. آلية العمل والخوارزمية

تتبع خوارزمية CART تسلسلاً منهجيًا لبناء الشجرة يبدأ بالعقدة الجذرية التي تحتوي على مجموعة البيانات بأكملها. في كل عقدة، يتم البحث عن أفضل تقسيم ثنائي ممكن. يتم هذا البحث بشكل شامل لجميع المتغيرات وجميع العتبات (Thresholds) المحتملة لتلك المتغيرات. بالنسبة للمتغيرات الفئوية، يتم فحص جميع المجموعات الفرعية الممكنة للفئات. أما للمتغيرات المستمرة، فيتم اختبار نقاط التقسيم التي تقع بين القيم الملاحظة.

بمجرد تحديد التقسيم الأمثل الذي يحقق أكبر انخفاض في مؤشر عدم النقاء (جيني أو RSS)، يتم تقسيم العقدة إلى عقدتين فرعيتين، وتتكرر هذه العملية بشكل تكراري في كل عقدة فرعية جديدة. هذه الطبيعة التكرارية هي ما يؤدي إلى نمو الشجرة. والجدير بالذكر أن CART تعتمد على التقسيمات الثنائية حصريًا؛ أي أنه لا يمكن أن تتفرع عقدة واحدة إلى ثلاث أو أكثر من العقد الفرعية، على عكس بعض خوارزميات أشجار القرار الأخرى.

بمجرد اكتمال مرحلة البناء (حتى الوصول إلى قواعد الإيقاف أو بناء شجرة كاملة)، تبدأ مرحلة التقليم. تعتبر هذه المرحلة ضرورية للتحكم في تعقيد النموذج. يتم تطبيق عامل عقوبة (Penalty) على تعقيد الشجرة، ويتم اختيار الشجرة التي تحقق أفضل توازن بين الدقة والتعقيد. النتيجة النهائية هي شجرة قرار يمكن استخدامها للتنبؤ بقيمة المتغير الهدف لمدخلات جديدة: يتم إسقاط المدخلات عبر الشجرة حتى تصل إلى عقدة طرفية، وتكون قيمة التنبؤ هي القيمة السائدة (في التصنيف) أو المتوسط (في الانحدار) للبيانات في تلك العقدة الطرفية.

5. التطبيقات العملية والأمثلة

تتميز خوارزمية CART بنطاق واسع من التطبيقات العملية في مختلف الصناعات، ويرجع ذلك أساسًا إلى قابليتها للتفسير وقدرتها على التعامل مع أنواع البيانات المختلفة دون الحاجة إلى افتراضات توزيعية مسبقة. في مجال التمويل، تُستخدم CART بشكل شائع في تسجيل الائتمان (Credit Scoring) لتقسيم مقدمي طلبات القروض إلى مجموعات عالية ومنخفضة المخاطر بناءً على الخصائص الديموغرافية والمالية. كما تُستخدم في تقييم مخاطر التخلف عن السداد، حيث يمكن للشجرة أن تحدد بسهولة المجموعات الفرعية من العملاء الذين يمثلون أعلى احتمالية للفشل.

في مجال الطب والرعاية الصحية، تُستخدم CART في التشخيص التفريقي وتصنيف المرضى. على سبيل المثال، يمكن بناء شجرة قرار لتحديد ما إذا كان المريض مصابًا بمرض معين بناءً على مجموعة من الأعراض ونتائج الاختبارات المعملية. وتساعد الشجرة الأطباء على فهم المسارات التي تؤدي إلى تشخيصات معينة، مما يوفر رؤى قيمة تتجاوز مجرد التنبؤ. كما أن سهولة تصور النتائج تجعلها مثالية للتواصل مع غير الإحصائيين.

علاوة على ذلك، في مجال التسويق وإدارة علاقات العملاء (CRM)، يتم تطبيق CART لتجزئة السوق وتحديد العملاء الأكثر عرضة للاستجابة لحملات تسويقية معينة أو أولئك المعرضين لخطر كبير لـ التناقص (Churn). من خلال بناء شجرة تحدد متغيرات مثل سجل الشراء والعمر والجغرافيا، يمكن للمسوقين استهداف المجموعات الأكثر ربحية بكفاءة أكبر، مما يحسن من عائد الاستثمار التسويقي.

6. المزايا والتحديات

تمتلك خوارزمية CART العديد من المزايا التي تفسر شعبيتها المستمرة. أولاً، إنها غير معلمية، مما يعني أنها لا تتطلب افتراضات حول توزيع البيانات الأساسي، على عكس الانحدار الخطي. ثانيًا، تعتبر نماذجها قابلة للتفسير للغاية؛ يمكن تمثيل الشجرة بصريًا بسهولة، مما يسهل على أي شخص فهم كيفية وصول النموذج إلى قراره. ثالثًا، يمكن لـ CART التعامل بكفاءة مع كل من البيانات المستمرة والفئوية، وتتطلب القليل جدًا من المعالجة المسبقة للبيانات، مثل التوحيد القياسي (Standardization) أو التسوية (Normalization).

ومع ذلك، تواجه CART تحديات مهمة. التحدي الأبرز هو ميل الشجرة الواحدة إلى أن تكون غير مستقرة (Unstable) وحساسة للتغيرات الطفيفة في بيانات التدريب. إذا تم تغيير بضع نقاط بيانات فقط، فقد يؤدي ذلك إلى تغيير جذري في بنية الشجرة بالكامل. وهذا يجعل التنبؤات أقل موثوقية مقارنة بالنماذج الأكثر استقرارًا.

التحدي الآخر يتعلق بمشكلة الافراط في الملاءمة (Overfitting). إذا لم يتم تقليم الشجرة بشكل صحيح، فإنها ستستمر في النمو لتلائم ضوضاء البيانات في مجموعة التدريب، مما يؤدي إلى أداء ضعيف عند تطبيقها على بيانات جديدة. أخيرًا، تميل أشجار CART إلى أن تكون متحيزة تجاه المتغيرات التي تحتوي على عدد كبير من الفئات أو التي تحتوي على العديد من نقاط التقسيم الممكنة، مما قد يؤدي إلى اختيار تلك المتغيرات بشكل غير متناسب في المراحل المبكرة من البناء.

7. الانتقادات والمناقشات

على الرغم من الأهمية الإحصائية لـ CART، فقد واجهت انتقادات تتعلق أساسًا بدقتها التنبؤية مقارنة بالأساليب الأكثر تعقيدًا. أحد الانتقادات الرئيسية هو أن أشجار القرار، بما في ذلك تلك التي تبنيها CART، لا تكون فعالة دائمًا في التقاط العلاقات المعقدة أو التفاعلات غير الخطية بين المتغيرات بنفس كفاءة الشبكات العصبية أو آلات المتجهات الداعمة (SVM). غالبًا ما يكون أداء شجرة CART واحدة أقل دقة من هذه النماذج عندما تكون الحدود الفاصلة بين الفئات غير بسيطة أو لا يمكن تمثيلها بخطوط مستقيمة متوازية مع المحاور (وهو ما تفرضه طبيعة التقسيمات الثنائية).

تتركز المناقشات الأكاديمية أيضًا حول مسألة الكفاءة الحسابية عند التعامل مع مجموعات بيانات كبيرة جدًا. على الرغم من أن CART تبحث عن أفضل تقسيم في كل خطوة، فإن عملية البحث الشامل عن التقسيم الأمثل لكل متغير في كل عقدة يمكن أن تستغرق وقتًا طويلاً جدًا، خاصة عندما تكون هناك مئات من متغيرات الإدخال. وقد أدت هذه القيود إلى تطوير خوارزميات محسنة، مثل C4.5، التي حاولت معالجة بعض هذه المشكلات، وإن كان ذلك على حساب بعض ميزات CART الأصلية.

ومع ذلك، فإن معظم الانتقادات الموجهة إلى شجرة CART الواحدة يتم التخفيف من حدتها من خلال استخدام أساليب التجميع (Ensemble Methods). أظهرت الدراسات الحديثة أن استخدام CART كـ “بناء أساسي” (Base Learner) ضمن هياكل مثل الغابات العشوائية أو XGBoost يجمع بين قوة التفسير (جزئيًا، على الأقل) والدقة العالية، مما يجعلها لا تزال مكونًا حيويًا في مجموعة أدوات التعلم الآلي الحديثة. هذا التحول من الاعتماد على شجرة واحدة إلى استخدام مجموعات من الأشجار هو الرد العملي والأكثر شيوعًا على عيوب النموذج الفردي.