تحليل أشجار القرار: خارطة لفهم السلوك البشري بدقة

مدرس الدكتور محمد لوتي

المحتويات:

تحليل شجرة التصنيف والانحدار (CART)

المجالات التخصصية الأساسية: الإحصاء، التعلم الآلي، التنقيب عن البيانات

المؤسسون الرئيسيون:
ليو بريمان، جيروم فريدمان، ريتشارد أولشن، وتشارلز ستون (1984)

1. التعريف الجوهري والمبادئ الأساسية

يُعد تحليل شجرة التصنيف والانحدار (Classification and Regression Tree Analysis)، المعروف اختصاراً باسم CART، منهجية إحصائية غير بارامترية قوية تندرج ضمن فئة خوارزميات التعلم الآلي الإشرافي. تم تطوير هذه المنهجية بشكل منهجي ومفصل في الكتاب الرائد الذي نُشر عام 1984 من قبل ليو بريمان وزملاؤه، وهي تمثل أساساً لكثير من الأساليب الحديثة القائمة على الأشجار. الهدف الأساسي لـ CART هو إنشاء نموذج يتنبأ بقيمة متغير مستهدف (الناتج) بناءً على عدة متغيرات إدخال (المدخلات). تتميز هذه المنهجية بقدرتها الفريدة على التعامل مع كل من مشاكل التصنيف، حيث يكون المتغير المستهدف فئوياً أو منفصلاً، ومشاكل الانحدار، حيث يكون المتغير المستهدف كمياً أو مستمراً، مما يمنحها مرونة واسعة في التطبيقات العملية والعلمية.

تقوم المبادئ الأساسية لـ CART على عملية تقسيم ثنائية متكررة (Recursive Binary Splitting). تبدأ الخوارزمية من عقدة الجذر التي تحتوي على مجموعة البيانات الكاملة، ثم تبحث بشكل متكرر عن أفضل انقسام ثنائي ممكن لتقسيم البيانات إلى مجموعتين فرعيتين متجانستين قدر الإمكان. يُحدد هذا الانقسام المثالي بناءً على معيار محدد، يختلف اعتماداً على ما إذا كانت المشكلة تصنيفاً أو انحداراً. تستمر عملية التقسيم هذه حتى يتم استيفاء معيار التوقف، مثل الوصول إلى حد أدنى لحجم العقدة، أو عندما تصبح العقدة نقية (أي تحتوي على سجلات من فئة واحدة فقط في حالة التصنيف)، أو بعد بناء شجرة معقدة جداً تتطلب التقليم اللاحق.

إن السمة المميزة لتحليل CART هي الهيكل الشجري الناتج، والذي يشبه خريطة اتخاذ القرار. كل عقدة داخلية في الشجرة تمثل اختباراً على سمة معينة، وكل فرع يمثل نتيجة هذا الاختبار، بينما تمثل العقدة الطرفية (الورقة) القرار النهائي أو القيمة المتوقعة. يتميز النموذج النهائي الناتج عن CART بكونه سهل التفسير والفهم البشري، حتى بالنسبة لغير المتخصصين، وهي ميزة حاسمة في مجالات مثل الطب والتمويل، حيث تكون الشفافية في عملية اتخاذ القرار ضرورية. كما أن CART لا يفترض أي توزيع محدد للبيانات، مما يجعله نموذجاً قوياً غير بارامتري لا يتأثر بالانتهاكات الشائعة لافتراضات النماذج الإحصائية التقليدية.

2. التطور التاريخي والمؤسسون

تعود جذور أشجار القرار إلى ستينيات القرن الماضي، لكن المنهجية الحديثة والموحدة لـ CART ترسخت بصدور كتاب “Classification and Regression Trees” في عام 1984. كان هذا العمل إنجازاً علمياً بارزاً قام به فريق مكون من أربعة إحصائيين وباحثين بارزين هم ليو بريمان، جيروم فريدمان، ريتشارد أولشن، وتشارلز ستون. لم يقتصر إسهامهم على تقديم خوارزمية بناء الشجرة فحسب، بل قاموا أيضاً بتضمين مفهوم التقليم (Pruning) كجزء أساسي من العملية، لمعالجة مشكلة الإفراط في الملاءمة (Overfitting) التي كانت تشكل تحدياً كبيراً في النماذج الشجرية المبكرة.

في الفترة التي سبقت ظهور CART، كانت هناك محاولات لبناء نماذج شجرية، أبرزها خوارزمية ID3 (Iterative Dichotomiser 3) التي طورها روس كوينلان في أواخر السبعينيات. ومع ذلك، كان ID3 مخصصاً حصرياً لمشاكل التصنيف ويتطلب سمات إدخال فئوية، كما أنه كان يعاني من الميل إلى اختيار السمات ذات العدد الكبير من المستويات. جاءت منهجية CART لتتجاوز هذه القيود، حيث قدمت إطاراً موحداً يمكنه التعامل مع كل من البيانات المستمرة والفئوية في كل من مهام التصنيف والانحدار، وذلك بفضل استخدام معايير عدم النقاء المرنة، مثل مؤشر جيني (Gini Index) في التصنيف ومتوسط مربع الخطأ (MSE) في الانحدار.

لقد وضع كتاب بريمان وزملاؤه الأساس النظري والعملي الذي لا يزال يُستخدم حتى اليوم في برامج التحليل الإحصائي والتعلم الآلي. أتاح هذا العمل للباحثين والمحللين أداة قوية تجمع بين سهولة التفسير وقوة التنبؤ، مما جعل أشجار القرار، ومنهجية CART تحديداً، عنصراً أساسياً في مجموعة أدوات علوم البيانات. وعلى الرغم من ظهور أساليب أكثر تعقيداً وفعالية في القرن الحادي والعشرين، مثل الغابات العشوائية وأشجار التعزيز، تظل CART هي الخوارزمية التأسيسية التي تُبنى عليها هذه الامتدادات الأكثر تقدماً.

3. آليات العمل: عملية التقسيم

تعتمد آلية عمل CART على مبدأ جشع (Greedy Principle)، حيث يتم اتخاذ القرارات المثلى محلياً في كل عقدة دون النظر إلى التأثيرات المستقبلية للانقسام على هيكل الشجرة النهائي. تبدأ العملية بتقسيم مجموعة البيانات إلى مجموعتين فرعيتين بناءً على ميزة واحدة وقيمة انقسام واحدة. ولتحديد أفضل انقسام، يقوم النموذج بتقييم جميع الميزات المتاحة وجميع نقاط الانقسام الممكنة لكل ميزة. يتم اختيار الانقسام الذي يؤدي إلى الحد الأقصى من التجانس (أو الحد الأدنى من عدم النقاء/الخطأ) في المجموعتين الفرعيتين الناتجتين.

في سياق التصنيف، يُستخدم غالباً مؤشر جيني لقياس عدم النقاء. يقيس مؤشر جيني مدى احتمالية تصنيف عنصر تم اختياره عشوائياً بشكل خاطئ إذا تم تصنيفه عشوائياً وفقاً لتوزيع الفئات في العقدة. وبالتالي، فإن الانقسام الأمثل هو الذي يقلل من مؤشر جيني عبر المجموعتين الفرعيتين. على النقيض من ذلك، في سياق الانحدار، يتم استخدام معيار مختلف تماماً، وهو متوسط مربع الخطأ (Mean Squared Error – MSE) أو الانحراف المعياري. هنا، يُعد الانقسام جيداً إذا أدى إلى مجموعات فرعية تكون فيها قيم المتغير المستهدف أقرب إلى متوسط المجموعة، مما يقلل من التباين داخل العقدة.

تستمر الخوارزمية في تكرار هذه العملية على كل عقدة فرعية يتم إنشاؤها، وتتوقف عندما لا يمكن تحقيق المزيد من التحسينات الكبيرة في التجانس، أو عندما تصل الشجرة إلى عمق محدد مسبقاً، أو عندما يصبح عدد العينات في العقدة صغيراً جداً بحيث لا يمكن تقسيمها بشكل موثوق. إن التحدي الأكبر في هذه المرحلة هو تحديد متى يجب التوقف. إذا سُمح للشجرة بالنمو بشكل كامل حتى تصبح جميع العقد الطرفية نقية تماماً، فمن المحتمل جداً أن يحدث إفراط في الملاءمة (Overfitting)، حيث يتعلم النموذج الضوضاء والخصوصيات العشوائية لبيانات التدريب بدلاً من الهيكل الأساسي للبيانات. لمعالجة هذه المشكلة، يتم عادةً بناء شجرة كبيرة أولاً، ثم يتم تقليمها (Pruning) في خطوة لاحقة لتبسيطها وتحسين أدائها على البيانات الجديدة غير المرئية.

4. المكونات الرئيسية وأنواع الشجر

يتكون نموذج شجرة القرار الناتج عن CART من ثلاثة أنواع أساسية من العقد التي تشكل هيكلها: عقدة الجذر، العقد الداخلية، والعقد الطرفية (الأوراق). تمثل عقدة الجذر نقطة البداية التي تحتوي على مجموعة البيانات بأكملها. تمثل العقد الداخلية نقاط القرار، حيث يتم إجراء اختبار منطقي (مثل: هل الدخل أكبر من 50,000؟). أما العقد الطرفية، فهي تمثل المخرجات النهائية للنموذج؛ في حالة التصنيف، تحتوي العقدة الطرفية على التنبؤ بالفئة الأكثر شيوعاً داخل تلك المجموعة، وفي حالة الانحدار، تحتوي على متوسط قيم المتغير المستهدف لتلك المجموعة.

يُقسم تحليل CART إلى نوعين رئيسيين بناءً على طبيعة المتغير المستهدف: أشجار التصنيف وأشجار الانحدار. يُستخدم النوع الأول عندما يكون المتغير المراد التنبؤ به فئوياً (مثل: نعم/لا، حار/بارد، مرض A/مرض B)، ويكون الهدف هو تخصيص كل ملاحظة إلى فئة محددة. المعيار الرئيسي الذي يحكم بناء أشجار التصنيف هو تقليل عدم النقاء، حيث يُستخدم مؤشر جيني أو أحياناً إنتروبيا المعلومات (Information Entropy). في المقابل، تُستخدم أشجار الانحدار عندما يكون المتغير المستهدف مستمراً (مثل: سعر منزل، درجة حرارة، دخل سنوي). الهدف هنا هو التنبؤ بقيمة عددية، ويتم قياس كفاءة الانقسام عن طريق تقليل التباين أو استخدام متوسط مربع الخطأ (MSE).

من الجوانب المهمة في مكونات CART هو كيفية التعامل مع الميزات المفقودة أو القيم الناقصة. يوفر CART آلية تسمى “الوكلاء” (Surrogates) أو “المقسمات البديلة”، حيث يتم تحديد مجموعة من الميزات البديلة التي تحاكي الانقسام الأصلي قدر الإمكان. إذا كانت القيمة مفقودة لملاحظة معينة عند عقدة معينة، يتم استخدام الميزة الوكيلة التالية في القائمة لإرسال الملاحظة إلى فرع الانقسام الصحيح. هذه الميزة تجعل CART قادراً نسبياً على التعامل مع البيانات غير المكتملة دون الحاجة إلى الاستبدال المسبق المعقد للقيم المفقودة.

5. تطبيق شجرة التصنيف (Classification Trees)

عند تطبيق أشجار التصنيف ضمن إطار CART، يتمثل الهدف في بناء نموذج قادر على الفصل بين الفئات المختلفة بأكبر قدر ممكن من الوضوح. تبدأ العملية بالبحث عن انقسام يزيد من “ربح المعلومات” (Information Gain) أو يقلل من مؤشر جيني. لنفترض أننا نحاول تصنيف العملاء إلى مجموعات معرضة لترك الخدمة أو لا. في عقدة الجذر، تكون البيانات غير نقية تماماً؛ أي أن نسبة العملاء التاركين وغير التاركين مختلطة. تبحث الخوارزمية عن ميزة (مثل: “هل قضى العميل أكثر من عامين؟”) ونقطة قطع (مثل: “نعم”) تجعل المجموعات الناتجة (الذين قضوا أكثر من عامين، والذين لم يفعلوا) أكثر تجانساً فيما يتعلق بالمتغير المستهدف.

يُعد مؤشر جيني المعيار الافتراضي والأساسي لقياس عدم النقاء في CART للتصنيف. يتراوح مؤشر جيني بين الصفر (النقاء التام، حيث تحتوي العقدة على فئة واحدة فقط) وقيمة قصوى (عدم النقاء التام، حيث تكون الفئات موزعة بالتساوي). يتم حساب الانخفاض في عدم النقاء (Gini Gain) الناتج عن انقسام معين، ويتم اختيار الانقسام الذي يحقق أكبر انخفاض. هذا يعني أن كل خطوة في عملية بناء الشجرة هي خطوة تحسين تهدف إلى عزل الفئات المختلفة في عقد طرفية منفصلة ومتجانسة قدر الإمكان.

تكمن قوة أشجار التصنيف في بساطتها التفسيرية. فبمجرد بناء الشجرة، يمكن تتبع المسار من عقدة الجذر وصولاً إلى العقدة الطرفية لفهم مجموعة القواعد المنطقية التي أدت إلى تصنيف معين. على سبيل المثال، قد تكون القاعدة: “إذا كان الدخل < 50 ألفاً، وعدد الأطفال > 2، والعمر > 40، فإن التنبؤ هو [الترك]”، وهو ما يوفر رؤى قابلة للتنفيذ للإدارة أو صناع القرار، وهي ميزة لا تتوفر بسهولة في النماذج المعقدة مثل الشبكات العصبونية.

6. تطبيق شجرة الانحدار (Regression Trees)

تستخدم أشجار الانحدار في CART عندما يكون المتغير المراد التنبؤ به ذا طبيعة كمية مستمرة. الهدف هنا ليس تخصيص فئة، بل التنبؤ بقيمة عددية دقيقة. على سبيل المثال، التنبؤ بأسعار المنازل أو معدلات البطالة. بدلاً من قياس عدم النقاء باستخدام مؤشر جيني، تعتمد أشجار الانحدار على تقليل التباين داخل العقد الطرفية، ويتم ذلك عادةً باستخدام متوسط مربع الخطأ (MSE) أو متوسط الخطأ المطلق.

تبدأ الخوارزمية بتقسيم البيانات بحيث تقلل الانقسامات من تباين قيم المتغير المستهدف في المجموعات الفرعية الناتجة. فإذا كنا نتوقع سعر منزل، فإن الانقسام المثالي هو الذي يجمع المنازل ذات الأسعار المتشابهة في عقدة واحدة. على سبيل المثال، قد يكون الانقسام الأول بناءً على “مساحة المنزل > 200 متر مربع”. هذا الانقسام سيؤدي إلى مجموعتين فرعيتين: مجموعة ذات أسعار مرتفعة نسبياً (المنازل الكبيرة) ومجموعة ذات أسعار منخفضة نسبياً (المنازل الصغيرة). تستمر العملية حتى تصبح العقد الطرفية متجانسة جداً، أي أن تباين أسعار المنازل ضمن تلك العقدة الطرفية صغير جداً.

عندما تصل ملاحظة جديدة إلى عقدة طرفية في شجرة الانحدار، فإن التنبؤ بقيمتها ليس فئة، بل هو القيمة العددية التي يتم تعيينها لتلك العقدة. في معظم تطبيقات CART للانحدار، يتم تعيين متوسط قيم المتغير المستهدف لجميع نقاط البيانات التي سقطت في تلك العقدة الطرفية كقيمة متوقعة. هذه البساطة في التنبؤ، حيث يتم تمثيل منطقة معقدة من فضاء الميزات بقيمة متوسطة واحدة، هي ما يجعل أشجار الانحدار سهلة الفهم، رغم أنها قد تؤدي إلى تنبؤات متدرجة (Step-wise predictions) وليست سلسة، وهو أحد قيودها.

7. مزايا وعيوب المنهجية

يتمتع تحليل CART بالعديد من المزايا التي أسهمت في شعبيته المستمرة. أولاً، سهولة التفسير (Interpretability) هي الميزة الأبرز؛ إذ يمكن تحويل الشجرة النهائية إلى مجموعة من القواعد المنطقية الواضحة التي يمكن للمستخدمين فهمها وتوصيلها بسهولة. ثانياً، لا تتطلب منهجية CART إعداداً مسبقاً واسع النطاق للبيانات، فهي قادرة على التعامل مع البيانات العددية والفئوية المختلطة، كما أنها مقاومة نسبياً للقيم المتطرفة (Outliers) لأن الانقسامات تعتمد على ترتيب البيانات بدلاً من المسافات أو القيم المطلقة. ثالثاً، لا تفرض CART أي افتراضات حول التوزيع الاحتمالي للبيانات، مما يجعلها أداة قوية في تحليل البيانات غير الخطية المعقدة.

ومع ذلك، تعاني منهجية CART من قيود جوهرية. التحدي الأكبر هو مشكلة عدم الاستقرار أو التباين العالي (High Variance). قد يؤدي تغيير طفيف في بيانات التدريب إلى تغيير جذري في الهيكل الشجري الناتج، مما يجعل النموذج غير مستقر نسبياً. علاوة على ذلك، تميل أشجار القرار المفردة إلى الإفراط في الملاءمة (Overfitting) بسهولة، خاصة عندما يُسمح لها بالنمو بعمق كبير، مما يقلل من قدرتها على التعميم على بيانات جديدة. وللتغلب على ذلك، كان لابد من تطوير مفهوم التقليم (Pruning) بعد البناء الأولي للشجرة، والذي يعمل على تبسيط الشجرة عن طريق إزالة الفروع الأقل أهمية.

مشكلة أخرى مرتبطة بـ CART هي ميلها إلى أن تكون جشعة (Greedy) في عملية البناء. يتم اختيار أفضل انقسام في كل خطوة دون النظر إلى ما إذا كان هذا الانقسام سيؤدي إلى نتائج أفضل على المدى الطويل. قد يؤدي هذا القرار المحلي إلى الوقوع في تحسين محلي (Local Optimum) بدلاً من الوصول إلى الهيكل الأمثل عالمياً. كما أن CART قد تواجه صعوبة في النمذجة الفعالة للعلاقات الخطية البسيطة مقارنة بأساليب الانحدار التقليدية، وتميل إلى التحيز نحو الميزات التي تحتوي على مستويات فئوية أكثر أو نطاق أوسع من القيم المستمرة.

8. الامتدادات والأساليب المرتبطة

على الرغم من القيود التي تواجهها أشجار CART المفردة، فإنها تشكل الأساس للعديد من أهم وأقوى خوارزميات التعلم الآلي الحديثة التي تندرج تحت فئة التعلم الجماعي (Ensemble Learning). تم تطوير هذه الأساليب لمعالجة مشكلتي التباين العالي والإفراط في الملاءمة التي تعاني منهما أشجار القرار الفردية.

أحد أهم الامتدادات هو خوارزمية الغابات العشوائية (Random Forests)، التي طورها أيضاً ليو بريمان. تعتمد هذه المنهجية على بناء عدد كبير من أشجار CART بشكل مستقل. يتم إدخال عنصر عشوائي مزدوج: يتم تدريب كل شجرة على عينة فرعية من البيانات (Bootstrapping)، وعند كل انقسام، يتم النظر فقط في مجموعة فرعية عشوائية من الميزات. يتم دمج تنبؤات هذه الأشجار المتعددة (عن طريق التصويت في التصنيف أو المتوسط في الانحدار)، مما يقلل بشكل كبير من التباين ويحسن دقة التنبؤ مقارنة بأي شجرة مفردة.

الامتداد الرئيسي الآخر هو أساليب التعزيز (Boosting)، مثل تعزيز التدرج (Gradient Boosting) وXGBoost. في هذه الأساليب، لا يتم بناء الأشجار بشكل مستقل، بل تُبنى بشكل تسلسلي. كل شجرة لاحقة تُدرب لتصحيح الأخطاء المتبقية من الشجرة التي سبقتها. تبدأ هذه العملية بشجرة CART ضعيفة، ثم تُضاف الأشجار تدريجياً لتقليل الخطأ الكلي للنموذج. وقد أثبتت هذه الأساليب، التي تستخدم CART كـ “متعلم ضعيف” (Weak Learner)، فعاليتها الفائقة في العديد من مسابقات التنقيب عن البيانات والمهام التنبؤية المعقدة، على الرغم من فقدانها لبعض من سهولة تفسير نموذج CART الأصلي.