البيانات الفئوية: كيف تفهم أنماط السلوك البشري؟

مدرس الدكتور محمد لوتي

المحتويات:

البيانات الفئوية

Primary Disciplinary Field(s): الإحصاء، علم البيانات، البحث العلمي

1. التعريف الجوهري

تُعد البيانات الفئوية (Categorical Data)، التي تُعرف أحيانًا بالبيانات النوعية، حجر الزاوية في فهم وتفسير الظواهر غير العددية ضمن مجالات الإحصاء وعلم البيانات. تتميز هذه البيانات بأنها تمثل تصنيفات أو تسميات أو مجموعات أو خصائص لا يمكن التعبير عنها بشكل طبيعي من خلال الأرقام ذات المعنى الرياضي الكمي، على الرغم من إمكانية ترميزها رقميًا لأغراض المعالجة الحاسوبية. الهدف الأساسي من البيانات الفئوية هو وضع الأفراد أو الملاحظات ضمن فئات محددة ومتميزة، حيث لا يوجد ترتيب متأصل أو قيمة عددية حقيقية للفروق بين هذه الفئات. على سبيل المثال، جنس الشخص (ذكر/أنثى)، أو لون العين (أزرق، بني، أخضر)، أو الحالة الاجتماعية (أعزب، متزوج، مطلق)، كلها أمثلة واضحة على هذه البيانات.

يكمن التمييز الأساسي للبيانات الفئوية في طبيعة العمليات الإحصائية المسموح بها عليها. فعلى عكس البيانات الكمية (التي تشمل البيانات المنفصلة والمستمرة)، لا يمكن إجراء عمليات حسابية مثل الجمع أو الطرح أو حساب المتوسطات على الفئات نفسها؛ فالمتوسط الحسابي للألوان لا يحمل معنى إحصائيًا. وبدلاً من ذلك، تعتمد الطرق الإحصائية المطبقة على البيانات الفئوية على العد التكراري (Frequencies) وحساب النسب المئوية (Proportions). هذا التركيز على التوزيع التكراري هو ما يحدد المنهجية التحليلية المناسبة، والتي غالبًا ما تشمل بناء جداول التوزيع التكراري وتحليل الارتباطات باستخدام مقاييس غير بارامترية.

تختلف البيانات الفئوية بشكل جذري عن البيانات الكمية التي تقيس المقادير. فالبيانات الكمية تجيب على سؤال “كم؟” أو “ما المقدار؟”، بينما تجيب البيانات الفئوية على سؤال “أي نوع؟” أو “أي فئة؟”. هذا الفصل ليس مجرد تصنيف شكلي، بل هو أساس تحديد نوع التحليل الإحصائي الممكن تنفيذه. إن التعامل غير الصحيح مع البيانات الفئوية كما لو كانت كمية (على سبيل المثال، محاولة حساب متوسط الرمز الرقمي المعطى للألوان) يؤدي إلى استنتاجات خاطئة وغير ذات مغزى إحصائي. لذلك، يتطلب التعامل مع البيانات الفئوية فهمًا عميقًا لمقاييس القياس، وخاصة المستويين الاسمي والترتيبي، التي تُعد بمثابة الحدود الإجرائية للتحليل.

2. الخصائص والمستويات القياسية

تندرج البيانات الفئوية تحت مستويين رئيسيين من مقاييس القياس حسب تصنيف ستيفنز (Stevens)، وهما المستوى الاسمي والمستوى الترتيبي. المستوى الاسمي (Nominal Scale) هو أبسط أنواع البيانات الفئوية، حيث تُستخدم الأرقام أو الأسماء لغرض التصنيف والتمييز فقط دون أي دلالة على الترتيب أو الحجم. تتميز هذه الفئات بأنها يجب أن تكون شاملة (تغطي جميع الاحتمالات) ومانعة للتبادل (لا يمكن أن تنتمي الملاحظة الواحدة لأكثر من فئة في الوقت ذاته). الأمثلة الشائعة تشمل الجنسية، أو نوع السيارة، أو نتيجة رمي النرد (1، 2، 3، إلخ)، حيث لا يعني الرقم 2 أنه أكبر أو أفضل من الرقم 1، بل هو مجرد تسمية.

أما المستوى الترتيبي (Ordinal Scale)، فيضيف خاصية الترتيب إلى خاصية التصنيف. في هذا المستوى، يمكن ترتيب الفئات ترتيبًا منطقيًا (تصاعديًا أو تنازليًا)، لكن الفروقات أو المسافات بين هذه الفئات غير متساوية أو غير قابلة للقياس الكمي. على سبيل المثال، مقاييس ليكرت التي تستخدم في الاستبيانات (مثل: موافق بشدة، موافق، محايد، غير موافق)، حيث نعرف أن “موافق بشدة” أعلى من “موافق”، لكننا لا نستطيع تحديد بدقة كم يزيد الفرق بينهما. هذه الخاصية تجعل تحليل البيانات الترتيبية أكثر تعقيدًا من الاسمي، حيث يمكن استخدام الإحصاءات التي تعتمد على الترتيب مثل الوسيط (Median)، ولكن يظل استخدام المتوسط الحسابي غير مناسب.

تُعد معرفة مستوى القياس أمرًا بالغ الأهمية للمحلل الإحصائي، حيث إنها تحدد الأدوات التحليلية المناسبة. في حين أن البيانات الاسمية لا تسمح إلا بحساب التكرارات والمنوال (Mode)، فإن البيانات الترتيبية تفتح الباب أمام اختبارات إحصائية غير بارامترية إضافية تعتمد على الرتب (Ranks)، مثل اختبار مان ويتني (Mann-Whitney U Test) أو معامل ارتباط سبيرمان (Spearman’s Rho). ويجب التأكيد على أن التعامل مع البيانات الفئوية، بغض النظر عن مستواها، يتطلب تجنب أي محاولة لإضفاء صفة القياس الكمي عليها ما لم يتم تحويلها بشكل منهجي (مثل استخدام المتغيرات الصورية أو الثنائية) لغرض محدد في نماذج الانحدار.

3. التطور التاريخي والسياق الإحصائي

يعود التعامل مع البيانات الفئوية إلى بدايات الإحصاء الحديث، خاصة مع نشأة الإحصاء الحيوي (Biostatistics) في القرن التاسع عشر. في تلك الفترة، كان التركيز ينصب على تصنيف الظواهر الاجتماعية والطبية غير القابلة للقياس المادي المباشر، مثل أسباب الوفاة، أو فئات الأمراض، أو الحالة الاجتماعية والاقتصادية. كان الإحصائيون الأوائل، مثل جون جرانت (John Graunt)، يعتمدون بشكل كبير على التكرارات والنسب المئوية لوصف التوزيعات السكانية والوبائية، مما وضع الأساس لتحليل البيانات النوعية.

شهد القرن العشرين تطورًا نوعيًا في أدوات تحليل البيانات الفئوية، وكان الحدث الأبرز هو تطوير اختبار كاي تربيع (Chi-squared Test) على يد كارل بيرسون (Karl Pearson) في عام 1900. وفر هذا الاختبار أداة رياضية قوية لتقييم ما إذا كان هناك ارتباط ذو دلالة إحصائية بين متغيرين فئويين في جداول الطوارئ (Contingency Tables). يعتبر اختبار كاي تربيع نقطة تحول، حيث سمح بالانتقال من مجرد الوصف التكراري إلى الاستدلال الإحصائي الرسمي حول العلاقات بين الفئات، مما عزز مكانة البيانات الفئوية كجزء لا يتجزأ من المنهجيات الاستدلالية.

في العقود اللاحقة، ومع ظهور الحوسبة وتطور النماذج الإحصائية المعقدة، ظهرت تقنيات متقدمة للتعامل مع هذه البيانات، أبرزها نماذج الانحدار التي تتخذ فيها المتغيرات التابعة شكلًا فئويًا. ومن الأمثلة على ذلك الانحدار اللوجستي (Logistic Regression) الذي يسمح بالتنبؤ باحتمالية وقوع حدث فئوي (مثل النجاح/الفشل) بناءً على مجموعة من المتغيرات المستقلة. وقد أدى هذا التطور إلى دمج تحليل البيانات الفئوية ضمن نطاق التعلم الآلي والذكاء الاصطناعي، حيث تُستخدم بكثرة في مهام التصنيف (Classification Tasks)، مما يبرز أهميتها المستمرة في المشهد التحليلي المعاصر.

4. أنواع البيانات الفئوية وتصنيفاتها

يمكن تصنيف البيانات الفئوية إلى عدة أنواع فرعية بناءً على عدد الفئات المتاحة وطبيعة العلاقة بينها. التصنيف الأكثر شيوعًا هو التمييز بين البيانات ثنائية التفرع (Dichotomous) والبيانات متعددة التفرع (Polytomous). البيانات ثنائية التفرع هي تلك التي لا تحتوي إلا على فئتين محتملتين فقط، وتُعرف أحيانًا بالمتغيرات الثنائية (Binary Variables). هذه المتغيرات شديدة الأهمية في الإحصاء التطبيقي، إذ يمكن ترميزها بسهولة باستخدام 0 و 1 (مثل: نعم/لا، ناجح/راسب، مريض/سليم)، وتُستخدم كمتغيرات صوريّة (Dummy Variables) في نماذج الانحدار الكمي.

على النقيض، تشمل البيانات متعددة التفرع ثلاث فئات محتملة أو أكثر. ويمكن أن تكون هذه البيانات متعددة التفرع إما اسمية (مثل: الأديان، الماركات التجارية) أو ترتيبية (مثل: مستويات التعليم، أو تصنيفات الجودة). التحدي في التعامل مع البيانات الفئوية متعددة التفرع هو الحاجة إلى استخدام تقنيات إحصائية تسمح باستيعاب جميع الفئات في آن واحد. ففي حالة الانحدار اللوجستي، إذا كان المتغير التابع متعدد التفرع، يتم استخدام الانحدار اللوجستي المتعدد (Multinomial Logistic Regression) أو الانحدار اللوجستي الترتيبي (Ordinal Logistic Regression)، اعتمادًا على ما إذا كانت الفئات تحمل ترتيبًا أم لا.

وهناك أيضًا تصنيف يعتمد على ما إذا كانت الفئات لها طبيعة مغلقة أم مفتوحة. الفئات المغلقة هي تلك التي تكون حدودها واضحة ومحددة سلفًا، بينما الفئات المفتوحة قد تسمح بإضافة فئة “أخرى” لاستيعاب الملاحظات التي لا تندرج ضمن التصنيفات المحددة. كما يمكن أن تكون البيانات الفئوية مترابطة (Correlated) إذا كانت الملاحظات مأخوذة من نفس الأفراد عبر الزمن (مثل تقييمات الحالة المزاجية قبل وبعد العلاج)، مما يتطلب استخدام اختبارات إحصائية خاصة بالبيانات المقترنة، مثل اختبار ماكنيمار (McNemar’s Test) للمتغيرات الثنائية المترابطة.

5. طرق التمثيل والتصور

يُعد التصور الفعال للبيانات الفئوية أمرًا بالغ الأهمية لتوصيل النتائج الإحصائية بوضوح وفهم التوزيعات. الأداة الأساسية لتمثيل البيانات الفئوية هي جدول التوزيع التكراري، الذي يلخص عدد المرات التي تظهر فيها كل فئة في مجموعة البيانات، إلى جانب النسب المئوية المقابلة. وفي حالة دراسة العلاقة بين متغيرين فئويين، يُستخدم جدول الطوارئ (Contingency Table) أو جدول التقاطع (Cross-tabulation)، الذي يعرض التكرارات المشتركة للفئات المختلفة، مما يسهل ملاحظة الارتباطات المحتملة.

أما بالنسبة للتمثيلات الرسومية، فإن المخططات الشريطية (Bar Charts) هي الأكثر شيوعًا والأكثر ملاءمة لتصور التكرارات المطلقة أو النسبية لكل فئة. في المخطط الشريطي، يمثل كل شريط فئة واحدة، ويشير ارتفاعه إلى التكرار. ومن المهم جدًا في البيانات الفئوية أن تكون هناك مسافات بين الأشرطة، خلافًا للمدرجات التكرارية (Histograms) المستخدمة للبيانات الكمية، للتأكيد على أن الفئات منفصلة ولا يوجد استمرار بينها. كما يمكن استخدام المخططات الدائرية (Pie Charts)، خاصة عندما يكون عدد الفئات قليلاً، حيث يمثل كل قطاع النسبة المئوية التي تشغلها الفئة من المجموع الكلي.

بالنسبة للبيانات الفئوية الترتيبية، يُفضل أحيانًا استخدام المخططات الشريطية المكدسة (Stacked Bar Charts) عند مقارنة توزيعات فئوية مختلفة ضمن مجموعات فرعية، أو استخدام المخططات الفسيفسائية (Mosaic Plots) التي تعد امتدادًا متقدمًا لجدول الطوارئ، حيث يتم ضبط مساحة كل مستطيل بشكل يتناسب مع حجم التكرار المشترك للفئات. هذه الأدوات التصويرية لا تساعد فقط في العرض التقديمي، بل تُعد أيضًا خطوة أولى حاسمة في التحليل الاستكشافي للبيانات (Exploratory Data Analysis) لتحديد الأنماط الشاذة أو العلاقات القوية قبل الشروع في التحليل الإحصائي الاستدلالي.

6. التحليل الإحصائي للبيانات الفئوية

تتطلب البيانات الفئوية مجموعة متميزة من التقنيات الإحصائية المصممة خصيصًا للتعامل مع طبيعتها غير العددية. في سياق الإحصاء الوصفي، فإن المقاييس الوحيدة ذات الصلة بالبيانات الاسمية هي المنوال (Mode)، الذي يمثل الفئة الأكثر تكرارًا. أما في البيانات الترتيبية، فيمكن أيضًا حساب الوسيط (Median) لأنه يعتمد على ترتيب الملاحظات. ومع ذلك، لا يمكن حساب الانحراف المعياري أو المتوسط الحسابي، وتُستخدم بدلاً من ذلك النسب المئوية أو معدلات الاحتمالات لقياس التشتت والاتجاه المركزي.

عند الانتقال إلى الإحصاء الاستدلالي، فإن أبرز الأدوات المستخدمة هي اختبارات الفرضيات غير البارامترية. فبالإضافة إلى اختبار كاي تربيع المذكور سابقًا، والذي يحدد ما إذا كان هناك ارتباط بين متغيرين فئويين، يُستخدم اختبار فيشر الدقيق (Fisher’s Exact Test) كبديل لاختبار كاي تربيع عندما تكون أحجام العينات صغيرة، خاصة في جداول 2×2. وفي حالة البيانات الترتيبية، تُستخدم اختبارات الرتب، مثل اختبار كروكال واليس (Kruskal-Wallis H Test) لمقارنة ثلاثة مجموعات مستقلة أو أكثر، أو اختبار ويلكوكسون (Wilcoxon Signed-Rank Test) للبيانات المزدوجة الترتيبية.

في سياق النمذجة التنبؤية، يتم التعامل مع البيانات الفئوية إما كمتغيرات مستقلة أو تابعة. عندما تكون البيانات الفئوية هي المتغير التابع (Outcome Variable)، تستخدم نماذج الانحدار اللوجستي (Logit Models)، والتي تقوم بتقدير اللوغاريتم الطبيعي لنسبة الأرجحية (Log Odds) بدلاً من القيمة العددية المباشرة. وعندما تُستخدم البيانات الفئوية كمتغيرات مستقلة (Predictor Variables) في نماذج الانحدار الخطي التقليدية، يجب تحويلها أولاً إلى متغيرات صورية (Dummy Variables) أو متغيرات مؤشرة (Indicator Variables)، حيث يتم إنشاء متغير ثنائي لكل فئة (باستثناء فئة مرجعية واحدة) لتمثيل وجود أو غياب تلك الفئة في النموذج.

7. التحديات والقيود المنهجية

على الرغم من أهمية البيانات الفئوية، فإن التعامل معها يفرض عدة تحديات منهجية على الباحثين. أول هذه التحديات هو خطر التحويل غير الملائم (Inappropriate Conversion). قد يميل الباحثون أحيانًا إلى ترميز البيانات الترتيبية بأرقام متسلسلة (مثل 1، 2، 3، 4) ثم التعامل مع هذه الأرقام كبيانات كمية متصلة، محاولين حساب المتوسط الحسابي والانحراف المعياري. هذا الإجراء يمثل إساءة استخدام للمقياس، حيث يفترض تساوي الفواصل بين الفئات (على الرغم من أنها غير متساوية في الواقع)، مما يؤدي إلى تشويه الاستنتاجات الإحصائية.

التحدي الثاني يتعلق بـمشكلة التوزيعات غير المتوازنة (Imbalanced Distributions)، خاصة في البيانات ثنائية التفرع. إذا كانت إحدى الفئتين نادرة جدًا (على سبيل المثال، 99% من الملاحظات تنتمي إلى الفئة A و 1% إلى الفئة B)، فإن نماذج التصنيف قد تجد صعوبة بالغة في التنبؤ بالفئة الأقلية (B)، مما يؤدي إلى انحياز النموذج نحو الفئة الأكثرية. تتطلب هذه الحالة تقنيات خاصة، مثل إعادة أخذ العينات (Oversampling أو Undersampling) أو استخدام مقاييس تقييم مختلفة (مثل مقياس F1 Score بدلاً من دقة التصنيف البسيطة).

بالإضافة إلى ذلك، تشكل البيانات المفقودة (Missing Data) تحديًا كبيرًا، خاصة عندما تكون البيانات المفقودة مرتبطة ارتباطًا منهجيًا بفئة معينة. كما أن الحاجة إلى إنشاء متغيرات صورية في نماذج الانحدار تؤدي إلى زيادة كبيرة في عدد المتغيرات المستقلة، وهو ما قد يسبب مشكلة تعدد الارتباط (Multicollinearity) إذا كانت الفئات مترابطة بشكل كبير. تتطلب هذه القيود إتقانًا للطرق الإحصائية المتقدمة والقدرة على تفسير المعاملات الناتجة عن النماذج اللوجستية، والتي تفسر بالاعتماد على نسب الأرجحية بدلاً من معاملات الانحدار المباشرة.

8. الأهمية والتطبيقات العملية

تتمتع البيانات الفئوية بأهمية قصوى في جميع فروع البحث العلمي والتحليل التطبيقي، لأنها تمثل الطريقة الأساسية لتصنيف وتوصيف الكيانات غير القابلة للقياس الكمي المباشر. في مجال العلوم الاجتماعية، تُستخدم البيانات الفئوية لوصف التوجهات السياسية، أو الانتماءات الدينية، أو مستويات التعليم، أو أنواع المهن، مما يسمح للباحثين بفهم التوزيعات السكانية والتباينات المجتمعية من خلال جداول الطوارئ واختبارات الارتباط.

في مجال التسويق وتحليل الأعمال، تُعد البيانات الفئوية ضرورية لفهم سلوك المستهلكين. فالفئات مثل طريقة الدفع المفضلة، أو نوع المنتج الذي تم شراؤه، أو مستوى رضا العملاء (مرتبة)، تُستخدم لتجزئة السوق، وتصميم الحملات الإعلانية، وتحديد العوامل التي تؤدي إلى ولاء العملاء أو تحولهم. وتُستخدم تقنيات النمذجة المتقدمة، مثل تحليل مطابقة الفئات (Correspondence Analysis)، لاستكشاف العلاقات المعقدة بين عدة متغيرات فئوية في آن واحد.

أخيرًا، تبرز أهمية البيانات الفئوية في الطب وعلوم الحياة، حيث تُستخدم لتصنيف نتائج التجارب السريرية (مثل: الشفاء/عدم الشفاء)، أو فصائل الدم، أو المراحل المرضية. إن القدرة على إجراء استدلال إحصائي دقيق على هذه البيانات هي أساس اتخاذ القرارات الطبية القائمة على الأدلة. كما أن جميع مهام التصنيف في التعلم الآلي، سواء كانت التعرف على الصور، أو تصفية البريد العشوائي، أو تشخيص الأمراض، تعتمد في جوهرها على التعامل الفعال مع متغيرات الإخراج الفئوية، مما يؤكد أن الإتقان المنهجي لتحليل البيانات الفئوية هو مهارة أساسية في عصر البيانات الضخمة.

قراءات إضافية

الإحصاء – ويكيبيديا
مقاييس القياس – ويكيبيديا
اختبار كاي تربيع – ويكيبيديا
Agresti, A. (2013). Categorical Data Analysis. 3rd Edition. Wiley.