كسرية – fractile

الكُسَير (Fractile)

المجالات التخصصية الأساسية: الإحصاء، تحليل البيانات، الاقتصاد القياسي، الرياضيات التطبيقية.

1. التعريف الجوهري

يُعد الكُسَير (Fractile)، المعروف إحصائيًا بشكل أشمل باسم الكميّة (Quantile)، مفهومًا إحصائيًا أساسيًا يمثل نقاط القطع التي تقسم نطاق توزيع الاحتمالية لمتغير عشوائي أو مجموعة من البيانات المرتبة إلى فواصل متصلة ذات احتمالات أو ترددات متساوية. بعبارة أدق، يُستخدم الكُسَير لتحديد المواقع النسبية للقيم ضمن مجموعة البيانات، حيث يقسم مجموعة البيانات المرتبة إلى N جزء متساوٍ، وتكون هذه الأجزاء متساوية من حيث عدد الملاحظات التي تقع فيها. إن الكُسَير من الرتبة p، حيث 0 < p < 1، هو القيمة التي تقل أو تساويها نسبة p من الملاحظات. هذه الخاصية تجعل الكُسَيرات أدوات لا غنى عنها في الإحصاء الوصفي والاستدلالي لفهم شكل التوزيع وتحديد مقاييس الموضع، بعيدًا عن الاعتماد الكلي على مقاييس النزعة المركزية التي قد تتأثر بالقيم الشاذة.

من الناحية الرياضية، يرتبط الكُسَير ارتباطًا وثيقًا بـ دالة التوزيع التراكمي (Cumulative Distribution Function – CDF). إذا كانت F تمثل دالة التوزيع التراكمي لمتغير عشوائي، فإن الكُسَير Q(p) هو معكوس هذه الدالة. بمعنى، القيمة x التي تحقق F(x) = p. هذا التعريف ينطبق بسلاسة على التوزيعات المستمرة. أما في حالة البيانات المنفصلة أو العينات المحدودة، فإن حساب الكُسَير قد يتطلب استخدام طرق مختلفة لـ الاستيفاء (Interpolation) لتقدير القيمة بدقة، نظرًا لأن دالة التوزيع التراكمي في هذه الحالة تكون دالة درجية، وقد لا تتطابق قيمة p المطلوبة بالضبط مع قيمة مُلاحظة مباشرة في البيانات. وتُعد هذه الاختلافات في طرق الاستيفاء مصدرًا لبعض التباينات المنهجية في البرامج الإحصائية المختلفة.

يتميز مفهوم الكُسَير بكونه مصطلحًا شاملاً يشمل تقسيمات محددة ومعروفة، مثل المئين (الذي يقسم البيانات إلى 100 جزء)، والعشير (10 أجزاء)، والربيع (4 أجزاء)، والخُمَيس (5 أجزاء). إن القدرة على وصف التوزيع بدقة من خلال تحديد هذه النقاط الفاصلة تمنح الكُسَيرات ميزة تحليلية كبيرة. فبدلاً من الاكتفاء بالمتوسط الذي قد يكون مضللاً في التوزيعات الملتوية، يوفر تحليل الكُسَيرات صورة واضحة عن كيفية تشتت البيانات، ودرجة التواء التوزيع (Skewness)، وكثافة البيانات في ذيول التوزيع، مما يجعله عنصرًا أساسيًا في تحليل التوزيعات غير البارامترية وفي الإحصاء القوي (Robust Statistics) الذي يهدف إلى تقليل تأثير القيم المتطرفة.

2. الاشتقاق اللغوي والتطور التاريخي

مصطلح الكُسَير (Fractile) مستمد من الجذر اللاتيني fractus، والذي يعني “مكسور” أو “مجزء”، وهو ما يشير مباشرة إلى عملية تجزئة التوزيع أو العينة إلى أجزاء كسرية متساوية. أما مصطلح الكميّة (Quantile)، فهو مستمد من quantus، أي “كم” أو “مقدار”، ويؤكد على أن الكُسَير هو قيمة المتغير التي تتوافق مع مقدار محدد من الاحتمال التراكمي. في بدايات علم الإحصاء، كان التركيز ينصب أساسًا على مقاييس النزعة المركزية مثل المتوسط الحسابي، ومقاييس الانتشار مثل المدى. ومع ذلك، مع تزايد الاهتمام بفهم التباين البشري وتوزيعات البيانات غير المتماثلة، نشأت الحاجة إلى مقاييس موضع أكثر دقة وتفصيلاً.

يمكن تتبع الجذور الفكرية لاستخدام الكُسَيرات إلى أعمال الإحصائيين الرواد في نهاية القرن التاسع عشر وبداية القرن العشرين. وكان السير فرانسيس جالتون (Sir Francis Galton) من أبرز المساهمين في ترسيخ هذا المفهوم. استخدم جالتون، في دراساته حول الوراثة والقياس النفسي، المئينيات والربيعات بشكل منهجي لتقييم توزيع السمات البشرية مثل الطول ووقت رد الفعل. لقد أدرك جالتون أن هذه المقاييس توفر طريقة قوية لوصف التوزيع دون الحاجة إلى الافتراض الصارم بالتوزيع الطبيعي، مما سمح له بتحديد المواقع النسبية للأفراد ضمن مجموعات مرجعية كبيرة. كان هذا التحول نقطة محورية نحو تطوير الإحصاء غير البارامتري.

في المراحل اللاحقة من القرن العشرين، وخاصة مع النمو الهائل في حجم البيانات وتطور الحوسبة، ازداد الاعتماد على الكُسَيرات بشكل كبير. أصبح الوسيط (الكميّة 0.5) هو المقياس المفضل للنزعة المركزية في العديد من السياقات التي تتسم بوجود قيم متطرفة، مثل الدخل أو أسعار العقارات، حيث يكون المتوسط غير مستقر. كما أدى تطوير تقنيات تحليل الرتب (Rank Analysis) والرسوم البيانية الصندوقية إلى ترسيخ الكُسَيرات كأدوات أساسية ليس فقط لوصف البيانات ولكن أيضًا لاختبار الفروض الإحصائية القوية. اليوم، تُدمج الكُسَيرات بعمق في جميع الحزم الإحصائية المتاحة، مما يعكس مكانتها كإحدى الدعائم الأساسية للتحليل الكمي.

3. الخصائص والمكونات الرئيسية

تتمتع الكُسَيرات بعدة خصائص إحصائية جوهرية تجعلها أدوات تحليلية فعالة. أولاً، إنها مقاييس ترتيبية، بمعنى أن تحديدها يعتمد فقط على ترتيب البيانات وليس على المسافات الفعلية بين القيم. هذه الخاصية تمنح الكُسَيرات ميزة كبيرة: المتانة أو المقاومة (Robustness) ضد القيم المتطرفة. على سبيل المثال، إذا أضيفت قيمة متطرفة كبيرة جدًا إلى مجموعة بيانات، فإن المتوسط الحسابي سيتغير بشكل كبير، بينما سيتأثر الوسيط (الكُسَير 0.5) والقيم الربيعية الأخرى بشكل طفيف أو قد لا تتأثر على الإطلاق، لأن ترتيب الملاحظات الوسطى لا يتغير.

ثانيًا، يمكن استخدام الكُسَيرات ليس فقط كمقاييس موضع ولكن أيضًا كقاعدة لاشتقاق مقاييس الانتشار. أبرز مثال على ذلك هو المدى الربيعي (Interquartile Range – IQR)، وهو الفرق بين الربيع الثالث (Q3) والربيع الأول (Q1). يمثل المدى الربيعي عرض النطاق الذي تقع فيه النسبة الوسطى البالغة 50% من البيانات. هذا المدى، كونه مقياسًا قائمًا على الكُسَيرات، يظل مقاومًا للقيم الشاذة في أطراف التوزيع، مما يجعله غالبًا مقياسًا أكثر موثوقية للتشتت من الانحراف المعياري عندما يكون التوزيع غير متماثل أو يحتوي على ذيول سميكة. كما أن العلاقة بين الكُسَيرات (مثل المسافة بين الوسيط والربيعات) توفر معلومات فورية عن درجة التواء التوزيع.

تتمثل المكونات الرئيسية للكُسَيرات في أنواعها المتخصصة التي تختلف حسب عدد الأجزاء التي تقسم إليها البيانات:

  • الربيعات (Quartiles): تتكون من ثلاث نقاط قطع (Q1، Q2، Q3) تقسم التوزيع إلى أربعة أرباع متساوية (كل ربع يمثل 25% من البيانات). Q2 هو الوسيط.
  • العشيرات (Deciles): تتكون من تسع نقاط قطع تقسم التوزيع إلى عشرة أجزاء متساوية (كل جزء يمثل 10%).
  • المئينات (Percentiles): تتكون من 99 نقطة قطع تقسم التوزيع إلى مائة جزء متساوٍ (كل جزء يمثل 1%). وهي الشكل الأكثر تفصيلاً، حيث يمثل المئين P الكُسَير من الرتبة P/100.
  • الخُمَيْسات (Quintiles): تتكون من أربع نقاط قطع تقسم التوزيع إلى خمسة أجزاء متساوية (كل جزء يمثل 20%).

إن اختيار النوع المناسب من الكُسَيرات يعتمد على مستوى التفصيل المطلوب في التحليل الإحصائي، فبينما قد تكون الربيعات كافية لإجراء فحص سريع للبيانات، تُعتبر المئينات ضرورية في الاختبارات المعيارية والبحوث الطبية التي تتطلب دقة عالية في تحديد الموقع النسبي.

4. الأهمية والتأثير الإحصائي

تتجلى الأهمية الإحصائية للكُسَيرات في توفيرها رؤى معمقة حول بنية التوزيع تتجاوز ما يمكن أن تقدمه مقاييس النزعة المركزية وحدها. إنها تتيح للمحللين تحديد عدم التجانس في البيانات. ففي العديد من الظواهر الواقعية (مثل توزيع الدخل، أو أداء شبكات الحاسوب)، تكون البيانات ملتويّة بشكل كبير، مما يجعل المتوسط الحسابي ممثلاً ضعيفًا للواقع. في هذه الحالات، يوفر الوسيط والربيعات صورة أكثر صدقًا عن وضع غالبية السكان أو الملاحظات.

يُعد التأثير الأكبر للكُسَيرات في مجال الإحصاء الوصفي البصري، وتحديداً من خلال الرسوم البيانية الصندوقية (Box and Whisker Plots). يُعد هذا الرسم البياني تمثيلاً مرئيًا لخمسة أرقام ملخصة للتوزيع: القيمة الدنيا، الربيع الأول (Q1)، الوسيط (Q2)، الربيع الثالث (Q3)، والقيمة القصوى. هذا التمثيل يعتمد بشكل كلي على الكُسَيرات ويوفر وسيلة سهلة لتحديد التواء التوزيع، ومقارنة التوزيعات بين مجموعات مختلفة، وتحديد القيم المتطرفة (Outliers) المحتملة باستخدام قاعدة 1.5 مضروبة في المدى الربيعي. وبالتالي، فإن الكُسَيرات هي حجر الزاوية في الكشف السريع والفعال عن خصائص البيانات.

بالإضافة إلى ذلك، تلعب الكُسَيرات دورًا محوريًا في الإحصاء الاستدلالي غير البارامتري. العديد من الاختبارات الإحصائية القوية، مثل اختبار مان-ويتني-يو (Mann-Whitney U Test) أو اختبار كروكال واليس (Kruskal-Wallis Test)، تعتمد على رتب البيانات بدلاً من قيمها المطلقة. هذا يعني أن العمليات الأساسية لهذه الاختبارات تعتمد على مقارنة الكُسَيرات بدلاً من المتوسطات، مما يجعلها مناسبة بشكل خاص لتحليل البيانات التي لا تتبع افتراضات التوزيع الطبيعي المطلوبة في الاختبارات البارامترية (مثل اختبار t أو تحليل التباين). هذا التنوع في التطبيقات يؤكد على الأهمية المنهجية للكُسَيرات كبديل إحصائي مرن وقوي.

5. تطبيقات الكُسَيرات في مجالات متنوعة

تتنوع تطبيقات الكُسَيرات وتنتشر عبر مجالات أكاديمية وصناعية واسعة، مما يعكس قدرتها على التعامل مع مختلف أنواع البيانات. في مجال الاقتصاد والاقتصاد القياسي، تُستخدم العشيرات والخُمَيْسات بشكل مكثف لتحليل توزيع الدخل والثروة. على سبيل المثال، يستخدم الاقتصاديون الكُسَيرات لتحديد الفجوات بين أغنى 10% وأفقر 10% من السكان، وهي بيانات حاسمة لتصميم سياسات الضرائب والرعاية الاجتماعية وتقييم مؤشرات التفاوت الاقتصادي مثل معامل جيني (Gini Coefficient)، الذي يعتمد بشكل غير مباشر على تحليل الكُسَيرات.

في التمويل وإدارة المخاطر، تُعد الكُسَيرات أدوات أساسية لقياس التعرض للمخاطر. المفهوم الأكثر شيوعًا هو قيمة المخاطر (Value at Risk – VaR)، الذي يتم تعريفه رياضيًا على أنه كُسَير معين (عادةً المئين الأول أو الخامس) لتوزيع خسائر المحفظة المحتملة. على سبيل المثال، إذا كانت قيمة المخاطر ليوم واحد عند مستوى ثقة 99% هي مليون دولار، فهذا يعني أن هناك احتمال 1% فقط أن تتجاوز الخسائر مليون دولار في ذلك اليوم. هذا الاعتماد على الكُسَيرات يضمن أن المؤسسات المالية تقيس المخاطر بناءً على ذيول التوزيع (حيث تقع الخسائر الكبيرة) بدلاً من الاعتماد على المتوسطات التي تفشل في التقاط الأحداث النادرة والمتطرفة.

في مجال تكنولوجيا المعلومات وهندسة الأداء، تُستخدم الكُسَيرات لتقييم جودة الخدمة (Quality of Service – QoS). عند قياس زمن استجابة الخادم، فإن الاعتماد على متوسط زمن الاستجابة (Mean Latency) يمكن أن يكون مضللاً، خاصة إذا كانت هناك بضع طلبات بطيئة جدًا تؤثر سلبًا على تجربة عدد قليل من المستخدمين. لذلك، تحدد فرق العمل أهداف مستوى الخدمة (SLAs) باستخدام المئين 95 (P95) أو المئين 99 (P99). هذا يضمن أن 95% أو 99% من جميع الطلبات تتم معالجتها في فترة زمنية محددة أو أقل، مما يعطي ضمانًا أقوى لجودة الخدمة المقدمة للمستخدمين الفعليين.

6. الكُسَيرات في الإحصاء التطبيقي والتعلم الآلي

في مجال تحليل البيانات الضخمة والتعلم الآلي، تلعب الكُسَيرات دورًا حيويًا في مراحل ما قبل المعالجة (Preprocessing) وفي بناء نماذج قوية. أحد الاستخدامات الشائعة هو تطبيع البيانات (Data Normalization) أو التحويل (Transformation) باستخدام طرق مثل التحويل الكمي (Quantile Transformation)، الذي يحول البيانات إلى توزيع طبيعي أو منتظم بناءً على رتبها، مما يعزز أداء العديد من خوارزميات التعلم الآلي التي تفترض التوزيع الطبيعي. كما تُستخدم الكُسَيرات لتحديد وتعديل القيم المتطرفة؛ فبدلاً من إزالة القيم الشاذة، يمكن استخدام تقنية التكبيس (Capping)، حيث يتم استبدال أي قيمة تقع خارج المئين 1 والمئين 99 بقيمتي هذين الكُسَيرين، مما يحد من تأثير الذيل دون فقدان الملاحظات.

بالإضافة إلى ذلك، هناك مجال متنامٍ يسمى انحدار الكُسَيرات (Quantile Regression)، والذي يمثل امتدادًا قويًا للانحدار الخطي التقليدي. بينما يهدف الانحدار الخطي العادي إلى نمذجة المتوسط الشرطي للمتغير التابع، يهدف انحدار الكُسَيرات إلى نمذجة الكُسَيرات الشرطية (مثل الوسيط الشرطي أو الربيع 90 الشرطي). هذه التقنية تسمح للباحثين بفهم كيف تؤثر المتغيرات المستقلة على أجزاء مختلفة من التوزيع الشرطي للمتغير التابع. على سبيل المثال، يمكن استخدام انحدار الكُسَيرات لدراسة تأثير التعليم على دخل الأفراد في الجزء الأدنى من توزيع الدخل (الفقراء) مقارنة بتأثيره على الأفراد في الجزء الأعلى (الأثرياء)، وهي فروقات لا يمكن للانحدار الخطي التقليدي التقاطها.

كما تُستخدم الكُسَيرات في التقييمات المعيارية. في علم النفس والتربية، يتم تحديد المعايير المرجعية للأداء باستخدام المئينيات. عندما يحصل طالب على درجة في المئين 85 في اختبار موحد، فإن هذا التصنيف لا يشير فقط إلى درجة الطالب المطلقة، بل يشير إلى أنه تفوق على 85% من المشاركين. هذا الاستخدام للكُسَيرات يوفر سياقًا تفسيريًا قويًا وضروريًا لتقييم الأداء النسبي عبر مختلف السكان والعينات، مما يجعله أداة قياسية أساسية في البحوث التطبيقية والتقييم.

7. الجدل والانتقادات المنهجية

على الرغم من الفوائد العديدة للكُسَيرات، فإنها تواجه بعض الانتقادات المنهجية والعملية. أحد أبرز مصادر الجدل هو عدم وجود تعريف موحد لحساب الكُسَيرات في العينات المحدودة أو المنفصلة. توفر الحزم الإحصائية الحديثة، مثل R أو Python، ما يصل إلى تسع خوارزميات مختلفة لتقدير الكميّة، وكل خوارزمية قد تنتج قيمة مختلفة قليلاً للكُسَير لنفس مجموعة البيانات. هذا التباين في النتائج يمكن أن يؤدي إلى ارتباك، ويتطلب من الباحثين توثيق الطريقة المحددة المستخدمة لضمان قابلية الاستنساخ والمقارنة بين الدراسات المختلفة.

انتقاد آخر يتعلق بـ الكفاءة الإحصائية. في السيناريوهات التي يكون فيها التوزيع الأساسي للبيانات معروفًا بشكل موثوق بأنه توزيع طبيعي (افتراض بارامتري)، فإن مقاييس مثل المتوسط الحسابي والانحراف المعياري هي أكثر كفاءة من الوسيط والمدى الربيعي. هذا يعني أن المتوسط له تباين تقدير أقل، وبالتالي يوفر تقديرًا أكثر دقة لمركز التوزيع مقارنة بالوسيط. الإصرار على استخدام الكُسَيرات في ظل افتراضات بارامترية صحيحة قد يؤدي إلى إهدار جزء من المعلومات الكامنة في البيانات، على الرغم من أن هذا النقد غالبًا ما يقابله تفضيل المتانة على الكفاءة عندما تكون افتراضات التوزيع غير مؤكدة.

أخيرًا، تكمن القيود في أن الكُسَيرات هي مقاييس موضعية بحتة. إنها تحدد القيمة التي يقع تحتها نسبة مئوية معينة من البيانات، لكنها لا تقدم معلومات عن القيم الفعلية للملاحظات التي تقع في كل قسم. على سبيل المثال، مجموعتان من البيانات قد تشتركان في نفس قيمة الربيع الثالث (Q3)، لكن إحدى المجموعتين قد تحتوي على قيم متطرفة أعلى بكثير بعد Q3 مقارنة بالأخرى. هذه الفروق في الذيل الأقصى لا يتم التقاطها بواسطة الكُسَيرات وحدها، مما يستلزم استخدامها بالتزامن مع مقاييس أخرى مثل المتوسط أو الانحراف المعياري أو تحليل الذيل لتقديم صورة تحليلية شاملة ومكتملة.

8. قراءات إضافية