جدول الترددات – frequency table

مدرس الدكتور محمد لوتي

المحتويات:

جدول التكرار (Frequency Table)

المجالات التأديبية الأساسية: الإحصاء، تحليل البيانات، الرياضيات

1. التعريف الأساسي

يمثل جدول التكرار (Frequency Table) أداة إحصائية محورية ومنظمة، مصممة لتلخيص مجموعة كبيرة من البيانات من خلال عرض عدد مرات تكرار كل قيمة فريدة، أو تكرار مجموعة من القيم (الفئات)، ضمن تلك المجموعة. ويُعد هذا الجدول الخطوة الأولى والأكثر أهمية في مرحلة الإحصاء الوصفي، حيث يوفر نظرة فورية وموجزة حول كيفية توزيع البيانات، مما يسهل على المحلل فهم الخصائص الأساسية للظاهرة المدروسة. وبدلاً من التعامل مع قائمة طويلة وغير منظمة من القياسات الخام، يقوم جدول التكرار بتكثيف هذه المعلومات في هيكل ثنائي الأبعاد، حيث يمثل العمود الأول القيم أو الفئات، ويمثل العمود الثاني التكرار (Frequency) المقابل لحدوث تلك القيم في العينة أو المجتمع الإحصائي. إن الكفاءة التحليلية لجدول التكرار تكمن في قدرته على تحويل الفوضى الكمية إلى نظام يمكن استخلاص الأنماط منه، مما يمهد الطريق لعمليات حسابية واستدلالات إحصائية أكثر تعقيداً.

الغرض الأساسي من إنشاء جدول التكرار هو تحديد التوزيع التكراري (Frequency Distribution) للبيانات. ويعكس هذا التوزيع نمط تقارب أو تباعد نقاط البيانات حول قيم معينة، مما يساعد في الكشف عن التماثل، أو الانحراف، أو وجود قيم متطرفة محتملة. وفي سياق البيانات الكمية المستمرة أو الكبيرة، يصبح من الضروري تجميع القيم المتشابهة في فئات (Classes) أو مدى محدد، حيث يُحسب التكرار لعدد المشاهدات التي تقع ضمن حدود كل فئة. هذه العملية، المعروفة باسم تبويب البيانات، هي ما يميز جدول التكرار عن مجرد قائمة عد، وتسمح بتمثيل البيانات المعقدة بصورة بصرية واضحة، وغالباً ما تُستخدم كنقطة انطلاق لإنشاء رسوم بيانية مثل المدرج التكراري (Histogram) أو المضلع التكراري.

من الناحية الرياضية، يمكن اعتبار التكرار بمثابة دالة تربط كل قيمة أو فئة في مجموعة البيانات بعدد مرات ظهورها الفعلي. على الرغم من بساطة المفهوم، فإن التنفيذ الصحيح لجدول التكرار يتطلب اتخاذ قرارات حاسمة، خاصة عند التعامل مع البيانات المجمعة، فيما يتعلق بتحديد عدد الفئات المناسب وحجم المدى (Class Width)، لضمان أن يكون التلخيص ممثلاً للبيانات الأصلية دون فقدان الكثير من المعلومات الدقيقة. إن القوة الإحصائية لجدول التكرار لا تقتصر على عرض التكرار المطلق فحسب، بل تمتد لتشمل حساب التكرارات النسبية والمئوية والتراكمية، مما يوفر مقاييس إضافية لفهم العلاقة بين جزء البيانات والبيانات الكلية، وهي مقاييس أساسية في الإحصاء الاحتمالي والاستدلالي.

2. التطور التاريخي والسياق الإحصائي

على الرغم من أن مفهوم العد والتنظيم يعود إلى فجر الحضارات، فإن الاستخدام المنهجي لجداول التكرار كأداة إحصائية رسمية تطور بشكل كبير مع صعود علم الإحصاء الحديث في القرنين السابع عشر والثامن عشر. في البدايات، كان التركيز ينصب على تجميع البيانات المتعلقة بالديموغرافيا، مثل معدلات الوفيات والمواليد، حيث كانت الحاجة ماسة لترتيب هذه الأعداد الكبيرة في جداول منظمة لتسهيل اتخاذ القرارات الحكومية والتجارية. وكان ظهور نظرية الاحتمالات، وتحديداً أعمال علماء مثل جون غرانت وبيرنولي، يتطلب وجود طريقة قياسية لعرض البيانات التجريبية بطريقة تسمح بتحليل الاحتمالات، مما رسخ دور جدول التكرار كركيزة أساسية لتصنيف البيانات الأولية.

في القرن التاسع عشر، مع التوسع في تطبيق الإحصاء في العلوم الاجتماعية والطبيعية، تم تطوير المنهجيات الخاصة بالبيانات المجمعة. حيث أدرك الإحصائيون أن البيانات المستمرة (مثل الأطوال أو الأوزان) لا يمكن تمثيلها بشكل فعال عن طريق سرد كل قيمة فردية. هذا الاستيعاب أدى إلى تطوير قواعد صارمة لتقسيم البيانات إلى فئات متساوية المدى، وهي القواعد التي لا تزال تُستخدم حتى اليوم لضمان الموضوعية في التمثيل. وقد أصبحت جداول التكرار جزءاً لا يتجزأ من المنهجيات التعليمية والإحصائية، حيث شكلت الأساس لفهم مفاهيم التوزيعات الإحصائية الكبرى، مثل التوزيع الطبيعي (Normal Distribution)، الذي يُعد حجر الزاوية في الإحصاء الاستدلالي.

السياق الإحصائي لجدول التكرار يضعه بقوة ضمن مجال الإحصاء الوصفي (Descriptive Statistics)، وهو الفرع المعني بتلخيص ووصف خصائص مجموعة بيانات معينة. وظيفته هي تزويد المحلل بـ “صورة” واضحة للبيانات، تمكنه من حساب المقاييس الرئيسية للنزعة المركزية (مثل المتوسط والوسيط والمنوال) ومقاييس التشتت (مثل الانحراف المعياري والمدى) مباشرة من الجدول المبوب. هذه المقاييس مشتقة من التوزيع التكراري وتعتبر أكثر دقة عند استخدامها مع بيانات مجمعة مقارنة بالبيانات الخام غير المنظمة. وبالتالي، فإن جدول التكرار ليس مجرد عرض للبيانات، بل هو معالج أولي يسهل جميع التحليلات اللاحقة، مما يعزز فهمنا لخصائص التوزيع قبل الانتقال إلى اختبار الفرضيات أو النمذجة الإحصائية المتقدمة.

3. المكونات الأساسية لجدول التكرار

يتكون جدول التكرار النموذجي من عدة أعمدة أساسية، كل منها يخدم غرضاً تحليلياً محدداً، مما يوفر طبقات متعددة من المعلومات حول توزيع البيانات. العمود الأول والأكثر أهمية هو عمود الفئة أو القيمة (Class or Value)، الذي يسرد إما القيم الفريدة للبيانات النوعية أو الكمية المنفصلة، أو الفئات المجمعة للبيانات الكمية المستمرة. ويجب أن تكون هذه الفئات شاملة (تغطي جميع نقاط البيانات) وحصرية (لا تتداخل حدود فئة مع حدود فئة أخرى)، لضمان أن كل مشاهدة تقع في فئة واحدة فقط، مما يحافظ على سلامة التوزيع الإحصائي.

العمود الثاني هو عمود التكرار المطلق (Frequency)، ويرمز إليه عادةً بالرمز (f)، وهو يمثل العدد الفعلي للمشاهدات التي تندرج تحت كل فئة أو قيمة. هذا التكرار المطلق هو قلب الجدول، حيث يوضح مدى تكرار كل نتيجة. بينما العمود الثالث، التكرار النسبي (Relative Frequency)، (f/N)، يقدم بعداً تحليلياً إضافياً. يتم حسابه بقسمة التكرار المطلق لكل فئة على الحجم الكلي للعينة (N). التكرار النسبي مهم جداً لأنه يسمح بمقارنة التوزيعات التكرارية لمجموعات بيانات مختلفة الأحجام، حيث يتم التعبير عنه كنسبة مئوية أو كسر، ويشير مباشرة إلى الاحتمالية التجريبية لحدوث تلك الفئة.

بالإضافة إلى ذلك، تشتمل الجداول المتقدمة غالباً على عمود التكرار التراكمي (Cumulative Frequency)، وهو مجموع التكرارات المتتابعة بدءاً من الفئة الأولى وصولاً إلى الفئة الحالية. هذا المكون حيوي لتقدير الرتب المئوية (Percentiles) وتحديد عدد المشاهدات التي تقل عن حد معين. كما يمكن اشتقاق التكرار النسبي التراكمي، الذي يستخدم لتحديد النسبة المئوية للبيانات التي تقع تحت القيمة العليا لكل فئة. هذه المكونات المتكاملة تسمح للمحلل ليس فقط برؤية مدى شيوع كل قيمة، ولكن أيضاً بفهم مدى تراكم البيانات عبر نطاق التوزيع، مما يجعله أداة متعددة الاستخدامات في الإحصاء الوصفي.

4. أنواع جداول التكرار

تتنوع أشكال جداول التكرار بناءً على طبيعة ونوع البيانات التي يتم تحليلها، وتحديد النوع المناسب أمر بالغ الأهمية لضمان دقة التلخيص. النوع الأول هو جدول التكرار للبيانات النوعية (Categorical Data)، حيث تكون المدخلات عبارة عن فئات اسمية أو ترتيبية (مثل الجنس، الحالة الاجتماعية، أو لون العين). في هذه الحالة، يتم سرد كل فئة بوضوح في العمود الأول، ويُحسب التكرار المطلق لعدد المشاهدات التي تنتمي إلى تلك الفئة. هذا النوع من الجداول بسيط نسبياً ولا يتطلب عملية تجميع أو تقسيم للمدى.

النوع الثاني هو جدول التكرار للبيانات الكمية المنفصلة (Discrete Quantitative Data)، وهي بيانات تأخذ قيماً صحيحة محددة (مثل عدد الأطفال، عدد السيارات). إذا كان نطاق القيم صغيراً، يتم إدراج كل قيمة منفصلة في العمود الأول وحساب تكرارها. ومع ذلك، إذا كان النطاق واسعاً، قد يضطر المحلل إلى تجميع هذه البيانات في فئات لتبسيط العرض، على الرغم من أن هذا يؤدي إلى فقدان بعض الدقة الأصلية، وهي مشكلة تواجه أيضاً النوع الثالث والأكثر تعقيداً: جداول التكرار للبيانات الكمية المستمرة (Continuous Quantitative Data).

تُعد جداول التكرار للبيانات المستمرة هي الأكثر شيوعاً في العلوم الطبيعية والاجتماعية (مثل درجات الحرارة، الدخل، الطول). نظراً لأن هذه البيانات يمكن أن تأخذ أي قيمة ضمن نطاق معين، فمن الضروري تجميعها في فئات مجمعة (Grouped Classes). يتطلب هذا النوع تحديداً دقيقاً لـ مدى الفئة (Class Interval) وعدد الفئات. يجب أن تكون الفئات متساوية في المدى لضمان تمثيل بصري عادل وغير متحيز، وأن تكون حدود الفئات واضحة وغير متداخلة (على سبيل المثال: 10-19، 20-29). إن اختيار عدد الفئات يؤثر مباشرة على شكل التوزيع، حيث أن عدد الفئات القليل جداً يخفي التفاصيل، بينما العدد الكبير جداً لا يحقق الهدف من التلخيص.

5. منهجية بناء جداول التكرار للبيانات المجمعة

إن إنشاء جدول تكرار فعال للبيانات الكمية المستمرة يتبع منهجية منظمة لضمان أن يكون التوزيع الناتج تمثيلاً أميناً للبيانات الأصلية. تبدأ هذه المنهجية بتحديد المدى (Range) للبيانات، وهو الفرق بين أكبر قيمة وأصغر قيمة في مجموعة البيانات. يعد المدى ضرورياً لأنه يحدد النطاق الكلي الذي يجب أن تغطيه الفئات المجمعة. بعد تحديد المدى، يجب على المحلل اتخاذ قرار بشأن عدد الفئات (k) التي سيتم استخدامها. لا توجد قاعدة صارمة لعدد الفئات، لكن الإحصائيين غالباً ما يستخدمون قواعد إرشادية مثل قاعدة ستيرجز (Sturges’ Rule)، التي تقترح أن يكون عدد الفئات (k) يساوي تقريباً (1 + 3.322 * log10(N))، حيث N هو حجم العينة، أو ببساطة اختيار عدد يتراوح بين 5 و 20 فئة حسب حجم البيانات.

بمجرد تحديد عدد الفئات (k)، يتم حساب عرض الفئة (Class Width) (W). يتم الحصول على عرض الفئة بقسمة المدى على عدد الفئات المختار (W = Range / k). من الناحية العملية، غالباً ما يتم تقريب هذا العرض إلى أقرب عدد صحيح أو قيمة مناسبة لتبسيط عملية التبويب والقراءة. بعد تحديد العرض، تبدأ عملية تحديد حدود الفئات. يجب أن تبدأ الفئة الأولى بقيمة تساوي أو تقل قليلاً عن أصغر مشاهدة في البيانات، ويتم إضافة عرض الفئة بشكل متتابع لتحديد الحدود الدنيا والعليا لكل فئة. من الضروري جداً التأكد من أن حدود الفئات محددة بطريقة تزيل الغموض حول أي فئة يجب أن تنتمي إليها القيمة التي تقع على الحد الفاصل (على سبيل المثال، باستخدام حدود فعلية أو تحديد ما إذا كانت الفئة تشمل الحد الأدنى وتستبعد الحد الأعلى).

الخطوة الأخيرة في المنهجية هي عملية التبويب (Tallying) أو العد، حيث يتم مراجعة كل مشاهدة في البيانات الخام وتعيينها للفئة المناسبة. ويتم تسجيل هذا العدد في عمود التكرار المطلق. بعد ذلك، يمكن حساب التكرارات النسبية والتراكمية. إن الدقة في تحديد الحدود وعرض الفئة هي ما يضمن أن جدول التكرار لا يشوه شكل التوزيع الأصلي للبيانات. إذا تم اختيار عدد فئات كبير جداً، فإن الجدول قد يبدو غير منظم، أما إذا كان العدد صغيراً جداً، فقد يتم إخفاء السمات المهمة للتوزيع، مثل وجود أكثر من قمة واحدة (توزيع متعدد القمم).

6. الأهمية والتطبيقات في تحليل البيانات

تكمن الأهمية الإحصائية لجدول التكرار في دوره كجسر بين البيانات الخام والتحليل الإحصائي المتقدم. أولاً، يوفر الجدول الأساس لإنشاء التمثيلات البيانية التي لا غنى عنها في الإحصاء الوصفي. إن المدرج التكراري (Histogram)، على وجه الخصوص، هو تمثيل رسومي للتوزيع التكراري، حيث تمثل مساحة كل عمود (أو ارتفاعه) التكرار المطلق أو النسبي للفئة المقابلة. وبدون جدول التكرار، لا يمكن بناء هذه الرسوم البيانية التي تتيح للمحلل استيعاب شكل التوزيع (مثل التماثل، الانحراف لليمين، الانحراف لليسار) بصرياً، وهي معلومات قد تكون غائبة في مجرد قائمة الأرقام.

ثانياً، يسمح جدول التكرار بتقدير مقاييس النزعة المركزية والتشتت عندما تكون البيانات متوفرة فقط في شكل مجمع. على الرغم من أن هذه المقاييس (مثل المتوسط والوسيط والانحراف المعياري) المحسوبة من البيانات المجمعة تعتبر تقديرات وليست قيماً دقيقة، إلا أنها ضرورية عندما تكون البيانات الأصلية غير متاحة. على سبيل المثال، يمكن تقدير الوسيط (Median) والربيعيات (Quartiles) بسهولة باستخدام عمود التكرار التراكمي، حيث يمكن تحديد الفئة التي تحتوي على القيمة الوسيطة. كما يمكن تحديد المنوال (Mode) بسهولة عبر تحديد الفئة التي لديها أعلى تكرار، والمعروفة باسم الفئة المنوالية.

ثالثاً، يُستخدم جدول التكرار على نطاق واسع في تطبيقات ضمان الجودة (Quality Control) في الصناعة والهندسة. على سبيل المثال، يمكن استخدام هذه الجداول لتلخيص توزيع أخطاء التصنيع أو قياسات المنتج، مما يساعد المهندسين على تحديد المشكلات المتكررة بسرعة وفهم ما إذا كانت العملية الإنتاجية تعمل ضمن الحدود المقبولة. وفي البحث الأكاديمي، سواء في علم النفس، أو الاقتصاد، أو البيولوجيا، يُعد عرض جداول التكرار خطوة قياسية لتقديم الخصائص الأساسية لعينات الدراسة قبل الشروع في التحليلات الاستدلالية الأكثر تعقيداً، مما يضفي شفافية وقاعدة صلبة على جميع الاستنتاجات الإحصائية اللاحقة.

7. الانتقادات والتحديات

على الرغم من الأهمية الكبيرة لجدول التكرار كأداة تلخيصية، فإنه ليس خالياً من التحديات والانتقادات، خاصة عند التعامل مع البيانات المجمعة. الانتقاد الأكثر أهمية هو فقدان الدقة (Loss of Precision). عندما يتم تجميع البيانات المستمرة في فئات، يفقد المحلل القدرة على معرفة القيمة الدقيقة لكل مشاهدة داخل تلك الفئة. يتم افتراض أن جميع القيم داخل الفئة تتوزع بالتساوي أو يتم تمثيلها بنقطة منتصف الفئة (Class Midpoint). هذا الافتراض، رغم ضرورته للتلخيص، يؤدي إلى إدخال خطأ تقديري في حسابات المقاييس الإحصائية المشتقة، مثل المتوسط والانحراف المعياري، والتي لن تكون مطابقة للقيم التي يتم الحصول عليها من البيانات الخام الأصلية.

التحدي الثاني يكمن في الذاتية في اختيار الفئات. لا توجد طريقة واحدة “صحيحة” لتحديد عدد الفئات وعرضها. يؤدي التغيير الطفيف في عدد الفئات أو نقطة البداية للفئة الأولى إلى تغيير شكل التوزيع التكراري بشكل ملحوظ. إذا اختار محللان مختلفان قواعد تجميع مختلفة لنفس مجموعة البيانات، فقد ينتهي بهما المطاف برؤية أنماط مختلفة، مما قد يؤدي إلى استنتاجات متباينة حول خصائص البيانات (مثل تحديد موقع المنوال أو وجود الانحراف). هذه الذاتية تتطلب من المحللين توخي الحذر وتبرير اختياراتهم بناءً على السياق الإحصائي والغرض من التحليل.

بالإضافة إلى ذلك، قد يكون جدول التكرار غير فعال في تمثيل البيانات ذات التشتت العالي والقيم المتطرفة. في حالة وجود قيم متطرفة نادرة بعيدة جداً عن بقية البيانات، قد تضطر عملية التجميع إلى إنشاء فئات قليلة جداً وعريضة جداً لتغطية المدى بأكمله، مما يقلل من دقة التوزيع في الجزء المركزي المهم. كما أن الجداول قد تكون أقل فاعلية في تمثيل العلاقات المعقدة بين متغيرين أو أكثر، حيث إنها مصممة أساساً للتلخيص أحادي المتغير. في مثل هذه الحالات، تكون أدوات أخرى مثل جداول الاقتران (Contingency Tables) أو الرسوم البيانية ثنائية المتغيرات أكثر ملاءمة وشمولية للتحليل المتعدد.