المتغير المتقطع: كيف نفهم البيانات في علم النفس؟

مدرس الدكتور محمد لوتي

المحتويات:

المتغير غير المستمر (Discontinuous Variable)

Primary Disciplinary Field(s): الرياضيات، الإحصاء، علم البيانات

1. التعريف الجوهري

يُعد المتغير غير المستمر، والذي يُشار إليه في الأدبيات الإحصائية والرياضية غالبًا باسم المتغير المتقطع (Discrete Variable)، مفهومًا محوريًا يُمثل نوعًا من البيانات الكمية التي لا يمكن أن تأخذ إلا عددًا محدودًا أو عددًا قابلاً للعد من القيم ضمن نطاق معين. على النقيض من المتغيرات المستمرة التي يمكن أن تأخذ أي قيمة حقيقية بين نقطتين (مثل الطول أو الوزن)، فإن المتغيرات غير المستمرة تقفز من قيمة إلى أخرى دون المرور بالقيم المتوسطة. ولذلك، فإن القيم التي يمكن أن يأخذها هذا المتغير تكون دائمًا مفصولة بفجوات واضحة.

يكمن جوهر هذا المفهوم في إمكانية عدّ القيم وتصنيفها بشكل دقيق. إن مجموعة القيم المحتملة للمتغير غير المستمر هي دائمًا مجموعة قابلة للعد، سواء كانت هذه المجموعة محدودة (مثل نتائج رمي حجر نرد) أو غير محدودة قابلة للعد (مثل عدد حوادث الطرق في مدينة خلال فترة زمنية، والتي يمكن أن تكون 0، 1، 2، 3، … إلى ما لا نهاية، ولكنها تظل أعدادًا صحيحة). ويُطلق على هذه الظاهرة اسم العدّ (Counting) بدلاً من القياس (Measuring)، مما يحدد طبيعة البيانات والأساليب الإحصائية المناسبة لتحليلها. ويُشترط في تعريف المتغير غير المستمر أن تكون القيم المستخلصة منه عادةً أعدادًا صحيحة غير سالبة، على الرغم من أن بعض التطبيقات قد تسمح بقيم كسرية محددة سلفًا (مثل تقديرات الدرجات).

إن فهم التمييز بين المتغيرات المتقطعة والمستمرة أمر بالغ الأهمية في مجال الإحصاء التطبيقي، إذ يحدد نوع التوزيعات الاحتمالية التي يجب استخدامها، ونوع الاختبارات الإحصائية المناسبة، وطرق النمذجة الرياضية. فعلى سبيل المثال، يتم التعامل مع التوزيعات مثل التوزيع ذي الحدين وتوزيع بواسون كنموذج للمتغيرات غير المستمرة، بينما تُستخدم التوزيعات الطبيعية والأسية لنمذجة المتغيرات المستمرة. وهذا التمييز يؤثر بشكل مباشر على كيفية تفسير الباحثين لنتائجهم وكيفية بناء نماذجهم التنبؤية.

2. التطور التاريخي والمفاهيم المرتبطة

على الرغم من أن مفهوم المتغيرات المتقطعة لم يتبلور كنظرية إحصائية منفصلة إلا في العصر الحديث، إلا أن جذوره تكمن في أقدم أشكال الرياضيات المتعلقة بالعدّ والإحصاء. فقد اعتمدت الحضارات القديمة على العدّ المتقطع لتنظيم المخزونات، وحساب الضرائب، وتتبع الأجرام السماوية. ومع تطور نظرية الاحتمالات في القرنين السابع عشر والثامن عشر، بدأت تظهر النماذج الرياضية الرسمية التي تتطلب التعامل مع نتائج قابلة للعد، مثل تحليل نتائج ألعاب الحظ التي قام بها علماء مثل باسكال وفيرما.

وفي سياق الإحصاء الحديث، اكتسب المتغير المتقطع أهمية بالغة مع تأسيس الإحصاء الحيوي والاقتصادي في القرن التاسع عشر. فكانت البيانات المتعلقة بعدد المواليد، الوفيات، وحالات المرض (وهي كلها متغيرات متقطعة بطبيعتها) هي اللبنة الأساسية التي بُنيت عليها نماذج الانحدار والتصنيف الأولى. وشهد هذا التطور الفصل المنهجي بين الدوال التي تصف الاحتمال للمتغيرات المتقطعة، والتي تُعرف باسم دالة كتلة الاحتمال (Probability Mass Function – PMF)، وتلك التي تصف الاحتمال للمتغيرات المستمرة، وهي دالة كثافة الاحتمال (Probability Density Function – PDF).

ويُعد المتغير غير المستمر جزءًا من تصنيف أوسع للبيانات يشمل أربعة مستويات قياس رئيسية وضعها عالم النفس ستانلي سميث ستيفنز في عام 1946: الاسمي، والترتيبي، والكمي (الذي ينقسم إلى متقطع ومستمر). فالمتغيرات المتقطعة تقع ضمن المستوى الكمي، وهي إما على مقياس الفترة (Interval Scale) أو مقياس النسبة (Ratio Scale)، ولكنها تختلف عن المتغيرات المستمرة في أن المسافات بين نقاط البيانات تكون واضحة ومحددة ولا يمكن تقسيمها بشكل لانهائي. وقد أثر هذا التصنيف بشكل عميق على كيفية تصميم التجارب وتحليل البيانات في جميع العلوم التجريبية والاجتماعية.

3. الخصائص الرئيسية

تتميز المتغيرات غير المستمرة بعدة خصائص أساسية تميزها عن نظيرتها المستمرة، وهي خصائص تحدد كيفية جمع البيانات وتحليلها إحصائيًا. أولى هذه الخصائص هي القابلية للعد (Countability). يعني ذلك أن كل قيمة ممكنة يمكن تعيينها لعدد صحيح موجب، حتى لو كانت مجموعة القيم المحتملة لا نهائية، فإنها تظل “لا نهائية قابلة للعد”، مما يتيح إمكانية إنشاء قائمة مرتبة لجميع القيم المحتملة.

الخاصية الثانية هي وجود فجوات بينية (Gaps or Jumps). إذا أخذ المتغير قيمة معينة (مثل 5)، فإن القيمة الممكنة التالية هي بالضرورة 6 أو 4، ولا يمكن للمتغير أن يأخذ أي قيمة بين 5 و 6 (مثل 5.33 أو 5.99)، بعكس المتغيرات المستمرة. هذه الفجوات هي ما يمنح المتغير صفة عدم الاستمرار أو التقطع. ومن الناحية الرياضية، فإن دالة التوزيع التراكمي للمتغيرات المتقطعة تكون دالة خطوية (Step Function) تتزايد بشكل مفاجئ عند كل قيمة ممكنة، وتبقى ثابتة بين هذه القيم.

الخاصية الثالثة تتعلق بالاحتمالية. في حالة المتغير المتقطع، يمكن تحديد احتمال دقيق لحدوث قيمة معينة واحدة (مثلاً، احتمال الحصول على 3 رؤوس عند رمي عملة أربع مرات). ويُعبر عن هذا الاحتمال باستخدام دالة كتلة الاحتمال (PMF). على النقيض من ذلك، في حالة المتغيرات المستمرة، يكون احتمال الحصول على قيمة محددة واحدة (مثل الطول بالضبط 175.0000 سم) دائمًا صفرًا، ويتم التعامل بدلاً من ذلك مع الاحتمالات ضمن نطاقات أو فترات.

القابلية للعد: يجب أن تكون مجموعة القيم المحتملة قابلة للعد، سواء كانت محدودة أو لا نهائية قابلة للعد.
القيم الصحيحة عادةً: غالبًا ما تأخذ قيمًا صحيحة غير سالبة، مثل عدد الأخطاء أو عدد العملاء.
عدم وجود قيم وسيطة: لا توجد قيم مسموح بها بين قيمتين متتاليتين محتملتين.
استخدام دالة كتلة الاحتمال (PMF): يتم نمذجة احتمالاتها باستخدام دالة كتلة الاحتمال التي تخصص احتمالاً غير صفري لكل قيمة محددة.

4. التمايز عن المتغيرات المستمرة

يُعد التمييز بين المتغير غير المستمر والمتغير المستمر (Continuous Variable) من أهم الأسس في الإحصاء. فبينما يعتمد المتغير المتقطع على عملية العدّ، يعتمد المتغير المستمر على عملية القياس. القياس بطبيعته عرضة لأخطاء القياس وقيود دقة الأداة المستخدمة، ولكنه نظريًا يسمح بوجود عدد لا نهائي غير قابل للعد من القيم بين أي نقطتين.

على سبيل المثال، عدد السيارات التي تمر بنقطة تفتيش هو متغير غير مستمر (1، 2، 3، …)، بينما الوقت الذي تستغرقه السيارة للمرور هو متغير مستمر، لأنه يمكن أن يكون 10.5 ثوانٍ، أو 10.51 ثوانٍ، أو 10.5125 ثوانٍ، وهكذا. إن هذا الاختلاف الجوهري يؤدي إلى اختلاف في الأدوات الرياضية المستخدمة لوصف هذه المتغيرات.

رياضيًا، يتميز المتغير المستمر باستخدام التكامل (Integration) لحساب الاحتمالات على مدى فترات، بينما يستخدم المتغير غير المستمر التجميع (Summation) لحساب الاحتمالات على مجموعة من نقاط البيانات. كما أن المتغير المستمر يستخدم دالة كثافة الاحتمال (PDF) التي لا تعطي احتمال النقطة الواحدة، بل تعطي كثافة الاحتمال عند تلك النقطة، مما يعكس طبيعته غير القابلة للعد. إن عدم الوعي بهذا التمايز قد يؤدي إلى تطبيق نماذج إحصائية غير صحيحة، مثل استخدام اختبارات مصممة للبيانات المستمرة على بيانات العدّ، مما يشوه الاستنتاجات الإحصائية النهائية.

5. الأهمية والتطبيقات الإحصائية

تتركز أهمية المتغيرات غير المستمرة في كونها أساسًا لنمذجة الظواهر التي تتضمن أحداثًا أو نتائج يمكن عدّها بشكل طبيعي. وتُستخدم هذه المتغيرات بشكل مكثف في مجالات متنوعة بدءًا من العلوم الاجتماعية وصولًا إلى الهندسة وعلم الأحياء. وتعتبر النماذج الإحصائية التي تعتمد على هذه المتغيرات أدوات قوية للتنبؤ واتخاذ القرارات.

من أهم التطبيقات الإحصائية للمتغيرات غير المستمرة تبرز توزيعات الاحتمال المتقطعة. يعد توزيع بواسون (Poisson Distribution) مثالاً كلاسيكيًا لنمذجة عدد الأحداث النادرة التي تقع خلال فترة زمنية محددة أو في منطقة معينة (مثل عدد المكالمات الواردة إلى مركز اتصال أو عدد العيوب في قطعة قماش). أما التوزيع ذو الحدين (Binomial Distribution)، فيستخدم لنمذجة عدد النجاحات في سلسلة من التجارب المستقلة ذات النتيجتين المحتملتين (مثل عدد المنتجات المعيبة في عينة محددة).

في مجال الانحدار، تُستخدم تقنيات متخصصة عند التعامل مع متغيرات استجابة متقطعة. فإذا كان المتغير التابع متقطعًا ويعبر عن العدّ، يتم استخدام انحدار بواسون أو انحدار السلبية ذات الحدين (Negative Binomial Regression) بدلاً من الانحدار الخطي العادي، وذلك لتجنب الافتراضات غير الواقعية حول توزيع الأخطاء. وإذا كان المتغير التابع متقطعًا ويعبر عن خيار ثنائي (نجاح/فشل)، يتم استخدام الانحدار اللوجستي (Logistic Regression). هذه الأدوات الإحصائية المتقدمة تضمن أن تكون الاستنتاجات المستخلصة من البيانات المتقطعة دقيقة وموثوقة من الناحية الرياضية.

6. أنواع البيانات غير المستمرة

يمكن تصنيف البيانات غير المستمرة بشكل أعمق بناءً على مستوى القياس الذي تنتمي إليه، حتى لو كانت كلها تشترك في خاصية القابلية للعد. هذا التصنيف يساعد في اختيار أدق الأساليب الإحصائية. وتنقسم المتغيرات غير المستمرة في سياق البيانات إلى فئتين رئيسيتين: المتغيرات الاسمية والترتيبية (التي هي متقطعة بطبيعتها ولكنها نوعية)، والمتغيرات الكمية المتقطعة.

أولاً: المتغيرات الاسمية (Nominal): وهي متغيرات متقطعة تُستخدم لتسمية أو تصنيف مجموعات البيانات دون ترتيب جوهري. مثال ذلك: الجنس (ذكر/أنثى)، أو لون العينين. على الرغم من أنه يمكن ترميزها بالأرقام (مثل 1 لذكر و 2 لأنثى)، إلا أن هذه الأرقام لا تحمل قيمة كمية، وبالتالي لا يمكن إجراء عمليات حسابية عليها. تُعد هذه المتغيرات متقطعة لأنها تأخذ مجموعة محدودة ومعدودة من القيم.

ثانيًا: المتغيرات الترتيبية (Ordinal): وهي متغيرات متقطعة تحمل ترتيبًا طبيعيًا أو تصنيفًا بين الفئات، ولكن الفروق بين الفئات قد لا تكون متساوية أو قابلة للقياس الكمي الدقيق. مثال: مقياس ليكرت للرضا (راضٍ جدًا، راضٍ، محايد، غير راضٍ). يمكن عدّ هذه الفئات، لكن الفرق بين “راضٍ جدًا” و “راضٍ” ليس بالضرورة مساويًا للفرق بين “محايد” و “غير راضٍ”.

ثالثًا: المتغيرات الكمية المتقطعة (Quantitative Discrete): وهي المتغيرات التي تمثل عمليات العدّ الفعلية، مثل عدد الأطفال في الأسرة أو عدد الأخطاء المطبعية في صفحة ما. هذه المتغيرات هي التي تنطبق عليها بشكل أساسي التوزيعات الاحتمالية المتقطعة مثل توزيع بواسون، وتتمتع بخاصية وجود مسافات متساوية بين وحدات القياس، مما يسمح بإجراء جميع العمليات الحسابية الأساسية عليها.

7. الجدل والنقد في النمذجة

على الرغم من الأهمية الإحصائية للمتغيرات غير المستمرة، إلا أن نمذجتها تثير بعض التحديات والجدل، خاصة عندما تكون البيانات كبيرة أو عندما تحاول النماذج المتقطعة تقريب ظواهر مستمرة. أحد التحديات الرئيسية هو التعامل مع تضخم الأصفار (Zero Inflation)، وهي حالة شائعة في بيانات العدّ حيث يكون عدد الأصفار المشاهدة أكبر بكثير مما يتنبأ به توزيع بواسون القياسي. وهذا يتطلب استخدام نماذج إحصائية أكثر تعقيدًا مثل نماذج بواسون المتضخم بالصفر (Zero-Inflated Poisson) لتمثيل العملية التوليدية للبيانات بشكل صحيح.

كما يظهر الجدل في حالات يتم فيها التعامل مع المتغيرات المتقطعة ذات النطاق الواسع (مثل عدد السكان في مدينة كبيرة) على أنها مستمرة لأغراض التبسيط الإحصائي. فإذا كان المتغير المتقطع يمكن أن يأخذ عددًا كبيرًا جدًا من القيم المختلفة، فإن توزيع الاحتمال المتقطع الخاص به يقترب من شكل التوزيع المستمر، ويمكن في هذه الحالة استخدام التوزيع الطبيعي كتقريب. هذا التقريب، رغم أنه عملي، إلا أنه ينطوي على فقدان الدقة في المناطق الطرفية من التوزيع (Tails)، مما قد يؤثر على نتائج اختبار الفرضيات إذا كانت حجم العينة صغيرًا أو كانت الدقة مطلوبة بشكل كبير.

علاوة على ذلك، تواجه النماذج التي تتضمن متغيرات متقطعة في التحليل متعدد المتغيرات تحديات حسابية، خاصة عند التعامل مع البيانات عالية الأبعاد أو عند محاولة تقدير معاملات النموذج باستخدام تقنيات تعتمد على افتراضات الاستمرارية. وتتطلب معالجة هذه التحديات فهمًا عميقًا لطبيعة المتغيرات المتقطعة والقيود الرياضية التي تفرضها على اختيار الأساليب الإحصائية، مما يؤكد على أن النمذجة الصحيحة للمتغيرات غير المستمرة تتطلب خبرة إحصائية متخصصة تتجاوز تطبيقات الانحدار الخطي القياسية.