ما هي القيمة الشاذة؟ تعريفها وكيفية اكتشاف القيم الشاذة في الإحصاء
مقدمة: لماذا تُعد القيم الشاذة مهمة في تحليل البيانات؟
تُعد القيم الشاذة جزءاً مهماً من أي مجموعة بيانات، لأنها قد تكشف معلومات لا تظهر عند النظر إلى القيم المعتادة فقط. ففي بعض الحالات، تشير هذه القيم إلى ظواهر حقيقية ومؤثرة، وفي حالات أخرى قد تكشف عن أخطاء في الإدخال أو القياس أو المعالجة الإحصائية.
فهم طريقة اكتشاف القيمة الشاذة يساعدك على تفسير البيانات بدقة أكبر، كما يساهم في تحسين جودة النتائج واتخاذ قرارات أكثر موثوقية. في هذا المقال سنشرح معنى Outlier في الإحصاء، ثم نستعرض طريقة عملية لاكتشاف القيم الشاذة باستخدام IQR أو المدى الربيعي، مع أمثلة مبسطة على مجموعات بيانات فردية وزوجية.

ما هي القيمة الشاذة في الإحصاء؟
القيمة الشاذة هي نقطة بيانات مرتفعة جداً أو منخفضة جداً مقارنةً ببقية القيم في مجموعة البيانات. بعبارة أبسط، هي قيمة تبتعد بشكل ملحوظ عن النمط العام للبيانات.
وجود قيمة شاذة لا يعني دائماً أن هناك خطأ. فقد تكون هذه القيمة:
- إشارة إلى حدث غير اعتيادي لكنه حقيقي.
- نتيجة خطأ في إدخال البيانات.
- دلالة على مشكلة في القياس أو التجميع.
- مؤشراً على اختلاف جوهري في سلوك جزء من العينة.
لهذا السبب، لا ينبغي حذف القيم الشاذة تلقائياً قبل فهم سبب ظهورها وتأثيرها على التحليل.

كيف نحدد القيمة الشاذة باستخدام المدى الربيعي؟
من أكثر الطرق شيوعاً لاكتشاف القيم الشاذة استخدام IQR، وهو اختصار لعبارة Interquartile Range. تعتمد هذه الطريقة على الربيعين الأول والثالث، أي Q1 وQ3.
تُعد القيمة شاذة إذا حققت أحد الشرطين التاليين:
outlier < Q1 - 1.5(IQR)
outlier > Q3 + 1.5(IQR)
هذا يعني:
- إذا كانت القيمة أقل من
Q1 - 1.5(IQR)فهي قيمة شاذة منخفضة. - إذا كانت القيمة أكبر من
Q3 + 1.5(IQR)فهي قيمة شاذة مرتفعة.
لكن قبل تطبيق هذه القاعدة، نحتاج أولاً إلى حساب القيم التالية:
Q1: الربيع الأول.Q2: الوسيط.Q3: الربيع الثالث.IQR: الفرق بينQ3وQ1.
حساب الأرباع في مجموعة بيانات فردية
لنأخذ مجموعة البيانات التالية:
25, 14, 6, 5, 5, 30, 11, 11, 13, 4, 2
الخطوة الأولى هي ترتيب القيم تصاعدياً:
2, 4, 5, 5, 6, 11, 11, 13, 14, 25, 30
أصغر قيمة هي MIN = 2 وأكبر قيمة هي MAX = 30.
كيفية حساب Q2 في البيانات الفردية
عدد القيم هنا هو 11، وهو عدد فردي. لذلك يكون الوسيط Q2 هو القيمة الواقعة في المنتصف تماماً.
عند تقسيم البيانات، نحصل على الشكل التالي:
(2, 4, 5, 5, 6), 11, (11, 13, 14, 25, 30)
إذن الوسيط هو 11، وبالتالي:
Q2 = 11
ويمكن التحقق من موضعه عبر المعادلة:
(total_number_of_scores + 1) / 2 = (11 + 1) / 2 = 6
أي أن الوسيط هو القيمة الموجودة في المرتبة السادسة، وهي 11.
كيفية حساب Q1 في البيانات الفردية
لحساب Q1 نأخذ النصف الأول من البيانات دون تضمين الوسيط:
2, 4, 5, 5, 6
وسيط هذا الجزء هو القيمة الوسطى:
(2, 4), 5, (5, 6)
إذن:
Q1 = 5
كيفية حساب Q3 في البيانات الفردية
لحساب Q3 نأخذ النصف الثاني من البيانات دون تضمين الوسيط:
11, 13, 14, 25, 30
والقيمة الوسطى هنا هي:
(11, 13), 14, (25, 30)
إذن:
Q3 = 14
كيفية حساب IQR في البيانات الفردية
صيغة حساب المدى الربيعي هي:
IQR = Q3 - Q1
وبالتعويض:
IQR = 14 - 5 = 9
اكتشاف القيمة الشاذة في البيانات الفردية
ملخص القيم الخمس هو:
MIN = 2
Q1 = 5
MED = 11
Q3 = 14
MAX = 30
نبدأ بحساب الحد الأدنى للقيم الشاذة المنخفضة:
outlier < Q1 - 1.5(IQR)
outlier < 5 - 1.5(9)
outlier < 5 - 13.5
outlier < -8.5
لا توجد أي قيمة أقل من -8.5، لذلك لا توجد قيمة شاذة منخفضة.
الآن نحسب الحد الأعلى للقيم الشاذة المرتفعة:
outlier > Q3 + 1.5(IQR)
outlier > 14 + 1.5(9)
outlier > 14 + 13.5
outlier > 27.5
بما أن هناك قيمة أكبر من 27.5 وهي 30، فإن:
30 is an outlier
إذن القيمة 30 هي القيمة الشاذة في هذه المجموعة.
حساب الأرباع في مجموعة بيانات زوجية
عندما يكون عدد القيم زوجياً، تختلف طريقة إيجاد الوسيط والأرباع قليلاً، لأننا لا نملك قيمة وسطى واحدة مباشرة.
لنأخذ مجموعة البيانات التالية:
10, 15, 20, 26, 28, 30, 35, 40
هذه القيم مرتبة مسبقاً من الأصغر إلى الأكبر.
كيفية حساب Q2 في البيانات الزوجية
عدد القيم هنا هو 8، لذلك يكون الوسيط هو متوسط القيمتين الواقعتين في المنتصف:
10, 15, 20, 26, 28, 30, 35, 40
القيمتان الوسطيتان هما 26 و28، لذا:
26 + 28 = 54
54 / 2 = 27
إذن:
Q2 = 27
كيفية حساب Q1 في البيانات الزوجية
نقسم البيانات إلى نصفين متساويين:
10, 15, 20, 26 | 28, 30, 35, 40
ثم نأخذ النصف الأول:
10, 15, 20, 26
وسيط هذا الجزء هو متوسط القيمتين الوسطيتين 15 و20:
Q1 = (15 + 20) / 2
Q1 = 35 / 2
Q1 = 17.5
كيفية حساب Q3 في البيانات الزوجية
نأخذ النصف الثاني من البيانات:
28, 30, 35, 40
ثم نحسب متوسط القيمتين الوسطيتين 30 و35:
Q3 = (30 + 35) / 2
Q3 = 65 / 2
Q3 = 32.5
كيفية حساب IQR في البيانات الزوجية
نستخدم الصيغة نفسها:
IQR = Q3 - Q1
IQR = 32.5 - 17.5
IQR = 15
اكتشاف القيم الشاذة في البيانات الزوجية
ملخص القيم الخمس لهذه المجموعة هو:
MIN = 10
Q1 = 17.5
MED = 27
Q3 = 32.5
MAX = 40
نحسب أولاً حد القيم الشاذة المنخفضة:
outlier < Q1 - 1.5(IQR)
outlier < 17.5 - 1.5(15)
outlier < 17.5 - 22.5
outlier < -5
لا توجد أي قيمة أقل من -5.
ثم نحسب حد القيم الشاذة المرتفعة:
outlier > Q3 + 1.5(IQR)
outlier > 32.5 + 1.5(15)
outlier > 32.5 + 22.5
outlier > 55
لا توجد أي قيمة أكبر من 55، لذلك لا تحتوي هذه المجموعة على أي قيم شاذة.
ملاحظات مهمة عند تفسير القيم الشاذة
- ليست كل قيمة شاذة خطأً في البيانات.
- بعض القيم الشاذة تحمل دلالة تجارية أو علمية مهمة.
- حذف القيم الشاذة دون تحليل قد يؤدي إلى نتائج مضللة.
- يفضل دائماً مراجعة مصدر البيانات قبل اتخاذ قرار الاستبعاد أو التصحيح.
كما أن طريقة IQR مناسبة جداً للبيانات العددية، خصوصاً عندما تريد طريقة بسيطة وعملية لا تتأثر كثيراً بالقيم المتطرفة مقارنة ببعض المقاييس الأخرى.
الخلاصة التقنية
اكتشاف القيم الشاذة خطوة أساسية في أي مشروع تحليل بيانات، لأنها تساعد على فهم التوزيع الحقيقي للبيانات وتمنع الوقوع في استنتاجات غير دقيقة. عملياً، تُعد طريقة IQR من أفضل الطرق التعليمية والتطبيقية لاكتشاف القيم الشاذة بسرعة ووضوح، خاصة عند التعامل مع مجموعات بيانات صغيرة أو متوسطة. وإذا ظهرت قيمة شاذة، فالأهم ليس مجرد رصدها، بل تفسير سبب وجودها قبل اتخاذ أي قرار إحصائي بشأنها.