الالتواء والتفرطح في الإحصاء: فهم التوزيعات المنحرفة موجبًا وسالبًا ببساطة
مقدمة إلى الالتواء والتفرطح في الإحصاء
يُعد مفهوما Skewness وKurtosis من الأدوات الأساسية لفهم شكل البيانات الإحصائية، وليس فقط متوسطها أو تشتتها. فعند تحليل أي مجموعة بيانات، لا يكفي أن نعرف المتوسط والانحراف المعياري فحسب، بل نحتاج أيضًا إلى معرفة ما إذا كانت البيانات تميل إلى جهة معينة، وما إذا كانت تحتوي على ذيول ثقيلة أو قيم متطرفة أكثر من المعتاد.
في هذا المقال، سنشرح هذين المفهومين بلغة عربية واضحة، مع تبسيط الفكرة رياضيًا وعمليًا، بحيث يتمكن القارئ من فهمها وتطبيقها حتى دون خلفية متقدمة في الرياضيات.

ما هي منحنيات الكثافة؟
قبل فهم Skewness وKurtosis، من المهم أن نتعرف أولًا على Density Curves أو منحنيات الكثافة، لأنها تمثل الأساس البصري لفهم شكل التوزيع.
لنفترض أنك تريد تسجيل أطوال عدد كبير من الأشخاص. يمكنك تقسيم الأطوال إلى فئات، مثل: 58-59 بوصة، 59-60 بوصة، وهكذا. بعد ذلك، يمكن تمثيل هذه الفئات في رسم بياني من نوع Histogram يوضح عدد الأشخاص في كل فئة.

لكن عند التعامل مع آلاف السجلات، يصبح التركيز على النسب أو الاحتمالات أكثر أهمية من الأعداد المجردة. ومع زيادة دقة الفئات، كأن تصبح كل فئة بعرض 1/2 بوصة ثم 1/4 بوصة، نقترب تدريجيًا من تمثيل مستمر بدلًا من فئات منفصلة. وهنا يظهر منحنى الكثافة.
هذا التحول من المدرج التكراري إلى منحنى سلس يساعدنا على دراسة التوزيع بطريقة أكثر مرونة ودقة.

لماذا نستخدم منحنى الكثافة؟
ميزة منحنى الكثافة أنه يسمح بحساب احتمال وقوع القيم داخل نطاق معين عبر المساحة تحت المنحنى. فإذا كان لدينا تابع كثافة مثل:
f(x) = 1 / (0.4 * sqrt(2π)) * e^(-1/2 * ((x - 1.6)/0.4)^2)

فإن نسبة القيم الواقعة بين 1 و1.6 تساوي المساحة تحت المنحنى بين هاتين النقطتين:
∫ from 1 to 1.6 of f(x) dx

وبهذه الطريقة يمكننا الإجابة بسهولة عن أسئلة مثل:
- ما نسبة القيم الأقل من
1.2؟ - ما نسبة القيم الأكبر من
1.2؟ - ما احتمال وجود القيم داخل فترة محددة؟
لهذا السبب تُعد منحنيات الكثافة أداة قوية جدًا في التحليل الإحصائي.
فهم التوزيعات المنحرفة
ليست كل التوزيعات متماثلة وجميلة الشكل مثل التوزيع الطبيعي. بعض التوزيعات تكون منحرفة إلى اليمين أو اليسار، وهنا يظهر مفهوم الالتواء.
لفهم ذلك، نحتاج إلى التمييز بين مفهومين مهمين:
Meanوهو المتوسط الحسابي.Medianوهو الوسيط.
في التوزيع المتماثل، غالبًا ما يتطابق المتوسط مع الوسيط، ويقعان عند محور التماثل نفسه. أما في التوزيع المنحرف، فيتحرك المتوسط باتجاه الذيل بسبب تأثره بالقيم المتطرفة.

كيف نحدد الوسيط بصريًا؟
الوسيط هو القيمة التي تقسم المساحة تحت المنحنى إلى نصفين متساويين. هذا التعريف مفيد جدًا خصوصًا عندما لا يكون التوزيع متماثلًا.

كيف نحدد المتوسط؟
في منحنيات الكثافة، لا يُحسب المتوسط بنفس طريقة مجموع القيم مقسومًا على عددها فقط، لأن لكل قيمة وزنًا احتماليًا. لذلك نستخدم مفهوم المتوسط المرجح.
mean = (Σ(a_n * w_n)) / n
ويمكن فهم المتوسط أيضًا على أنه نقطة الاتزان على المحور الأفقي، أي الموضع الذي لو وضعت عنده نقطة ارتكاز لتوازن المنحنى كما لو كان جسمًا صلبًا.

قاعدة سريعة:
- إذا كان
Meanإلى يمينMedian، فالتوزيع ملتوي موجبًا. - إذا كان
Meanإلى يسارMedian، فالتوزيع ملتوي سالبًا.
ما المقصود بالعزوم في الإحصاء؟
لفهم الالتواء والتفرطح بصورة أعمق، نحتاج إلى التعرف على مفهوم Moments أو العزوم الإحصائية. العزم هو طريقة لقياس خصائص مهمة في البيانات مثل الموقع، والتشتت، وعدم التماثل، وسلوك الذيول.
لنفترض أن لدينا مجموعة البيانات التالية:
[1, 2, 3, 3, 3, 6]
العزم الأول يقيس متوسط المسافة من الأصل، وهو في هذه الحالة يعادل المتوسط الحسابي:
Σ(a_n) / n
لكن لو غيرنا البيانات إلى:
[3, 3, 3, 3, 3, 3]
فإن العزم الأول سيبقى نفسه، رغم أن شكل التوزيع مختلف تمامًا. لذلك نلجأ إلى العزم الثاني الذي يعتمد على تربيع المسافات:
Σ(a_n^2) / n
هذا العزم يكون أكبر عندما تكون البيانات أكثر تشتتًا. ولعزل أثر المتوسط، نحسب المسافات المربعة من المتوسط نفسه:
Σ((a_n - μ1')^2) / n
وهذه الفكرة تقودنا مباشرة إلى مفهوم Variance أو التباين.
ما هو الالتواء Skewness؟
الالتواء هو مقياس لعدم تماثل البيانات حول المتوسط. ويُشتق من العزم الثالث بعد تعديله باستخدام الانحراف المعياري:
skewness = Σ((a_n - μ)^3) / (n * σ^3)
إذا كانت قيمة الالتواء:
0: فالتوزيع متماثل تمامًا.- سالبة: فالذيل يمتد نحو اليسار.
- موجبة: فالذيل يمتد نحو اليمين.

من الناحية العملية، يساعدك الالتواء على فهم ما إذا كانت القيم المتطرفة تتركز في الجانب المنخفض أم المرتفع من البيانات.
ما هو التفرطح Kurtosis؟
التفرطح هو مقياس يوضح طبيعة ذيول التوزيع، وهل تحتوي البيانات على عدد كبير من القيم المتطرفة أم لا. ويُشتق من العزم الرابع:
kurtosis = Σ((a_n - μ)^4) / (n * σ^4)
غالبًا ما يُقارن هذا القياس بالتوزيع الطبيعي، الذي تبلغ قيمة التفرطح فيه 3. لذلك يُستخدم كثيرًا مفهوم Excess Kurtosis، وهو:
excess kurtosis = kurtosis - 3

وعليه:
- إذا كان
Excess Kurtosisموجبًا، فالتوزيع ذو ذيول ثقيلةHeavy-tailed. - إذا كان سالبًا، فالتوزيع ذو ذيول خفيفة
Light-tailed.
هذا يجعل التفرطح أداة مفيدة جدًا في تقييم المخاطر الإحصائية، خصوصًا في المجالات المالية وتحليل السلوك الشاذ للبيانات.
تعديل الصيغ عند استخدام العينات
في الواقع العملي، نادرًا ما نمتلك بيانات المجتمع كاملًا، بل نتعامل غالبًا مع عينة فقط. لهذا السبب لا نعرف المتوسط الحقيقي μ والانحراف المعياري الحقيقي σ، بل نعتمد على متوسط العينة x̄ والانحراف المعياري للعينة s.
لذلك تُستخدم صيغ معدلة تأخذ في الحسبان حجم العينة ودرجات الحرية:
skewness = (Σ((a_n - x̄)^3) / s^3) * (n / ((n-1)(n-2)))
kurtosis = (Σ((a_n - x̄)^4) / s^4) * (n(n+1) / ((n-1)(n-2)(n-3))) - (3(n-1)^2 / ((n-2)(n-3)))
قد تبدو هذه الصيغ أكثر تعقيدًا، لكنها ببساطة تهدف إلى جعل التقدير الناتج من العينة أقرب إلى الواقع الإحصائي للتوزيع الأصلي.
تطبيق عملي في Python
يمكنك قياس الالتواء والتفرطح بسهولة في لغة Python باستخدام مكتبة Scipy. وهي توفر دوال جاهزة تختصر عليك الحساب اليدوي.
from scipy.stats import skew
from scipy.stats import kurtosis
skew(data["MEDV"].dropna())
kurtosis(data["MEDV"].dropna())
في هذا المثال، تُستخدم الدالتان skew() وkurtosis() لقياس شكل توزيع بيانات العمود MEDV. ويمكنك تطبيق الفكرة نفسها على أي مجموعة بيانات أخرى لديك، سواء كانت مالية أو تعليمية أو تسويقية.
متى يكون هذا التحليل مهمًا؟
- عند تحليل جودة البيانات قبل بناء النماذج.
- عند اكتشاف القيم المتطرفة.
- عند مقارنة التوزيع الطبيعي بتوزيع فعلي.
- عند اتخاذ قرارات تعتمد على المخاطر أو السلوك غير المعتاد.
نصائح عملية لفهم الالتواء والتفرطح بسرعة
- لا تنظر إلى المتوسط وحده، فقد يخفي شكلًا منحرفًا للبيانات.
- إذا انجذب المتوسط نحو جهة معينة، فغالبًا هناك ذيل أطول في تلك الجهة.
- التفرطح لا يقيس فقط حدة القمة، بل يصف أيضًا سماكة الذيول.
- استخدم الرسوم البيانية مع المقاييس الرقمية دائمًا للحصول على تحليل أدق.
الخلاصة التقنية
يمثل كل من Skewness وKurtosis أدوات حاسمة لفهم شكل التوزيع الإحصائي بعمق يتجاوز المتوسط والتباين. الالتواء يكشف اتجاه عدم التماثل، بينما يوضح التفرطح ما إذا كانت البيانات معرضة لقيم متطرفة أكثر أو أقل من التوزيع الطبيعي. من الناحية التقنية، لا ينبغي استخدام هذين المقياسين بمعزل عن السياق أو الرسوم البصرية، لكنهما يقدمان قيمة كبيرة عند تحليل البيانات، واختبار الفرضيات، وتجهيز البيانات للنمذجة الإحصائية وتعلم الآلة.