ما هو تحليل البيانات؟ مقدمة شاملة لمفاهيم تحليل البيانات الأساسية

دقائق القراءة: 10

تحليل البيانات هو عملية فحص وتنظيف وتحويل ونمذجة البيانات بهدف اكتشاف معلومات مفيدة. ينتشر تحليل البيانات في كل مكان في عالمنا الحديث؛ فهو يساهم في تشكيل التقنيات التي نستخدمها، وكيفية بناء البرمجيات، والطرق التي يتم بها تطوير المنتجات.

في هذا المقال، سأتناول المبادئ الأساسية لتحليل البيانات وكيفية تطبيقها، مع تقديم أمثلة يمكنك استخدامها لاستخلاص رؤى ذات معنى من بياناتك. سأشارك أيضاً أمثلة لكيفية استخدام تحليل البيانات في مجموعة متنوعة من المنتجات التي قد تكون مألوفة لديك – مثل تحسين مواقع الويب، وتطبيقات الصحة والنظام الغذائي، والزراعة، والتأمين، على سبيل المثال لا الحصر. إذا كنت تشاركني الاعتقاد بأن البيانات هي دليل يمكن أن يوجه قراراتك، فإنها تستحق المزيد من الدراسة.

أسئلة تمهيدية: هل يمكنك الإجابة؟

لنبدأ باختبار قدرتك على الإجابة عن هذه الأسئلة. إن لم تتمكن من الإجابة بسهولة، فلا تقلق. سأرشدك خلال أساسيات تحليل البيانات لتمكينك من التعامل مع كل سؤال بثقة.

اكتشف مدير عملية بيع بالتجزئة عبر الإنترنت لمنتج واحد أن 26% من زوار الموقع يشترون المنتج. كما لاحظ أن سلوك العملاء يبدو مستقلاً. افترض أن 8 عملاء محتملين يزورون الموقع يومياً. تخيل أن المدير يعمل بخطة حوافز تدفع له 300 دولار عن أي يوم يحقق فيه الموقع ثلاث مبيعات أو أكثر، وإلا فإن أجره اليومي هو 100 دولار.

  • أ. ما هو احتمال حصوله على 300 دولار في أي يوم عشوائي؟ الإجابة: حوالي 35%.
  • ب. ما هي القيمة المتوقعة لأجره في أي يوم عشوائي؟ الإجابة: 170 دولاراً.
  • ج. عُرض على المدير خياران بديلان لخطط الحوافز، حيث سيحصل إما على (أ) لا راتب أساسي، ولكن عمولة 75 دولاراً لكل عملية بيع، أو (ب) راتب ثابت قدره 160 دولاراً يومياً، أو (ج) الخطة الأصلية المذكورة أعلاه. أي خطة يجب أن يختار إذا أراد زيادة القيمة المتوقعة لأرباحه إلى أقصى حد؟ الإجابة: الخطة الأصلية.

أساسيات تحليل البيانات: فهم أعمق

دعنا نتناول كيفية التفكير في البيانات والبناء على هذه المعارف لتتمكن من الإجابة على الأسئلة المذكورة أعلاه.

أنواع البيانات: تصنيفات أساسية

أول جانب يجب أن نتعلمه في تحليل البيانات هو وجود أنواع مختلفة من البيانات. بسيط، أليس كذلك؟ بالتأكيد.

  • يمكن أن تكون البيانات فئوية (Categorical) (مثل: الجنس، الموقع، وما إلى ذلك) أو عددية (Numerical) (مثل: عدد العملاء، المستخدمين النشطين، وما إلى ذلك).
  • بعض البيانات تكون متقطعة (Discrete) (مثل: عدد المتقدمين لوظيفة)، وبعضها الآخر مستمرة (Continuous) (عدد لا نهائي من النتائج المحتملة).

قبل تحليل البيانات، خصص لحظة لفهم أنواع البيانات المتوفرة لديك. هل بياناتك مستمرة أم متقطعة؟ هل هي فئوية أم عددية؟ بعد الإجابة على هذه الأسئلة، ستكون جاهزاً للتعمق أكثر.

خصائص البيانات الرئيسية

للبيانات ثلاثة أنواع رئيسية من الخصائص:

  • يمكن أن تكون البيانات مقطعية (Cross-sectional): هذا يعني أن البيانات تمثل لقطة لنمط أو اتجاه معين. مثال على ذلك نتائج استبيان، مثل التعداد السكاني الوطني.
  • يمكن أن تكون البيانات سلاسل زمنية (Time series): مثال على ذلك درجات اختباراتي، أو الأجور المكتسبة في فترة زمنية، أو كيفية قياس الشركات وتطبيق الخصومات على مدار العام.
  • هناك أيضاً بيانات لوحية (Panel data): مثال على ذلك البيانات التي قد تخزنها شركة في نظام إدارة علاقات العملاء (CRM). تتيح البيانات اللوحية تتبع عدة مواضيع وعدة نقاط زمنية. ومع تزايد انخفاض تكلفة التخزين، أصبح هذا النوع من البيانات أكثر شيوعاً.

الآن بعد أن عرفت أنواع البيانات وخصائصها الرئيسية، أود أن أقدم لمحة عامة عن كيفية توزيع البيانات.

الانتشار: كيف يتم تنظيم البيانات؟

يمكن استخلاص رؤى فريدة من خلال النظر إلى شكل بياناتك. يمكن تنظيم البيانات عبر النزعة المركزية (Central Tendency). للقيام بذلك، قم بترتيب مجموعة بياناتك من الأصغر إلى الأكبر. عندما تكون البيانات مرتبة بدقة، يمكنك البدء في رؤية الانتشار (Dispersion) لأول مرة.

من خلال رؤية مدى تشتت البيانات، يمكنك حساب مدى البيانات (Range) عن طريق طرح أصغر قيمة من أكبر قيمة. إذا كان للبيانات مدى كبير (المسافة بين القيم الدنيا والقصوى)، فيقال إن لديها تشتت عالٍ (High Dispersion).

أخيراً، يمكنك النظر إلى جميع البيانات المتاحة أو لقطة من مجموعة البيانات. يمكنك بسهولة حساب المتوسط (Mean) والوسيط (Median) والمنوال (Mode).

فكر في التجربة الفكرية التالية: إذا وضعت يدك في وعاء من حلوى M&M's وسحبت واحدة حمراء، فماذا يمكنك أن تستنتج؟ على الأرجح لا شيء يذكر. دعنا نشرح السبب من خلال تعريف فترات الثقة (Confidence Intervals).

فترات الثقة: فهم دقة التقديرات

فترة الثقة هي نطاق من القيم التي من المرجح أن تتضمن قيمة مجتمع إحصائي بدرجة معينة من الثقة. عادة ما يتم التعبير عنها كنسبة مئوية حيث يقع متوسط المجتمع بين فترة دنيا وعليا.

بالعودة إلى مثال حلوى M&M's. تخيل أنك قمت بهذا النشاط (سحب حلوى M&M من وعاء وهمي) عدداً لا نهائياً من المرات وحصلت على نفس النتيجة. بعبارة أخرى، لم ترَ سوى حلوى M&M's حمراء. ماذا يمكنك أن تقول حينها؟ ستتأكد من أنه من المحتمل أن يكون هناك حلوى M&M's حمراء فقط في الوعاء. هذا استنتاج صحيح. لاحظ أننا لا نقول “لا توجد أنواع أخرى من حلوى M&M's”. بل نقول إن هناك احتمالاً كبيراً لوجود حلوى M&M's حمراء فقط في الوعاء. في كل مرة تسحب فيها حلوى M&M، تزداد درجة ثقتك.

أخذ العينات مقابل قياس المجتمع الإحصائي بأكمله

عند جمع البيانات، يمكنك النظر إلى المجتمع الإحصائي (Population) بأكمله أو أخذ عينة (Sample) منه. هل تحتاج إلى فحص كل حبة M&M في العالم لتقول إن جميعها بلون معين؟ أم يمكنك النظر إلى عينة عشوائية والتوصل إلى نفس الاستنتاج؟

في جوهرها، هذا هو ما يدور حوله أخذ العينات (Sampling). مجتمع العينة هو اختيار مجموعة فرعية (عينة إحصائية) من الأفراد ضمن مجتمع إحصائي لتقدير خصائص المجتمع بأكمله. قد يكون هدفك النهائي هو معرفة مدى تكرار وقوع الأحداث أو عدد أنواع النتائج التي تظهر في التوزيع.

الجمع بين المفاهيم: أخذ العينات والقيمة المتوقعة

الملاحظات هي مفتاح تحليل البيانات لأنها يمكن أن تساعدك في الإجابة على أسئلة محددة للغاية: ما مدى احتمالية وقوع الأحداث؟ إذا كانت لديك احتمالات معينة، فما هي العوائد المتوقعة من وقوع هذا الحدث (أي، ستحصل على مقابل إذا حدث أمر معين)؟

لحساب القيمة المتوقعة (Expected Value)، تحتاج إلى معرفة احتمال وقوع حدث مضروباً في عدد مرات وقوع الحدث. يمكن أن تزداد العوائد المتوقعة كلما ابتعدت عن نقطة المنتصف للبيانات. فكر في احتمالية بدء شركة ناجحة للغاية. معظم الشركات لا تطرح أسهمها للاكتتاب العام (IPO). ولكن بالنسبة لتلك التي تفعل ذلك، تكون العوائد كبيرة جداً.

عندما بدأت موقعاً إلكترونياً لمساعدة الناس على العمل من المنزل، اعتقدت أن احتمالات النجاح كانت 10% في أحسن الأحوال. قال Jeff Bezos الشهير إن احتمالات نجاح أمازون كانت 30%.

مقياس شائع للانتشار (وبالتالي احتمالية النتيجة) هو الانحراف المعياري (Standard Deviation)، وهو ببساطة الجذر التربيعي للتباين. يتم حساب تباين (Variance) مجموعة البيانات عن طريق أخذ المتوسط الحسابي للفروق المربعة بين كل قيمة والقيمة المتوسطة.

أمثلة عملية وحلولها

يقدم هذا المقال لمحة عامة رفيعة المستوى لتعريفك بالمكونات الأساسية للإحصاءات وتحليل البيانات. الآن، حاول الإجابة على هذين السؤالين. إذا تمكنت من حلهما، فهذا رائع! لحل هذه الأسئلة، فكر في القيمة المتوقعة والعوائد.

يرغب مصمم ومبرمج المواقع الإلكترونية John Bell في تحديد ما إذا كان من المربح إنشاء شركة لتصميم المواقع. يعتقد John أن هناك أربعة مستويات محتملة للطلب على خدماته:

  • طلب منخفض جداً — 1% من الشركات ستستخدم الخدمة؛ وسيتكبد John خسارة قدرها 100,000 دولار.
  • طلب منخفض — 5% من الشركات ستستخدم الخدمة؛ وسيكسب John 10,000 دولار.
  • طلب متوسط — 10% من الشركات ستستخدم الخدمة؛ وسيكسب John 25,000 دولار.
  • طلب مرتفع — 29% من الشركات ستستخدم الخدمة؛ وسيكسب John 75,000 دولار.

بناءً على خبراته السابقة في البرمجة وبناء المواقع، يخصص John الاحتمالات التالية لمستويات الطلب المختلفة:

  • P(very low demand) = 0.20
  • P(low demand) = 0.50
  • P(moderate demand) = 0.20
  • P(high demand) = 0.10

(أ) قم بإعداد شجرة القرار وحساب القيمة المتوقعة لتقديم الخدمة.

 .2 * ( -100 , 000 ) + .5 * ( 10 , 000 ) + .2 * ( 25 , 000 ) + .1 * ( 75 , 000 ) = $ -2 , 500

(ب) احسب القيمة المتوقعة بمعلومات مثالية لعائد John.

 .5 * 100 , 000 + .2 * 25 , 000 + .1 * 75 , 000 = $ 17 , 500

بعبارة أخرى، يعتقد John أنه سيكسب 17,500 دولار إذا افتتح شركة تصميم الويب الخاصة به. بفضل هذا التوجيه المستقبلي، يمكن لـ John أن يقرر ما إذا كان يريد اتخاذ الخطوات التالية أو البحث عن مسارات بديلة لمهاراته ووقته.

تأثير تحليل البيانات في عالمنا الحديث

هذا المقال هو مقدمة تمهيدية وينبغي أن يثير شهيتك للتعمق أكثر. سيساعدك تعلم تحليل البيانات على فهم البرمجيات بشكل أفضل وكيفية بناء المنتجات. كما هو الحال في السيناريو مع John أعلاه، يمكنك الاستفادة من تحليل البيانات لاتخاذ قرارات أكثر استنارة وتطلعاً للمستقبل. يمكنك تحمل المخاطر وفهم احتمالات النجاح والفشل. يمكنك استخدام مبدأ العد لتحديد إجراءاتك الحالية. سيساعدك تحليل البيانات أيضاً على فهم أفضل لكيفية تحويل التكنولوجيا للبيئات غير المتصلة بالإنترنت، وبالتالي يجعلك مستهلكاً أكثر وعياً.

نطاق استخدامات تحليل البيانات واسع بشكل لا يصدق. توقف لحظة واسأل نفسك ما هي مجالات العلوم، والتكنولوجيا، والأعمال، والبرمجيات، أو تصميم المنتجات التي تجدها الأكثر إثارة للاهتمام. الآن، تخيل كيف يؤثر تحليل البيانات بعمق على كل هذه المجالات.

تطبيقات تحليل البيانات في مجالات متنوعة

  • الصحة والعافية: فكر في جسم الإنسان. تستخدم منتجات الصحة، وبرامج التسويق للعافية، وتطبيقات التمارين الرياضية جميعها تحليل البيانات لتحسين التمارين للجسم البشري بناءً على البيانات التي نصدرها (فكر: معدلات ضربات القلب، مستويات الأكسجين في الدم، أنماط النوم). تستخدم هذه الأدوات تحليل البيانات لتقييم التخصيصات في الوقت الفعلي (أخذ العينات)، والمصادقة البيومترية، وتحليل المشاعر.
  • البرمجيات والتطوير: فكر في البرمجيات. تستخدم أدوات أتمتة سير العمل ذات التعليمات البرمجية المنخفضة (Low-code workflow automation tools) تحليل البيانات لتجارب تنبؤية وتمكن المطورين من مستويات الخبرة المتنوعة من إنشاء تطبيقات بمنطق موجه بالنماذج (model-driven logic). وحدات البيانات تكون معرفة مسبقاً.
  • التعليم: تماماً كما هو الحال مع البرمجيات، يتم تحويل التعليم بواسطة تحليل البيانات. يعتمد التعلم عبر الإنترنت للمدارس وتطبيقات البرمجة للأطفال على تحليل البيانات لإدارة المخاطر (عندما يتخلف الطلاب) والاحتفاظ بالمحتوى.
  • التمويل والتأمين: فكر في كيفية تسعير المخاطر. يتم استخدام أخذ العينات لتغيير كيفية تسعير شركات التأمين لوثائق التأمين. تستخدم المزيد من المؤسسات المالية وشركات التأمين تحليل البيانات لتقييم الجودة الائتمانية، وتسعير وتسويق عقود التأمين، وأتمتة تفاعل العملاء.
  • تصميم المواقع: سواء كنت ترغب في تطبيق تحليل البيانات لبناء “الشيء الكبير” التالي أم لا، فإن تحليل البيانات سيساعدك على قياس ما يهم وتحويل البيانات إلى رؤى قابلة للتنفيذ.
  • الزراعة: يستخدم مزارعو النباتات ذوو التقنية العالية مثل JoyOrganics و TakeSpruce تتبع دورة “من البذرة إلى البيع” لمتابعة النباتات عبر مراحل من الزراعة إلى الحصاد إلى الاستخلاص. يستخدم المزارعون تحليل البيانات للعثور على إشارات لعوائد أعلى وغير مرتبطة وتحسين النمو.
  • مجالات أخرى: فكر في جودة الهواء الداخلي ومعالجة اللغة الطبيعية (Natural Language Processing). أو الطريقة التي يتم بها بناء برامج إدارة علاقات العملاء (CRM)، أو كيفية تواصل الأشخاص في الوقت الفعلي.

باختصار، فكر في العالم الحديث. تستفيد جميع هذه المنتجات من تحليل البيانات لحساب أخطاء أخذ العينات، والانحرافات المعيارية، والانحدارات لضمان جودة المنتج ورضا العملاء. ولكن قبل حساب هذه الإحصائيات الأكثر تعقيداً، تبدأ كل شركة أو مجال بمكونات أساسية. يقيس كل مجال التكرار، والانتشار، والمتوسطات، والانحرافات المعيارية. بناءً على هذه اللبنات الأساسية، يمكن لتحليل البيانات تحويل البيانات إلى رؤى قابلة للتنفيذ. الأهم من ذلك، أن جميع هذه الصناعات تستفيد من تحليل البيانات لاتخاذ قرارات المقايضة (go/no trade-offs) ولفهم أعمق لكيفية استخدام المستخدمين للأدوات والمنتجات التي يبنونها. من خلال استكشاف هذه المواضيع بعمق أكبر، يمكنك بلا شك تبني عقلية بناء أكثر شمولية ومثابرة. إذا لم يكن لأي سبب آخر، فإن دراسة تحليل البيانات تجعل هذه النتيجة تستحق العناء.

الخلاصة التقنية

يُعد تحليل البيانات حجر الزاوية في اتخاذ القرارات المستنيرة في العصر الرقمي. من خلال فهم أنواع البيانات وخصائصها، ومفاهيم مثل النزعة المركزية، والانتشار، وفترات الثقة، وأخذ العينات، يمكن للمحللين تحويل البيانات الخام إلى رؤى قابلة للتنفيذ. هذه القدرة لا تقتصر على مجالات الأعمال التقليدية فحسب، بل تمتد لتشمل الصحة، والتعليم، والزراعة، وتطوير البرمجيات، مما يبرز أهميته كمهارة أساسية لأي شخص يسعى للابتكار أو فهم العالم المعقد من حولنا. إن إتقان هذه المفاهيم يمكّن الأفراد والمنظمات من تحديد المخاطر، وتحسين العمليات، واكتشاف فرص جديدة للنمو.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *