علوم البيانات وهندسة البيانات الضخمة (Data Science & Big Data Engineering)
🚀 مسار الدروس
- 1مدخل إلى علوم البيانات: كيف تحول الأرقام العشوائية إلى قرارات استراتيجية؟
- 2إعداد مختبر البيانات: تثبيت بيئة Jupyter Notebook ومكتبات التحليل الأساسية
- 3مكتبة NumPy: القوة الضاربة في معالجة المصفوفات والعمليات الرياضية المعقدة
- 4مكتبة Pandas (1): قراءة واستدعاء البيانات من ملفات CSV و Excel برمجياً
- 5مكتبة Pandas (2): استكشاف هيكل البيانات وفهم DataFrame و Series
- 6تنظيف البيانات (Data Cleaning): اكتشاف ومعالجة القيم المفقودة (Missing Values)
- 7معالجة البيانات المكررة والمشوهة (Duplicates & Outliers) باستخدام بايثون
- 8دمج وتوحيد الجداول (Merge, Join, Concat) لبناء قاعدة بيانات تحليلية شاملة
- 9الفلترة المتقدمة (Filtering & Sorting): استخراج رؤى دقيقة من ملايين السجلات
- 10التجميع والتلخيص (Groupby & Aggregation): إنشاء تقارير إحصائية برمجية
- 11مشروع مصغر: تنظيف وتحليل ملف يحتوي على 10,000 سجل مبيعات وتلخيص الأرباح
- 12مكتبة Matplotlib: أساسيات تصوير البيانات ورسم المخططات البيانية (الخطية والعمودية)
- 13مكتبة Seaborn: إنشاء رسوم بيانية إحصائية متقدمة ومريحة للعين بسطر كود واحد
- 14المخططات التفاعلية: استخدام Plotly لبناء رسوم بيانية يمكن للمستخدم التفاعل معها
- 15هندسة الميزات (Feature Engineering): كيف تستخرج بيانات جديدة من البيانات الحالية؟
- 16التعامل مع البيانات النصية (Text Data): استخراج الكلمات المفتاحية وتحويل النصوص لتصنيفات
- 17التعامل مع التواريخ والوقت (Datetime): تحليل التوجهات الزمنية (Time Series)
- 18مشروع مصغر: بناء لوحة معلومات (Dashboard) بسيطة باستخدام بايثون لبيانات طقس
- 19الإحصاء الوصفي والاستدلالي: مفاهيم لا غنى عنها لكل عالم بيانات
- 20الارتباط (Correlation): كيف تكتشف العلاقة الخفية بين المتغيرات (مثل السعر والطلب)؟
- 21مقدمة في تعلم الآلة (Machine Learning): الفرق بين التعلم الخاضع وغير الخاضع للإشراف
- 22إعداد البيانات للتدريب (Data Preprocessing): تحجيم البيانات (Scaling & Normalization)
- 23تقسيم البيانات (Train/Test Split): لماذا يجب أن نختبر النموذج على بيانات لم يرها من قبل؟
- 24خوارزمية الانحدار الخطي (Linear Regression): بناء نموذج لتوقع أسعار المنازل
- 25تقييم نماذج الانحدار (MSE, RMSE, R2): كيف تعرف أن توقعات الذكاء الاصطناعي دقيقة؟
- 26الانحدار اللوجستي (Logistic Regression): التنبؤ بالنتائج الثنائية (مثل: مريض/سليم)
- 27شجرة القرارات (Decision Trees): كيف يتخذ الذكاء الاصطناعي قراراته بخطوات منطقية؟
- 28الغابات العشوائية (Random Forest): دمج مئات الأشجار لرفع دقة التوقعات
- 29خوارزمية KNN (أقرب الجيران): تصنيف البيانات بناءً على التشابه
- 30التعلم غير الخاضع للإشراف: خوارزمية K-Means لتجميع العملاء (Clustering)
- 31تقليل الأبعاد (PCA): كيف تحلل بيانات تحتوي على 100 متغير في رسم بياني ثنائي الأبعاد؟
- 32مشروع مصغر: بناء نموذج ذكاء اصطناعي يتنبأ باحتمالية إلغاء العملاء لاشتراكاتهم (Churn)
- 33تصدير نماذج الذكاء الاصطناعي (Pickle & Joblib) لاستخدامها لاحقاً في الـ Backend
- 34مقدمة في هندسة البيانات (Data Engineering): كيف تتعامل الشركات مع “البيانات الضخمة”؟
- 35بناء خطوط أنابيب البيانات (ETL – Extract, Transform, Load) باستخدام بايثون
- 36استخراج البيانات (Extract): سحب ملايين السجلات من واجهات API وقواعد بيانات SQL
- 37تحويل البيانات (Transform): تنظيف وتشفير البيانات أثناء انتقالها آلياً
- 38تحميل البيانات (Load): إدراج البيانات المعالجة في مستودعات البيانات (Data Warehouses)
- 39أتمتة خطوط الـ ETL: الجدولة باستخدام مكتبة Schedule وتشغيلها في الخلفية
- 40مقدمة في Apache Airflow: الأداة الأقوى عالمياً لجدولة وإدارة سير عمل البيانات
- 41كتابة أول ملف DAG (Directed Acyclic Graph) في Airflow لأتمتة مهمة يومية
- 42ما هو Apache Spark؟ ولماذا تتوقف مكتبة Pandas عن العمل مع البيانات الضخمة (Big Data)؟
- 43إعداد بيئة PySpark: معالجة البيانات الموزعة على عدة أجهزة في نفس الوقت
- 44قراءة وتحليل ملفات ضخمة (بحجم جيجابايت) في ثوانٍ باستخدام PySpark DataFrames
- 45تنفيذ استعلامات SQL مباشرة على البيانات الضخمة داخل بيئة Spark
- 46معالجة تدفق البيانات اللحظية (Spark Structured Streaming)
- 47مشروع مصغر: بناء مسار ETL يستخرج بيانات من API، يعالجها بـ PySpark، ويحفظها
- 48مقدمة في قواعد البيانات غير العلائقية (NoSQL) للبيانات الضخمة: متى نستخدم MongoDB؟
- 49الاتصال بقاعدة بيانات MongoDB عبر بايثون (PyMongo): إضافة وقراءة المستندات
- 50التخزين السحابي للبيانات الضخمة: أساسيات التعامل مع AWS S3 باستخدام Boto3
- 51رفع وتحميل ملفات البيانات التحليلية من وإلى خوادم Amazon S3 برمجياً
- 52بناء مستودع بيانات سحابي: مقدمة في Google BigQuery للتحليل الفائق السرعة
- 53الاتصال بـ BigQuery عبر بايثون وتشغيل استعلامات على تيرابايت من البيانات
- 54تقنيات معالجة اللغات الطبيعية (NLP): تحليل المشاعر (Sentiment Analysis) للنصوص
- 55تنظيف النصوص العربية وإزالة التشكيل وحروف الجر استعداداً لتحليلها
- 56تطبيق عملي: سحب تغريدات/تعليقات حول منتج معين وتحليلها هل هي إيجابية أم سلبية؟
- 57أنظمة التوصية (Recommendation Systems): كيف يقترح نتفليكس أو أمازون المنتجات؟
- 58بناء نظام توصية أفلام بسيط يعتمد على تشابه المحتوى (Content-Based Filtering)
- 59بناء نظام توصية متقدم يعتمد على تفاعل المستخدمين (Collaborative Filtering)
- 60كيفية التعامل مع عدم توازن البيانات (Imbalanced Data) في نماذج التصنيف
- 61تحسين المعاملات الفائقة (Hyperparameter Tuning): رفع دقة النموذج إلى أقصى حد (GridSearch)
- 62التقييم المتقاطع (Cross-Validation): ضمان عدم حفظ النموذج للبيانات (Overfitting)
- 63النشر كخدمة ويب (Deployment): تغليف نموذج تحليل البيانات الخاص بك في واجهة Flask/FastAPI
- 64مشروع عملي (1): بناء نظام كشف الاحتيال في البطاقات الائتمانية باستخدام تعلم الآلة
- 65مشروع عملي (2): خط أنابيب بيانات (ETL) متكامل يجلب أسعار الأسهم اللحظية ويحللها ويتنبأ بحركتها