ما هي البيانات الضخمة؟
البيانات الضخمة Big Data هو مصطلح شامل يستخدم لوصف مجموعات البيانات الكثيرة للغاية التي يصعب معالجتها وتحليلها في فترة زمنية معقولة باستخدام الطرق التقليدية.
تتكون البيانات الضخمة من بيانات منظمة وغير منظمة وشبه منظمة. وتتميز رسميًا بخمسة قيم هي: الحجم والسرعة والتنوع والصدق والقيمة.
- الحجم: يصف الحجم الهائل لمجموعات البيانات التي تحتوي على تيرابايت أو بيتابايت أو إكسابايت من البيانات.
- السرعة: تصف السرعة السرعة العالية التي يتم بها إنشاء كميات هائلة من البيانات الجديدة.
- التنوع: يصف التشكيلة الواسعة من أنواع البيانات والتنسيقات التي يتم إنشاؤها.
- الصدق: يصف جودة وسلامة البيانات في مجموعة بيانات كبيرة للغاية.
- القيمة: تصف قدرة البيانات على تحويلها إلى رؤى قابلة للتنفيذ.
أمثلة
تأتي البيانات الضخمة من مجموعة واسعة من المصادر في مختلف الصناعات والمجالات. فيما يلي بعض الأمثلة على مصادر مجموعات البيانات الكبيرة وأنواع البيانات التي تتضمنها.
وصف البيانات الضخمة | المصدر |
بيانات العملاء | البيانات التي يتم جمعها من خلال أنظمة إدارة علاقات العملاء، بما في ذلك الملفات الشخصية للعملاء وسجلات المبيعات وتفاعلات العملاء. |
معاملات التجارة الإلكترونية | البيانات التي يتم الحصول عليها من منصات البيع بالتجزئة عبر الإنترنت، بما في ذلك طلبات العملاء وتفاصيل المنتجات ومعلومات الدفع ومراجعات العملاء. |
المعاملات المالية | البيانات التي يتم الحصول عليها من الأنظمة المصرفية، ومعاملات بطاقات الائتمان، وأسواق الأسهم، والمنصات المالية الأخرى. |
البيانات الحكومية والعامة | البيانات المقدمة من الجهات الحكومية وبيانات التعداد السكاني وبيانات النقل العام وبيانات الطقس. |
السجلات الصحية والطبية | البيانات المستمدة من السجلات الصحية الإلكترونية(EHRs)، والتصوير الطبي، والأجهزة الصحية القابلة للارتداء، والتجارب السريرية، وأنظمة مراقبة المرضى. |
أجهزة إنترنت الأشياء (IoT) | البيانات التي تم جمعها من أجهزة إنترنت الأشياء المختلفة مثل أجهزة الاستشعار الذكية والأجهزة الذكية والأجهزة القابلة للارتداء والمركبات المتصلة. |
البيانات البحثية والعلمية | البيانات المستمدة من التجارب البحثية، والدراسات الأكاديمية، والملاحظات العلمية، والمحاكاة التوأم الرقمي، والتسلسل الجيني. |
شبكات الاستشعار | البيانات التي تم جمعها من أجهزة الاستشعار البيئية، والآلات الصناعية، وأنظمة مراقبة حركة المرور، وشبكات الاستشعار اللاسلكية الأخرى. |
منصات التواصل الاجتماعي | البيانات التي يتم توليدها من منصات التواصل الاجتماعي مثل فيسبوك وتويتر وإنستغرام ولينكد إن، بما في ذلك المنشورات والتعليقات والإعجابات والمشاركات وملفات تعريف المستخدمين. |
تطبيقات الويب والهاتف المحمول | البيانات التي ينتجها المستخدمون أثناء التفاعل مع مواقع الويب وتطبيقات الهاتف المحمول والخدمات عبر الإنترنت، بما في ذلك النقرات ومشاهدات الصفحة وسلوك المستخدم. |
الأهمية
تُعد البيانات الضخمة مهمة بسبب قدرتها على الكشف عن الأنماط والاتجاهات وغيرها من الرؤى التي يمكن استخدامها لاتخاذ قرارات قائمة على البيانات.
من من منظور الأعمال، تساعد البيانات الضخمة المؤسسات على تحسين الكفاءة التشغيلية وتحسين الموارد. على سبيل المثال، من خلال تجميع مجموعات كبيرة من البيانات واستخدامها لتحليل سلوك العملاء واتجاهات السوق، يمكن لشركة التجارة الإلكترونية اتخاذ قرارات من شأنها أن تؤدي إلى زيادة رضا العملاء وولائهم – وفي النهاية زيادة الإيرادات.
أدت التطورات في الأدوات مفتوحة المصدر التي يمكنها تخزين ومعالجة مجموعات البيانات الكبيرة إلى تحسين تحليلات البيانات الضخمة بشكل كبير. على سبيل المثال، غالبًا ما يُنسب الفضل إلى مجتمعات Apache النشطة في تسهيل استخدام البيانات الضخمة على الوافدين الجدد لحل مشاكل العالم الحقيقي.
أنواع البيانات الضخمة
يمكن تصنيف البيانات الضخمة إلى ثلاثة أنواع رئيسية: البيانات المنظمة وغير المنظمة وشبه المنظمة.
- البيانات الضخمة المنظمة: وهي منظمة للغاية وتتبع مخططًا أو تنسيقًا محددًا مسبقًا. وعادة ما يتم تخزينها في جداول بيانات أو قواعد بيانات علائقية. لكل عنصر بيانات نوع بيانات محدد ويرتبط بحقول وجداول محددة مسبقًا. تتميز البيانات المنظمة بتناسقها وتوحيدها، مما يسهل الاستعلام عنها وتحليلها ومعالجتها باستخدام أنظمة إدارة قواعد البيانات التقليدية.
- البيانات الضخمة غير المنظمة: لا تحتوي على بنية محددة مسبقًا وقد تنشئ أو لا تنشئ علاقات واضحة بين كيانات البيانات المختلفة. عادةً ما يتطلب تحديد الأنماط والمشاعر والعلاقات والمعلومات ذات الصلة داخل البيانات غير المنظمة أدوات ذكاء اصطناعي متقدمة مثل معالجة اللغة الطبيعية (NLP) وفهم اللغة الطبيعية (NLU) والرؤية الحاسوبية.
- البيانات الضخمة شبه المنظمة: تحتوي على عناصر من البيانات المنظمة وغير المنظمة على حد سواء. وهي تحتوي على هيكل تنظيمي جزئي، مثل ملفات XML أو JSON، وقد تتضمن ملفات السجلات، وبيانات الاستشعار مع الطوابع الزمنية، والبيانات الوصفية.
في معظم الحالات، تكون بيانات المؤسسة عبارة عن مزيج من أنواع البيانات الثلاثة. على سبيل المثال، قد تشتمل مجموعة بيانات كبيرة لبائع تجارة إلكترونية على بيانات منظمة من التركيبة السكانية للعملاء وسجلات المعاملات، وبيانات غير منظمة من ملاحظات العملاء على وسائل التواصل الاجتماعي، وبيانات شبه منظمة من اتصالات البريد الإلكتروني الداخلية.
التحديات
لقد كان تطور البيانات الضخمة منذ بداية القرن الحالي عبارة عن رحلة حافلة بالتحديات التي أعقبتها حلول.
في البداية، كانت إحدى أكبر المشاكل التي واجهت الكميات الهائلة من البيانات التي تم إنشاؤها على الإنترنت هي أن أنظمة إدارة قواعد البيانات التقليدية لم تكن مصممة لتخزين الحجم الهائل من البيانات التي تنتجها الشركات مع تحولها إلى النظام الرقمي.
وفي الوقت نفسه تقريبًا، أصبح تنوع البيانات يمثل تحديًا كبيرًا. فبالإضافة إلى البيانات المنظمة التقليدية، أدخلت وسائل التواصل الاجتماعي وإنترنت الأشياء بيانات شبه منظمة وغير منظمة في هذا المزيج. ونتيجة لذلك، كان على الشركات إيجاد طرق لمعالجة وتحليل هذه الأنواع المتنوعة من البيانات بكفاءة، وهي مهمة أخرى لم تكن الأدوات التقليدية مناسبة لها.
ومع ازدياد حجم البيانات، ازدادت كمية المعلومات غير الصحيحة أو غير المتسقة أو غير المكتملة، وأصبحت إدارة البيانات عقبة كبيرة.
لم يمض وقت طويل قبل أن تثير الاستخدامات الجديدة لمجموعات البيانات الكبيرة للغاية عددًا من الأسئلة الجديدة حول خصوصية البيانات وأمن المعلومات. كان على المؤسسات أن تكون أكثر شفافية بشأن البيانات التي تجمعها وكيفية حمايتها وكيفية استخدامها.
يجب عادةً دمج أنواع البيانات المتباينة في تنسيق واحد ومتسق لتحليل البيانات. لا يزال تنوّع أنواع البيانات وتنسيقاتها في مجموعات البيانات الكبيرة شبه المنظمة يطرح تحديات أمام تكامل البيانات وتحليلها وتفسيرها.
على سبيل المثال، قد تحتاج الشركة إلى مزج البيانات من قاعدة بيانات علائقية تقليدية (بيانات منظمة) مع البيانات المستقاة من منشورات وسائل التواصل الاجتماعي (بيانات غير منظمة). يمكن أن تستغرق عملية تحويل هذين النوعين من البيانات إلى تنسيق موحد يمكن استخدامه للتحليل وقتًا طويلاً وصعبًا من الناحية التقنية.
وقد ساعدت التطورات في التعلم الآلي والذكاء الاصطناعي (AI) في معالجة العديد من هذه التحديات، ولكنها لا تخلو من مجموعة الصعوبات الخاصة بها.
أدوات البيانات الضخمة
يتطلب التعامل مع مجموعات البيانات الضخمة التي تحتوي على مزيج من أنواع البيانات أدوات وتقنيات متخصصة مصممة خصيصًا للتعامل مع تنسيقات البيانات المتنوعة وهياكل البيانات الموزعة ومعالجتها. تشمل الأدوات الشائعة ما يلي:
بحيرة بيانات أزور: خدمة سحابية من Microsoft معروفة بتبسيط تعقيدات استيعاب وتخزين كميات هائلة من البيانات.
Beam: نموذج برمجة موحد مفتوح المصدر ومجموعة من واجهات برمجة التطبيقات مفتوحة المصدر لمعالجة الدُفعات والتدفق عبر أطر عمل مختلفة للبيانات الضخمة.
كاساندرا: قاعدة بيانات NoSQL مفتوحة المصدر وقابلة للتطوير والتوزيع ومفتوحة المصدر وموزعة بشكل كبير ومصممة للتعامل مع كميات هائلة من البيانات عبر خوادم متعددة.
Databricks: منصة تحليلات موحدة تجمع بين قدرات هندسة البيانات وعلوم البيانات لمعالجة مجموعات البيانات الضخمة وتحليلها.
Elasticsearch: محرك بحث وتحليلات يتيح البحث والفهرسة والتحليل السريع والقابل للتطوير لمجموعات البيانات الضخمة للغاية.
جوجل كلاود: مجموعة من أدوات وخدمات البيانات الضخمة التي تقدمها Google Cloud، مثل Google BigQuery و Google Cloud Dataflow.
Hadoop: إطار عمل مفتوح المصدر يستخدم على نطاق واسع لمعالجة وتخزين مجموعات البيانات الكبيرة للغاية في بيئة موزعة.
Hive: أداة مفتوحة المصدر لتخزين البيانات وأداة استعلام شبيهة ب SQL تعمل على رأس Hadoop لتسهيل الاستعلام عن مجموعات البيانات الكبيرة وتحليلها.
كافكا: منصة تدفق موزعة مفتوحة المصدر ومفتوحة المصدر تسمح بمعالجة البيانات في الوقت الحقيقي والتراسل.
ملحقات KNIME للبيانات الضخمة: يدمج قوة Apache Hadoop وApache Spark مع منصة KNIME Analytics Platform وKNIME Analytics Server.
MongoDB: قاعدة بيانات NoSQL موجهة نحو المستندات توفر أداءً عاليًا وقابلية للتطوير لتطبيقات البيانات الضخمة.
Pig: لغة برمجة نصية مفتوحة المصدر عالية المستوى لتدفق البيانات وإطار عمل تنفيذي لمعالجة مجموعات البيانات الكبيرة وتحليلها.
Redshift: خدمة مستودع بيانات أمازون المدارة بالكامل على نطاق البيتابايت.
Spark: محرك معالجة بيانات مفتوح المصدر يوفر تحليلات سريعة ومرنة وقدرات معالجة البيانات لمجموعات البيانات الكبيرة للغاية.
Splunk: منصة للبحث عن البيانات التي يتم إنشاؤها آليًا وتحليلها وتصورها، مثل السجلات والأحداث.
Tableau: أداة قوية لتصور البيانات تساعد المستخدمين على استكشاف وتقديم رؤى من مجموعات البيانات الكبيرة.
Talend: أداة تكامل بيانات مفتوحة المصدر وأداة ETL(الاستخراج والتحويل والتحميل) تسهل تكامل ومعالجة مجموعات البيانات الكبيرة للغاية.
البيانات الضخمة والذكاء الاصطناعي
لقد ارتبطت البيانات الضخمة ارتباطًا وثيقًا بالتطورات في مجال الذكاء الاصطناعي مثل الذكاء الاصطناعي التوليدي، فحتى وقت قريب، كانت نماذج الذكاء الاصطناعي تحتاج إلى تغذيتها بكميات هائلة من بيانات التدريب حتى تتمكن من تعلم كيفية اكتشاف الأنماط وإجراء تنبؤات دقيقة.
في الماضي، كانت بديهية “البيانات الضخمة للآلات. أما البيانات الصغيرة فهي للأشخاص.” غالبًا ما كانت تُستخدم لوصف الفرق بين البيانات الضخمة والبيانات الصغيرة، ولكن هذا التشبيه لم يعد صحيحًا. فمع استمرار تطور تقنيات الذكاء الاصطناعي والتعلم الآلي، تتضاءل الحاجة إلى البيانات الضخمة لتدريب بعض أنواع نماذج الذكاء الاصطناعي والتعلم الآلي، خاصةً في الحالات التي يكون فيها تجميع وإدارة مجموعات البيانات الضخمة مستهلكًا للوقت ومكلفًا.
في العديد من سيناريوهات العالم الحقيقي، ليس من المجدي جمع كميات كبيرة من البيانات لكل فئة أو مفهوم محتمل قد يواجهه النموذج. وبالتالي، كان هناك اتجاه نحو استخدام نماذج أساس البيانات الضخمة للتدريب المسبق ومجموعات البيانات الصغيرة لضبطها.
إن التحول من البيانات الضخمة نحو استخدام البيانات الصغيرة لتدريب نماذج الذكاء الاصطناعي والتعلم الآلي مدفوع بالعديد من التطورات التكنولوجية، بما في ذلك التعلم التحوّلي وتطوير نماذج التعلم zero-shot, one-shot, and few-shot