Qu’est-ce que le big data ?
Le terme “big data” est un terme générique utilisé pour décrire des ensembles de données extrêmement volumineux qu’il est difficile de traiter et d’analyser dans un délai raisonnable à l’aide des méthodes traditionnelles.
Les big data se composent de données structurées, non structurées et semi-structurées. Elles se caractérisent formellement par leurs cinq V : volume, vitesse, variété, véracité et valeur.
- Le volume décrit l’échelle massive et la taille des ensembles de données qui contiennent des téraoctets, des pétaoctets ou des exaoctets de données.
- La vélocité décrit la vitesse à laquelle des quantités massives de nouvelles données sont générées.
- La variété décrit le large assortiment de types et de formats de données qui sont générés.
- La véracité décrit la qualité et l’intégrité des données dans un ensemble de données extrêmement volumineux.
- La valeur décrit la capacité des données à être transformées en informations exploitables.
Exemples de données
Les données volumineuses proviennent d’une grande variété de sources dans différents secteurs et domaines. Vous trouverez ci-dessous quelques exemples de sources de grands ensembles de données ansi que les types de données qu’elles contiennent.
Big Data Source | Description |
Données sur les clients | Données collectées par les systèmes de gestion de la relation client (CRM). Sont compris les profils des clients, les enregistrements des ventes et les interactions avec les clients. |
Transactions de commerce en ligne | Données générées par les plateformes de vente au détail en ligne, les commandes des clients, les détails des produits, les informations de paiement et les commentaires des clients. |
Transactions financières | Données obtenues à partir des systèmes bancaires, les transactions par carte de crédit, les marchés boursiers et d’autres plateformes financières. |
Données gouvernementales et publiques | Données fournies par les agences gouvernementales, de recensement, des transports publics et météorologiques. |
Dossiers médicaux et de santé | Données provenant des dossiers médicaux électroniques (DME), de l’imagerie médicale, des dispositifs de santé portables, des essais cliniques et des systèmes de surveillance des patients. |
Dispositifs de l’internet des objets (IdO) | Données collectées à partir de divers dispositifs IoT tels que des capteurs intelligents, des appareils intelligents, des dispositifs portables et des véhicules connectés. |
Recherche et données scientifiques | Données provenant d’expériences de recherche, d’études universitaires, d’observations scientifiques, de simulations de jumeaux numériques et de séquençage génomique. |
Réseaux de capteurs | Données recueillies par des capteurs environnementaux, des machines industrielles, des systèmes de surveillance du trafic et d’autres réseaux de capteurs sans fil. |
Plateformes de médias sociaux | Les données générées par les plateformes de médias sociaux comme Facebook, Twitter, Instagram et LinkedIn. Y compris les posts, les commentaires, les likes, les partages et les profils d’utilisateurs. |
Applications web et mobiles | Données produites par les utilisateurs lorsqu’ils interagissent avec des sites web, des applications mobiles et des services en ligne. Notamment les clics, les pages vues et le comportement de l’utilisateur. |
L’importance
Le big data est important en raison de son potentiel à révéler des modèles, des tendances et d’autres informations qui peuvent être utilisées pour prendre des décisions fondées sur des données.
D’un point de vue commercial, le big data aide les organisations à améliorer leur efficacité opérationnelle et à optimiser leurs ressources. Par exemple, en regroupant de vastes ensembles de données et en les utilisant pour analyser le comportement des clients et les tendances du marché. Ainsi une entreprise de commerce électronique peut prendre des décisions qui conduiront à une plus grande satisfaction et à une plus grande fidélité des clients et, en fin de compte, à un meilleur chiffre d’affaires.
Les progrès réalisés dans le domaine des outils open-source capables de stocker et de traiter de vastes ensembles de données ont considérablement amélioré l’analyse des big data. Les communautés actives d’Apache, par exemple, ont souvent été reconnues comme facilitant l’utilisation des big data par les nouveaux venus pour résoudre des problèmes concrets.
Types de big data
Les big data peuvent être classées en trois catégories principales : les données structurées, non structurées et semi-structurées.
- Big data structurées : Elles sont très organisées et suivent un schéma ou un format prédéfini. Elles sont généralement stockées dans des feuilles de calcul ou des bases de données relationnelles. Chaque élément de données a un type de données spécifique et est associé à des champs et des tables prédéfinis. Les données structurées se caractérisent par leur cohérence et leur uniformité. Ce qui facilite leur interrogation, leur analyse et leur traitement à l’aide de systèmes de gestion de base de données traditionnels.
- Les big data non structurées : Elles n’ont pas de structure prédéfinie et peuvent ou non établir des relations claires entre différentes entités de données. L’identification de modèles, de sentiments, de relations et d’informations pertinentes dans les données non structurées nécessite généralement des outils d’IA avancés. Tels que le traitement du langage naturel (NLP), la compréhension du langage naturel (NLU) et la vision par ordinateur.
- Big data semi-structuré : contient des éléments de données structurées et non structurées. Elles possèdent une structure organisationnelle partielle, telle que des fichiers XML ou JSON, et peuvent inclure des fichiers journaux, des données de capteurs avec des horodatages et des métadonnées.
Dans la plupart des cas, les données d’une organisation sont un mélange des trois types. Par exemple, un grand ensemble de données pour un vendeur de commerce électronique peut inclure des données structurées provenant des données démographiques des clients et des enregistrements de transactions. Des données non structurées provenant des commentaires des clients sur les médias sociaux. Et des données semi-structurées provenant de la communication interne par courrier électronique.
Les défis
L’évolution du big data depuis le début du siècle a été une montagne russe de défis suivis de solutions.
Au début, l’un des principaux problèmes posés par les énormes quantités de données générées sur internet était que les systèmes traditionnels de gestion de bases de données n’étaient pas conçus pour stocker ce volume considérable produit par les entreprises au fur et à mesure qu’elles se numérisaient.
À peu près au même moment, la variété des données est devenue un défi considérable. En plus des données structurées traditionnelles, les réseaux sociaux et l’IdO ont introduit des données semi-structurées et non structurées. Par conséquent, les entreprises ont dû trouver des moyens de traiter et d’analyser efficacement ces types de données variés. Une autre tâche pour laquelle les outils traditionnels étaient mal adaptés.
L’augmentation du volume de données s’est accompagnée d’une augmentation du nombre d’informations incorrectes, incohérentes ou incomplètes. Ainsi la gestion des données est devenue un obstacle majeur.
Il n’a pas fallu longtemps pour que les nouvelles utilisations des ensembles de données extrêmement volumineux soulèvent un certain nombre de nouvelles questions concernant la confidentialité de ces dernières et la sécurité des informations. Les organisations devaient être plus transparentes quant aux données qu’elles collectaient. Mais aussi à la manière dont elles les protégeaient et à l’usage qu’elles en faisaient.
Des types de données différents doivent généralement être combinés dans un format unique et cohérent pour l’analyse. La diversité des types et des formats dans les grands ensembles de données semi-structurées pose encore des problèmes d’intégration, d’analyse et d’interprétation des données.
Par exemple, une entreprise peut avoir besoin de mélanger des données provenant d’une base relationnelle traditionnelle (données structurées) avec des données extraites de publications sur les réseaux sociaux (données non structurées). Le processus de transformation de ces deux types de données en un format unifié pouvant être utilisé pour l’analyse peut être long et techniquement difficile.
Les progrès de l’apprentissage automatique et de l’intelligence artificielle (IA) ont permis de relever bon nombre de ces défis. Mais ils ne sont pas exempts de difficultés.
Outils Big Data
Le traitement de grands ensembles de données contenant un mélange de types de données nécessite des outils et des techniques spécialisés. Elles doivent en effet être adaptés à la manipulation et au traitement de divers formats et structures des données distribuées. Les outils les plus courants sont les suivants
Azure Data Lake : Un service cloud de Microsoft. Connu pour simplifier les complexités de l’ingestion et le stockage de quantités massives de données.
Beam : un modèle de programmation unifié open-source et un ensemble d’API pour le traitement par lots et par flux dans différents cadres de big data.
Cassandra : base de données NoSQL open-source. Hautement évolutive et distribuée. Conçue pour traiter des quantités massives de données sur de multiples serveurs de base.
Databricks : Une plateforme analytique unifiée qui combine des capacités d’ingénierie et de science pour le traitement et l’analyse d’ensembles massifs de données.
Elasticsearch : Un moteur de recherche et d’analyse. Il permet une recherche, une indexation et une analyse rapides et évolutives pour des ensembles de données extrêmement volumineux.
Google Cloud : Ensemble d’outils et de services de big data proposés par Google Cloud. Tels que Google BigQuery et Google Cloud Dataflow.
Hadoop : Un cadre open-source largement utilisé pour le traitement et le stockage d’ensembles de données extrêmement volumineux dans un environnement distribué.
Hive : Un outil open-source d’entreposage de données et d’interrogation de type SQL qui s’exécute au-dessus de Hadoop pour faciliter l’interrogation et l’analyse de grands ensembles de données.
Kafka : Plateforme open-source de streaming distribué qui permet le traitement de données en temps réel et la messagerie.
KNIME Big Data Extensions : Intègre la puissance d’Apache Hadoop et d’Apache Spark à KNIME Analytics Platform et KNIME Server.
MongoDB : base de données NoSQL orientée documents qui offre des performances et une évolutivité élevées pour les applications Big Data.
Pig : Langage de script de flux de données de haut niveau open-source et cadre d’exécution pour le traitement et l’analyse de grands ensembles de données.
Redshift : Service d’entrepôt de données à l’échelle du pétaoctet entièrement géré par Amazon.
Spark : Un moteur de traitement de données open-source qui fournit des capacités d’analyse et de traitement de données rapides et flexibles pour des ensembles de données extrêmement volumineux.
Splunk : Plateforme de recherche, d’analyse et de visualisation des données générées par les machines. Telles que les journaux et les événements.
Tableau : Un puissant outil de visualisation de données qui aide les utilisateurs à explorer et à présenter des informations à partir de vastes ensembles de données.
Talend : Un outil open-source d’intégration de données et d’ETL (Extract, Transform, Load) qui facilite l’intégration et le traitement d’ensembles de données extrêmement volumineux.
Big Data et IA
Le Big Data est étroitement lié aux progrès de l’intelligence artificielle comme l’IA générative. En effet jusqu’à récemment, les modèles d’IA devaient être alimentés par de grandes quantités de données d’entraînement pour apprendre à détecter des modèles et à faire des prédictions précises.
Dans le passé, l’axiome “Les grandes données sont pour les machines, les petites données sont pour les gens. Les petites données sont pour les gens” était souvent utilisé pour décrire la différence entre les grandes et les petites données. Mais cette analogie n’est plus valable. À mesure que les technologies d’IA et de ML continuent d’évoluer, le besoin de big data pour entraîner certains types de modèles d’IA et de ML diminue. Cela en particulier dans les situations où l’agrégation et la gestion d’ensembles de big data prennent du temps et sont coûteuses.
Dans de nombreux scénarios réels, il n’est pas possible de collecter de grandes quantités de données pour chaque classe ou concept possible qu’un modèle peut rencontrer. Par conséquent, la tendance est à l’utilisation de modèles fondés sur les big data pour le pré-entraînement et de petits ensembles de données pour les affiner.
L’abandon du big data au profit de l’utilisation de petites données pour entraîner les modèles d’IA et de ML est motivé par plusieurs avancées technologiques. Notamment l’apprentissage par transfert et le développement de modèles d’apprentissage à zéro coup, à un coup et à quelques coups.