Big data

Fiabilidad

¿Qué es big data?

Big data es un término genérico utilizado para describir conjuntos de datos extremadamente grandes que son difíciles de procesar y analizar en un tiempo razonable con los métodos tradicionales.

El big data se compone de datos estructurados, no estructurados y semiestructurados. Se caracteriza formalmente por sus cinco V: volumen, velocidad, variedad, veracidad y valor.

  • El volumen describe la escala y el tamaño masivos de los conjuntos de datos que contienen terabytes, petabytes o exabytes de datos.
  • La velocidad describe la gran velocidad a la que se generan cantidades masivas de nuevos datos.
  • La variedad describe la gran variedad de tipos y formatos de datos que son generados.
  • La veracidad describe la calidad e integridad de los datos en un conjunto de datos extremadamente grande.
  • El valor describe la capacidad de los datos para convertirse en información práctica.

Ejemplos

Los macrodatos proceden de una gran variedad de fuentes de distintos sectores y ámbitos. A continuación se ofrecen algunos ejemplos de fuentes de grandes conjuntos de datos y los tipos de datos que incluyen.

Fuente de Big Data Descripción
Datos del cliente Datos recogidos a través de sistemas de CRM, incluidos perfiles de los clientes,  registros de ventas y las interacciones con los clientes.
Comercio electrónico  Datos generados a partir de plataformas de venta online, incluidos pedidos de clientes, detalles de productos, información de pago y opiniones de clientes.
Operaciones financieras Datos obtenidos de sistemas bancarios, transacciones con tarjetas de crédito, mercados bursátiles y otras plataformas financieras.
Datos públicos y gubernamentales Datos proporcionados por organismos gubernamentales, datos censales, datos de transporte público y datos meteorológicos.
Salud e historiales médicos Datos de las historias clínicas electrónicas (EHRs), imágenes médicas, dispositivos sanitarios portátiles, ensayos clínicos y sistemas de monitorización de pacientes.
Internet de las cosas Datos recogidos de diversos dispositivos IoT como sensores inteligentes, electrodomésticos inteligentes, dispositivos wearables y vehículos conectados.
Investigación y datos científicos Datos procedentes de experimentos de investigación, estudios académicos, observaciones científicas, simulaciones de gemelos digitales y secuenciación genómica.
Redes de sensores Datos procedentes de sensores medioambientales, maquinaria industrial, sistemas de control del tráfico y otros sistemas de redes inalámbricas.
Redes sociales Datos generados a partir de plataformas de redes sociales como Facebook, Twitter, Instagram y LinkedIn, incluidas publicaciones, comentarios, likes y perfiles de usuario.
Aplicaciones web y móviles Datos producidos por los usuarios al interactuar con sitios web, aplicaciones móviles y servicios en línea, incluidos clics, páginas vistas y comportamiento del usuario.

Importancia

Los macrodatos son importantes por su potencial para revelar patrones, tendencias y otras percepciones que pueden utilizarse para tomar decisiones basadas en datos.

Desde una perspectiva empresarial, el big data ayuda a las organizaciones a mejorar la eficiencia operativa y optimizar los recursos. Por ejemplo, al agregar grandes conjuntos de datos y utilizarlos para analizar el comportamiento de los clientes y las tendencias del mercado, una empresa de comercio electrónico puede tomar decisiones que aumenten la satisfacción y la fidelidad de sus clientes y, en última instancia, sus ingresos.

Los avances en herramientas de código abierto capaces de almacenar y procesar grandes conjuntos de datos han mejorado significativamente el análisis de big data. A las activas comunidades de Apache, por ejemplo, se les atribuye a menudo el mérito de facilitar a los recién llegados el uso de big data para resolver problemas del mundo real.

Tipos de Big data

Los big data pueden clasificarse en tres tipos principales: estructurados, no estructurados y semiestructurados.

  • Big data estructurado: Está muy organizado y sigue un esquema o formato predefinido. Suelen almacenarse en hojas de cálculo o bases de datos relacionales. Cada elemento de datos tiene un tipo de datos específico y está asociado a campos y tablas predefinidos. Los datos estructurados se caracterizan por su consistencia y uniformidad, lo que facilita su consulta, análisis y procesamiento mediante los sistemas tradicionales de gestión de bases de datos.
  • Big data no estructurado: No tiene una estructura predefinida y puede o no establecer relaciones claras entre distintas entidades de datos. La identificación de patrones, sentimientos, relaciones e información relevante dentro de los datos no estructurados suele requerir herramientas avanzadas de IA, como el procesamiento del lenguaje natural (PLN), la comprensión del lenguaje natural (NLU) y la visión por ordenador.
  • Big data semiestructurado: contiene elementos de datos estructurados y no estructurados. Posee una estructura organizativa parcial, como archivos XML o JSON, y puede incluir archivos de registro, datos de sensores con marcas de tiempo y metadatos.

En la mayoría de los casos, los datos de una organización son una mezcla de los tres tipos de datos. Por ejemplo, un gran conjunto de datos de un e-commerce puede incluir datos estructurados de datos demográficos de clientes y registros de transacciones, datos no estructurados de comentarios de clientes en redes sociales y datos semiestructurados de comunicaciones internas por correo electrónico.

Retos

La evolución de los macrodatos desde principios de siglo ha sido una montaña rusa de retos seguidos de soluciones.

Al principio, uno de los mayores problemas con las enormes cantidades de datos que se generaban en Internet era que los sistemas tradicionales de gestión de bases de datos no estaban diseñados para almacenar el enorme volumen de datos que producían las empresas al digitalizarse.

Al mismo tiempo, la variedad de datos se convirtió en un reto considerable. Además de los datos estructurados tradicionales, las redes sociales y el Internet of things introdujeron datos semiestructurados y no estructurados. Como resultado, las empresas tuvieron que encontrar formas de procesar y analizar eficientemente estos tipos de datos tan variados, otra tarea para la que las herramientas tradicionales no eran adecuadas.

A medida que aumentaba el volumen de datos, también lo hacía la cantidad de información incorrecta, incoherente o incompleta, y la gestión de datos se convirtió en un obstáculo importante.

No pasó mucho tiempo antes de que los nuevos usos de conjuntos de datos extremadamente grandes plantearan una serie de nuevas cuestiones sobre la privacidad de los datos y la seguridad de la información. Las organizaciones necesitaban ser más transparentes sobre qué datos recopilaban, cómo los protegían y cómo los utilizaban.

Los distintos tipos de datos suelen tener que combinarse en un formato único y coherente para su análisis. La variedad de tipos y formatos de datos en grandes conjuntos de datos semiestructurados sigue planteando retos para la integración, el análisis y la interpretación de los datos.

Por ejemplo, una empresa puede necesitar combinar datos de una base de datos relacional tradicional (datos estructurados) con datos extraídos de publicaciones en redes sociales (datos no estructurados). El proceso de transformar estos dos tipos de datos en un formato unificado que pueda utilizarse para el análisis puede llevar mucho tiempo y ser técnicamente difícil.

Los avances en el machine learning y la inteligencia artificial (IA) han ayudado a resolver muchos de estos problemas, pero no están exentos de dificultades.

Herramientas de Big data

Tratar con grandes conjuntos de datos que contienen una mezcla de tipos de datos requiere herramientas y técnicas especializadas adaptadas para manejar y procesar diversos formatos de datos y estructuras de datos distribuidas. Entre las herramientas más populares se incluyen:

Azure Data Lake: Un servicio en la nube de Microsoft conocido por simplificar las complejidades de las cantidades masivas de datos y de su almacenamiento.

Beam: modelo de programación unificado de código abierto y conjunto de API para el procesamiento de grupos y flujos en diferentes marcos de big data.

Cassandra: base de datos NoSQL distribuida, de código abierto y altamente escalable diseñada para manejar cantidades masivas de datos en múltiples servidores.

Databricks: Una plataforma analítica unificada que combina capacidades de ingeniería de datos y ciencia de datos para procesar y analizar conjuntos de datos masivos.

Elasticsearch: Un motor de búsqueda y análisis que permite realizar búsquedas, indexaciones y análisis rápidos y escalables para conjuntos de datos extremadamente grandes.

Google Cloud: Conjunto de herramientas y servicios de big data ofrecidos por Google Cloud, como Google BigQuery y Google Cloud Dataflow.

Hadoop: ¿Qué es Hadoop? Un marco de código abierto ampliamente utilizado para procesar y almacenar conjuntos de datos extremadamente grandes en un entorno distribuido.

Hive: Herramienta de código abierto de almacenamiento de datos y consulta tipo SQL que se ejecuta sobre Hadoop para facilitar la consulta y el análisis de grandes conjuntos de datos.

Kafka: Plataforma de streaming distribuido de código abierto que permite el procesamiento de datos y la mensajería en tiempo real.

KNIME Big Data Extensions: Integra la potencia de Apache Hadoop y Apache Spark con KNIME Analytics Platform y KNIME Server.

MongoDB: base de datos NoSQL orientada a documentos que proporciona un alto rendimiento y escalabilidad para aplicaciones de big data.

Pig: un lenguaje de secuencias de comandos de flujo de datos de alto nivel y un marco de ejecución de código abierto para procesar y analizar grandes conjuntos de datos.

Redshift: El servicio gestionado por Amazon de almacén de datos a escala de petabytes.

Spark: Un motor de procesamiento de datos de código abierto que proporciona capacidades de análisis y procesamiento de datos rápidas y flexibles para conjuntos de datos extremadamente grandes.

Splunk: Una plataforma para buscar, analizar y visualizar datos generados por máquinas, como registros y eventos.

Tableau: Una potente herramienta de visualización de datos que ayuda a los usuarios a explorar y presentar perspectivas a partir de grandes conjuntos de datos.

Talend: Una herramienta de integración de datos y ETL (Extract, Transform, Load) de código abierto que facilita la integración y el procesamiento de conjuntos de datos extremadamente grandes.

Big Data e IA

Los macrodatos han estado estrechamente vinculados a los avances en inteligencia artificial, como la IA generativa, porque, hasta hace poco, los modelos de IA necesitaban grandes cantidades de datos de entrenamiento para aprender a detectar patrones y hacer predicciones precisas.

En el pasado, el axioma “Los macrodatos son para las máquinas. Los datos pequeños son para las personas” se utilizaba a menudo para describir la diferencia entre big data y small data, pero esa analogía ya no es válida. A medida que las tecnologías de IA y ML siguen evolucionando, la necesidad de big data para entrenar algunos tipos de modelos de IA y ML está disminuyendo, especialmente en situaciones en las que agregar y gestionar grandes conjuntos de datos lleva mucho tiempo y es caro.

En muchos escenarios del mundo real, no es factible recopilar grandes cantidades de datos para cada clase o concepto posible que pueda encontrar un modelo. En consecuencia, se ha tendido a utilizar modelos basados en big data para el preentrenamiento y pequeños conjuntos de datos para afinarlos.

El cambio de big data a small data para entrenar modelos de IA y ML está impulsado por varios avances tecnológicos, como el aprendizaje por transferencia y el desarrollo de modelos de aprendizaje de zero-shot (ZSL), one-shot y few-shot .

Temas relacionados

Margaret Rouse
Experta en tecnología

Margaret Rouse es una galardonada escritora técnica y profesora conocida por su habilidad para explicar temas técnicos complejos a una audiencia de negocios no técnica. Durante los últimos veinte años, sus explicaciones han aparecido en sitios web de TechTarget y ha sido citada como autoridad en artículos del New York Times, Time Magazine, USA Today, ZDNet, PC Magazine y Discovery Magazine. La idea de diversión de Margaret es ayudar a profesionales de TI y negocios a aprender a hablar los idiomas altamente especializados de cada uno. Si tienes una sugerencia para una nueva definición o cómo mejorar una explicación técnica,…