Todos hablan del concepto Big Data en Chile. Y es que es un concepto que suena muy innovador y moderno. E incluso, ya lo han mal utilizado. No obstante, ¿conocemos que se entiende el Big Data?, ¿entendemos que se refiere en Chile? Como en GeoVictoria trabajamos con gran cantidad de datos, te contaremos de que hablamos cuando hablamos de Big Data. A continuación, exploraremos sus definiciones, que se incluye en lo que es Big Data y que sucede en Chile con ello.
Según el área de Data Science de la Universidad de Wisconsin, “una interpretación popular de big data se refiere a conjuntos de datos extremadamente grandes”. Ellos citan un informe del Instituto Nacional de Estándares y Tecnología definió el Big Data (O “macrodatos” en español), como lo siguiente:
“[…] conjuntos de datos extensos, principalmente en las características de volumen, velocidad y / o variabilidad. Estos requieren una arquitectura escalable para un almacenamiento, manipulación y análisis eficientes”.
Otros también definieron Big Data como “una cantidad de datos que excede un petabyte, un millón de gigabytes”.
Según TechTarget el big data no equivale a ningún volumen específico de datos. Sin embargo, cuando se implementa, los datos que iinvolucran son terabytes (TB), petabytes (PB) e incluso exabytes( EB ) de datos capturados.
Los datos provienen de innumerables fuentes: teléfonos inteligentes y publicaciones en redes sociales; sensores, como señales de tráfico y contadores de servicios públicos; terminales de punto de venta; wearables de consumo como medidores de ajuste; relojes inteligentes; y así sucesivamente.
En lo profundo de estos datos hay inmensas oportunidades para las organizaciones. Aprovechan el talento y la tecnología para transformar sus almacenes de datos en información procesable. Por ello, esa es la clave para la mejora de decisiones y ventaja competitiva.
En 2001, el analista de la industria Doug Laney definió las “Tres V” del big data:
Volumen
La explosión sin precedentes de datos significa que el universo digital alcanzará los 180 zettabytes (180 seguidos de 21 ceros) para el 2025. Hoy en día, el desafío con el volumen de datos no el almacenamiento. El desafío es cómo identificar datos relevantes dentro de conjuntos de datos gigantes y hacer buen uso de esta.
Velocidad
Los datos se generan a un ritmo cada vez más acelerado. Cada minuto, Google recibe 3,8 millones de consultas de búsqueda. Los usuarios de correo electrónico envían 156 millones de mensajes. Los usuarios de Facebook cargan 243.000 fotos. Por tanto, el desafío para los científicos de datos es encontrar formas de recopilar, procesar y hacer uso de grandes cantidades de datos a medida que ingresan.
Variedad
Los datos vienen en diferentes formas. Los datos estructurados son los que se pueden organizar de forma ordenada dentro de las columnas de una base de datos. Este tipo de datos es relativamente fácil de ingresar, almacenar, consultar y analizar.
Los datos no estructurados son más difíciles de clasificar y extraer valor. Ejemplos de datos no estructurados incluyen:
Correos electrónicos.
Publicaciones en redes sociales.
Documentos de procesamiento de texto.
Archivos de audio, video y fotos
Páginas web y más.
¿Cuáles son las otras tres V?: Características añadidas con el tiempo
Además de las características mencionadas, en la actualidad los especialistas en tecnología han incluido otras “V”. Los siguientes conceptos son veracidad, variabilidad y visualización. A continuación, revisáramos de que trata cada uno añadido por IBM:
Veracidad
Esto se refiere a la calidad de los datos recopilados. Si los datos de origen no son correctos, los análisis serán inútiles. Como sabemos, el mundo avanza hacia la toma de decisiones automatizada. Por tanto, es imperativo que las organizaciones confíen en la calidad de los datos.
Variabilidad
El significado de los datos cambia constantemente. Por ejemplo, el procesamiento del lenguaje por computadora es extremadamente. Pues las palabras a menudo tienen varios significados. Los científicos de datos deben tener en cuenta esta variabilidad. La solución es creando sofisticados programas que comprendan el contexto y el significado.
Visualización
Los datos deben ser comprensibles para las partes interesadas no técnicas y quienes “tomen las decisiones”. La visualización es la creación de gráficos complejos que cuentan la historia del científico de datos, transformando los datos en información. La información en conocimiento, el conocimiento en conocimiento y el conocimiento en ventaja.
¿Cómo se almacenan y procesan los macrodatos?
La necesidad de manejar la velocidad de BigData, impone demandas únicas a la infraestructura informática. La potencia informática necesaria para procesar rápidamente grandes volúmenes y variedades de datos puede abrumar al clúster de servidores.
Las organizaciones deben aplicar la capacidad de procesamiento adecuada a las tareas de BigData para lograr la velocidad requerida. Esto puede demandar potencialmente cientos o miles de servidores que puedan distribuir el trabajo de procesamiento.
Lograr dicha velocidad de manera rentable también es un desafío. Algunas empresas se muestran reticentes a invertir en una amplia infraestructura de almacenamiento y servidores para admitir grandes datos. En particular aquellas que no se ejecutan 24 horas al día, 7 días a la semana.
Como resultado, la computación en la nube es ahora un vehículo principal para alojar sistemas de Big Data en Chile. Un proveedor de nube pública puede almacenar petabytes de datos. Así, ampliará la cantidad necesaria de servidores el tiempo suficiente para completar un proyecto de análisis de Big Data. La empresa solo paga por el tiempo de almacenamiento y computación realmente utilizado.
Para mejorar aún más los niveles de servicio, los proveedores de nube pública ofrecen capacidades de BigData. Algunos de los proveedores más reconocidos, son:
Amazon Web Services.
Microsoft Azure.
Google Cloud Dataproc
Los datos de control de acceso y asistencia que salvaguarda GeoVictoria son alojados en Microsoft Azure. Una de las nubes más seguras del mercado.
Estado de Big Data en Chile
En la actualidad, muchas empresas de servicios utilizan los servicios de tratamiento inteligente de datos. Según una nota de La Tercera, las industrias de consumo masivo, como las de servicios financieros, telecomunicaciones y retail han sido las pioneras. “Para luego, en una segunda etapa, ir a industrias que son más de tipo B2B, cómo logística, transporte, etc..” Según declaró IBM.