miércoles, 1 de mayo de 2013

El Mes del Big data en Outsourceando: #1 Definición de Big Data

En dos líneas: lo prometido es deuda así que comenzamos el mes del Big Data en nuestro blog, y, para abrir boca, me atrevo con una definición de Big Data. 

La verdad es que afronto este "compromiso" con el Big Data desde una postura ambivalente, reconozco el hecho de que estamos ante un claro caso de hype y, por otra parte, me fascina el impacto que ya está teniendo en nuestras vidas.

Espero que dentro de 30 días tenga más clara mi postura, pero es mejor dejar las divagaciones e ir al grano.

Definición de Big Data

Es cualquier fuente de datos (data source) que al menos comparte las siguientes características:

  • Supone Volumenes de datos extremadamente grandes, muy difíciles de procesar con las tecnologías más utilizadas hoy en día.
  • Datos que se han de procesar a enorme Velocidad.
  • Datos extremadamente Variados en su origen y tipología.
Hay quien más que de "data source" hablaría de "data set" (conjunto de datos) o incluso de "analysis set", pero no nos dispersemos.

Se trata pues, de permitir a las organizaciones reunir, almacenar, gestionar y tratar grandes volumenes de datos a:
  • La velocidad adecuada
  • En el momento adecuado
  • Para generar el conocimiento / insight adecuado
No encontramos pues con las famosas "Tres V del Big Data": Volumen, Variedad y Velocidad.

http://www.datasciencecentral.com/forum/topics/the-3vs-that-define-big-data
Se podría añadir una cuarta "v", la que se refiere a la Veracidad de los datos, aquí se abre cierto espacio para la polémica, pero como tengo muchos posts por delante lo dejo ahí por el momento.

Y un estadístico te hablaría de una quinta: Variabilidad

Además hay que lograr todo esto de un modo eficaz y, sobre todo, eficiente desde un punto de vista de los costes y, obviamente, ayudando a la toma de decisiones que generen Valor, vaya, ¡otra "v"!

Sin esto último el Big Data simplemente no tendría sentido más allá de aplicaciones de ciencia básica.

Se trata de una definición ambigua, de hecho se podría aplicar a tecnologías como el Business Intelligence, por lo que nos toca profundizar más.

En primer lugar hay que aclarar una cosa, el Big Data en realidad no es una tecnología nueva e independiente de la evolución que hemos vivido en los últimos 50 años en la administración de datos (data management), es el nombre de una tendencia que cada vez tiene más resonancia y que es precisamente el fruto de dicha evolución.

Así que el que nos hable de tecnología "disruptiva" nos está vendiendo una moto, humo, o como lo queráis llamar.

En lo que se refiere a las 3 V del Big Data si os fijáis en el gráfico de arriba veréis que hablamos de:
  1. Volumen: hablamos de Terabytes camino de Petabytes
  2. Velocidad: Datos en Tiempo Real, esto es más complejo de lo que parece, es una cuestión de "ritmos" ya que no todos los datos se registran y procesan a la misma velocidad esto no depende únicamente de la tecnología, habría que hablar  de "eventos de datos".
  3. Variedad: se incorporan datos no estructurados.

Por mi parte por hoy es suficiente, tal y como voy a hacer en los posts que vaya escribiendo sobre este tema os proporciono links y vídeos que espero resulten interesantes y de utilidad.

Además en este blog ya he escrito posts antes sobre el tema, me parece especialmente relevante el que dediqué a una jornada organizada en Madrid por la consultora IDC en septiembre de 2012, dicho post incluye los vídeos de las ponencias que me parecieron más valiosas.

Vídeos sobre los Conceptos Básicos del Big Data






Más Definiciones de Big Data

Para los más curiosos os dejo más definiciones de Big Data que he ido encontrando al surfear por Internet:


1 comentario: