15.7.12

la gran data

Hace cuatro siglos la introducción del microscopio permitió ver y analizar organismos a un nivel celular que jamás se había imaginado. Esto generó avances en el conocimiento, al servicio de la salud y las ciencias en general. Como el microscopio, hoy la tecnología se dispone a desenmarañar y darle sentido el reservorio más grande de información del planeta: Internet.
Según IBM, los más de 1000 millones de internautas del mundo alimentamos a diario la Red con cerca de 15 petabytes de datos. ¿A qué equivale? 1000 petabytes son un exabyte, 1000 exabytes son un zettabyte. En el año 2015 habrá 8 zettabytes de información en la Red según la consultora IDC. Un zettabyte corresponde a 75 mil millones de iPads de 16 gigas o a mil millones de discos rígidos como los de una computadora promedio de escritorio. Hoy, en 2012, la Red contiene 2,7 zettabytes de datos, aproximadamente, y aunque es difícil pensar en esta cantidad de información, definirla y analizarla promete grandes beneficios para los usuarios. Según IDC, la cantidad de información en la Web se duplica cada 18 meses y aunque América latina todavía representa menos del 10% de la audiencia total mundial de Internet -8.9% según ComScore-, la participación en la Red no para de crecer y nuestro país es especialmente proclive al uso intensivo de las herramientas sociales y de la Web en general.
De qué se trata
Big Data es el término que se utiliza para describir los grandes volúmenes de datos que componen Internet y la posibilidad de obtener información sobre ellos.
La información en la Red está formada por datos estructurados -como las tradicionales bases de datos que puede tener, por ejemplo, una empresa de servicios sobre el consumo de energía de un usuario-, y por desestructurados, que en cantidad superan tres veces a los primeros. Buena parte de la información desestructurada -que representa el 80% del total- proviene de las herramientas sociales. Para tener una idea de lo que pasa en la Red en sólo un minuto: se generan 98.000 tweets, se bajan 23.148 aplicaciones, se juegan 208.333 minutos de Angry Birds, 277.000 personas se loguean a Facebook y se ven 1,3 millones de videos en YouTube, entre otras decenas de métricas que alimentan sin cesar la nube virtual y le enseñan sobre nuestra conducta online. "Todas las industrias guardan y necesitan acceder a la información de maneras muy distintas -describe Marcelo Fandiño, CEO de EMC Argentina, empresa de almacenamiento y cómputo en la nube-. Algunos datos necesitan ser analizados en tiempo real, otros estar almacenados por años con consultas muy puntuales. Ahora tenemos una memoria gigante y lo que hay que hacer es darle toda la inteligencia. El usuario se está volcando cada vez más a la Red para tener su información y pronto tendrá su máquina principal completamente alojada en la nube. Para eso tendremos que darle el máximo y más creativo análisis a cada documento y dato alojados allí."
No es casualidad que en el Foro Económico Mundial celebrado en junio en Suiza, el concepto de Big Data haya sido protagonista. Un informe desarrollado durante el encuentro, llamado Big Data, Big Impact, declara a la masa de información gigante como una nueva clase de activo económico, como el dinero o el oro. Sebastián Bellagamba, director para Latinoamérica y el Caribe de la Internet Society, organismo mundial que vela por el buen desarrollo y crecimiento de Internet, reflexiona sobre el fenómeno: "No es la primera vez que se juntan datos nuestros, uno ha estado dando información buena parte de su vida, sólo que internet lo hace más evidente. La Red va coleccionando datos de nuestro perfil (sexo, edad, gustos, hábitos, procedencia); eso sirve para darnos mejores resultados en las búsquedas y que pueden servir para tomar decisiones o generar políticas públicas que impacten de manera positiva en la sociedad, que no es lo mismo que juntar y distribuir datos personales como número de DNI, dirección o nombre. Que la información de la Red crezca es deseable siempre que se respeten los libertades individuales y el usuario pueda elegir qué datos le da al universo virtual", advierte Bellagamba. (Ver recuadro No me grabes.)
Desde IBM explican el universo de Big Data a partir de tres v: volumen, variedad y velocidad. "Tenemos un gran desafío por delante, dado que se espera que para el año 2020 haya 35 zettabytes de información. Con IBM Insights trabajamos con plataformas de código abierto, le agregamos seguridad y el análisis es cada vez más intuitivo; intenta encontrar patrones y utiliza herramientas para conectar de esta información que proviene de lugares diferentes. El análisis tradicional de Business Intelligence (inteligencia de datos) ya no es suficiente. Si una telefónica sufre una caída de servicio y los usuarios empiezan a reclamar en las redes, debe poder acceder a esa información de inmediato para actuar cuanto antes", ejemplifica Leonardo González Barceló, líder en Big Data de IBM.
Hasta aquí sólo tenemos una descripción de un fenómeno del que todo internauta -en mayor o menor medida- es parte. Cabe entonces la pregunta: ¿por qué debería interesarle este universo al usuario? o -quizás más relevante- ¿cómo afecta esta nube de datos en su vida?
Hasta donde llega
No es sólo más flujos de datos los que recibe la Web hoy, sino también datos completamente nuevos. En la actualidad, empresas y gobierno trabajan con miles de sensores digitales que arrojan información de todo tipo a la Red. En equipos industriales, automóviles, electrodomésticos, en las calles, estos sensores pueden medir -y comunicar- la localización, el movimiento, la vibración, la temperatura, la humedad y hasta cambios químicos en el aire. Esto, y la actividad en la Red en general, permite la toma de decisiones: qué construir y dónde hacerlo, prevenir un desastre natural, evitar un embotellamiento, detectar posibles derrumbes. "Es un fenómeno creciente, que antes existía, pero se daba en ambientes controlados con datos estructurados; ahora los datos provienen de todos lados. Google no existiría sin toda esa Big Data y es nuestra misión organizarla y entregarla a los usuarios de una manera que sea relevante para su vida", dice Giraldo Hierro, líder de Enterprise Sales de Google.
Cualquier usuario puede también consultar y usar la inteligencia que se desprende de la Web. En Buenos Aires y muchas ciudades de la Argentina y el resto del mundo, cualquier usuario puede ir a Google Maps, introducir una dirección, elegir la vista de satélite y ver en tiempo real la congestión de tráfico de la zona que desea visitar, con información que los mismos usuarios envían a la Red por sólo usar su teléfono Android. También Google ha descubierto que ciertos términos de búsqueda sirven como buenos indicadores de la actividad de la gripe y desarrolló Flue Trends, donde cualquiera puede ingresar y ver la evolución de la gripe a través de datos globales de las búsquedas de los internautas en Google. Así, se pueden hacer cálculos aproximados de la actividad de esta enfermedad en determinadas regiones, lo que podría resultar de utilidad para tomar acciones de prevención.
También se puede usar la información para hacer más eficiente el consumo energético. "A través de la estrategia de Smart Meters de IBM, se analizó el consumo de electricidad de un barrio a través de sensores que enviaban datos de consumo. En base a esa información, la compañía fue capaz de determinar los hábitos de los vecinos en cada momento del día, ver cómo variaba la demanda y hasta cambiar algunos de esos hábitos con estrategias de premios y bonificaciones a sus clientes", ejemplifica Barceló.
Otra cara de Big Data es que el ciudadano tiene cada vez más acceso a ver datos de gobierno que antes sólo eran analizados al interior de las administraciones públicas. En 2009, fue pionera la ciudad de Washington, que abrió las puertas a toda su información con Data.gov. En marzo de este año el GCBA implementó Buenos Aires Data, el primer repositorio público de datos abiertos del país basado en CKAN -la plataforma utilizada por otros gobiernos nacionales y municipales alrededor del mundo-. Se puede ver allí la ejecución presupuestaria del gobierno, el catálogo de las bibliotecas públicas de la ciudad (300.000 volúmenes), el movimiento de las bicicletas públicas (500.000 recorridos), y grandes volúmenes de información geográfica previamente disponibles sólo para uso interno, como los polígonos correspondientes a más de 300.000 parcelas que componen de la ciudad, entre otros registros.
A la luz de todo esto, no existe hoy una empresa de tecnología que despliegue su estrategia de negocio sin contemplar una mirada sobre Big Data. Ya sean de hardware, software o servicios, todas apuntan sus desarrollos e inversiones a herramientas y aplicaciones que puedan desarmar el ovillo más grande del mundo. Así EMC, HP, IBM, Netapp, Intel, SAP, entre tantas, lanzan herramientas para llegar a esos datos de manera más rápida e eficiente (algo que hace dos años se analizaba en una semana, puede hacerse ahora en un día). Por su parte, los gigantes de Internet como Facebook, Google y Amazon tienen herramientas propias para analizar la información, y las consultoras de análisis Web trabajan a destajo en aumentar el cruzamiento de estos datos estructurados y no estructurados en busca de un mejor aprovechamiento del universo virtual. No seremos sólo testigos de este fenómeno, sino protagonistas de la era del nuevo oro.

NO ME GRABES

Una de las discusiones que se viene con Big Data está relacionada con los derechos de los usuarios a no ser rastreados -de así desearlo- en sus búsquedas en Internet y, como contrapartida, su responsabilidad (y no sólo la de las empresas) en la comprensión de los términos y condiciones de uso de cada sitio que visitan.
De a poco los principales navegadores -Chrome, Firefox, Explorer- están agregando herramientas para que el usuario pueda decidir cuándo quiere y cuándo no quiere dejar rastro o información sobre su navegación.
Sin embargo, hay que tener en cuenta que al elegir estos filtros -se los conoce como Dont Track me-, también se le está quitando información a los sistemas para que brinden resultados más personalizados o tengan en cuenta los gustos o búsquedas frecuentes del usuario. "Falta una conciencia del usuario latino que aprueba términos y condiciones sin leer en la mayoría de las ocasiones qué es lo que está aceptando, y también una predisposición mayor de las empresas a mantener las reglas claras y no estar cambiando sus condiciones constantemente.
Hoy Internet no es una tecnología en su madurez; hay que estar atentos para atender la libertad de expresión y también para que la legislación que se haga no coarte Internet", opina Sebastián Bellagamba, de la Internet Society.

No hay comentarios:

Publicar un comentario