Analytics en tiempos no calculados

En términos de tecnología de información, todo parecía indicar que estábamos preparados para enfrentar cualquier desafío que aportara soluciones y promoviera decisiones en bienestar de la sociedad. Nunca antes habíamos tenido la capacidad de generar, almacenar, distribuir y acceder a tantos datos, y la evolución de la tecnología estuvo a la altura y acompañó este crecimiento. No obstante, la inimaginable prueba a la que hoy nos enfrentamos deja sabor a poco en relación al análisis de datos que se nos presenta. Diariamente nos informan los mismos 3 o 4 indicadores que por si solos no son suficientes para entender el abordaje de la crisis y el impacto de las medidas adoptadas.


Lejos está de mi cuestionar las decisiones de los gobernantes en función del cuidado y la protección de las personas; en lo particular considero que en Argentina han sido muy buenas. Pero a nivel de análisis de datos sin duda que lo que se nos presenta es muy básico. Probablemente los organismos estatales sí están haciendo ese análisis en detalle pero no lo están masificando o por lo menos no de una forma eficiente para el ciudadano común. Alfabetizar en datos es la mejor forma de preparar a las personas para que tomen decisiones basadas en datos y no veamos comportamientos ciudadanos incorrectos como los que hemos visto recientemente.


De manera que me dispuse a buscar datos de fuentes confiables que permitieran analizar la pandemia más allá de la cantidad casos, recuperados, fallecidos, etc. Pero además quería probar cómo se pueden disponibilizar de forma eficiente para que cada persona pueda hacer sus propios análisis. Cómo mencioné al inicio, hoy el acceso a los datos está ampliamente garantizado en la mayoría de los organismos internacionales y cada vez más los países están alineados con la estrategia de open data.


Ésta búsqueda me llevo al encuentro de información de gran valor en buckets de S3 de Amazon que fácilmente podía leer desde mi plataforma de BI. Pero seguía siendo muy limitado para masificar los datos en una estructura eficiente y escalable. Era entonces el momento de probar Snowflake, la plataforma de datos en la nube que ha tenido un crecimiento bastante interesante y del cual he escuchado muy buenos comentarios. Me dispuse a crear la cuenta y activar mi prueba de 30 días para así crear un Datawarehouse en la nube que se pudiera consumir desde cualquier plataforma de BI. La experiencia fue bastante buena pero me estaba llevando algo de tiempo la creación de la metadata de las tablas y poblarlas con las conexiones a S3 (me hubiera servido attunity para la ingesta de datos). Vale la pena decir que no soy experto en Snowflake pero algo de investigación me llevo a la funcionalidad que permite compartir bases de datos y DW entre usuarios de snowflake.


Ésto si que es superador porque además encontré que ya existía una base de datos de Snowflake que tiene muchísima información relacionada con la pandemia y muchos de los orígenes eran precisamente los buckets S3 que estaba consultando. Le solicité a Snowflake si me podían compartir esa BD, les pasé mi usuario y así fue que 10 minutos después tenía acceso a una BD de 25 tablas directamente en mi área de trabajo. Eso definitivmante fue democratización de datos en acción, sólo me faltó agregar un catálogo (MDM) y tenía una infraestructura de BI bastante competitiva -por lo menos desde el punto de visto analítico-. Aunque debo decir que la estrategia de "Pay for usage" de snowflake me pareció interesante porque tenía suspendido el DW mientras accedía a las tablas de la BD y no se generó consumo.


En fin, era el momento de la visualización y decidí usar PowerBI porque he venido trabajando con esta herramienta últimamente pero tranquilamente había podido ser Qlik Sense. Les adjunto en un análisis embebido de algunas visualizaciones relacionadas con el impacto en la movilidad de las personas dedicadas a algunas actividades en CABA y Provincia de Buenos Aires y su relación con las medidas oficiales implementadas. No es un abordaje muy sofisticado porque la idea estaba más enfocada a la infraestructura del dato. Sin embargo, estoy en búsqueda de información local para nutrir la BD aún más y así poder encontrar correlaciones que aporten un valor diferente al análisis y bueno, tal vez, aportar algo más para superar de la mejor forma ésto que nos ha afectado tanto.


César B.



1. Parte del tablero Analítico construido en PowerBI




2. Imagen del esquema en Snowflake



3. Imagen BD compartida



4. Resumen Tecnologías Utilizadas

Fuentes:

https://github.com/starschema/COVID-19-data

https://www.google.com/covid19/mobility/index.html?hl=en

https://starschema.com/covid-19-data-set


Disclaimer: Los datos recolectados provienen de las fuentes citadas y son en carácter de prueba de integración de tecnologías. Los resultados analíticos no comprometen al autor y se recomienda cautela en su uso.

32 visualizaciones0 comentarios

Entradas Recientes

Ver todo