Histórico casos COVID-19(2): script para descarga y presentación de datos oficiales

En el post anterior os contaba lo que hice cuando me cansé de no encontrar datos tabulados fiables. Y sí, a día de hoy sigo considerando los datos internacionales (WHO/OMS, ECDC) como fiables hasta donde pueden serlo. Desde aquellos días de marzo ha llovido mucho, y parece cada vez más claro que ningún país está comunicando públicamente una contabilidad completa de los fallecidos, ni qué hablar de la comorbilidad.

Sea como fuere, estos días no tienen precedentes. Es una excusa como cualquier otra para dar cuenta de que no encontré datos .CSV en OMS. Lo único que había encontrado era archivos PDF desde los que copiar y pegar. Además, los datos de worldofmeter presentan discrepancias respecto a la OMS, con lo que de momento no los considero. Afortunadamente, encontré archivos CSV o JSON en el centro europeo de control de enfermedades:

https://www.ecdc.europa.eu/en/publications-data/download-todays-data-geographic-distribution-covid-19-cases-worldwide

El problema es que son series de datos por países. Exigirían un trabajo manual que me detrae energía y que es inútil si es evitable. Por lo tanto, he generado un pequeño programa python y un jupyter notebook para evitar el trabajo manual y observar los resultados cada día.

En un repositorio os he dejado instrucciones muy básicas por si no tenéis python instalado. Con ellas y un mínimo de perseverancia, podréis tener listo vuestro PC con windows o linux para poder ejecutar los scripts en python y con las bibliotecas necesarias. Max OS X es casi lo mismo, pero no lo puedo asegurar porque no tengo mac. Cuenta con python de origen, pero ni idea de cómo se instala pip, conda o lo que sea que usen en la manzana

https://github.com/jlchulilla/COVID-19-scripts

A partir de ahí, tenemos un script básico que descarga los datos de ECDC y genera tablas dinámicas (pivot table – por cierto, qué traducción más sicalíptica de “pivot table”) con datos diarios y datos agregados.

https://github.com/jlchulilla/COVID-19-scripts/blob/master/ECDCcovid19TABLES.py

Por otra, os incluyo un cuaderno jupyter con el que representar los resultados agregados con matplotlib. Por ejemplo:

Representación de los datos de ECDC sobre COVID-19 con matplotlib

 

Aquí tenéis el cuaderno jupyter.

https://github.com/jlchulilla/COVID-19-scripts/blob/master/transformadatosECDC.ipynb

Una forma rápida de probarlo es con el servicio de colab de google. En el siguiente enlace he subido una copia del jupyter notebook

https://colab.research.google.com/drive/1HgqWM7o-REM91StH7O0mpI6p5Cqh7Z53

Por defecto veréis el código y los resultados expresados gráficamente. Si queréis ver los resultados sólo, tenéis que seleccionar Menú principal > Editar > Mostrar u ocultar el código. Obtendréis unos resultados más simples (porque google no permite el ajuste del matplotlib widget), y no se verá contextualmente el valor de cada métrica por fecha, pero al menos funciona. Mi consejo es que os liéis la manta a la cabeza y probéis a instalar python, las librerías necesarias y jupyter. En muchas ocasiones os van a sacar de apuros. Os dejo con una captura reducida del notebook en google:

 

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *