Guía de supervivencia para un Data Scientist

Guía de supervivencia para un Data Scientist

Evento en castellano

Ponente:

  • Pablo Sebastian Pereira Oromí, Analista de Sistemas de Información de CaixaBank.

¿Sabías que entre un 40% a un 80% del tiempo que se dedica a un proyecto de ciencia de datos e información, se utiliza en la preparación de estos datos? Cuando nos encontramos en un proyecto que implique el manejo de grandes volúmenes de datos, las posibilidades de frustración aumentan proporcionalmente al tamaño de los mismos. Pablo Sebastián Pereira te dará una guía de supervivencia básica en tu día a día como Data Scientist en dos talleres formativos.

En la profesión que hemos elegido, el cold-start puede hacerse cuesta arriba sin los conocimientos que la experiencia aporta, así como el conocimiento de las diferentes herramientas que tenemos a nuestra disposición.

Cuando nos encontramos en un proyecto que implique el manejo de grandes volúmenes de datos, las posibilidades de frustración aumentan proporcionalmente al tamaño de los mismos.

Es aquí donde esta guía te aportará consejos en tu día a día en el tratamiento y preparación de la información. La orientaremos a las tecnologías Oracle+Python+PL/SQL.

¿Qué vamos a ver?

– Help!!! Mí código no termina, da timeout ¿qué hago?

– Cuidado con una ETL o ELT desde ~~Python~~, utiliza también lenguajes nativos para la – – Base de Datos, por ejemplo PL/SQL.

– ¿Puedo paralelizar mis ejecuciones con Python y Oracle?

– ¿Cómo organizo mis datos para garantizar la concurrencia y la Agilidad?

– ¿Qué opciones de normalización a los datos puedo aplicar en unos casos particulares…   he de aplicarlos siempre?

– La torre de Babel de los Metadatos ¿cómo oraganizarlos para mejorar la usabilidad y trazabilidad de la información?

Y recuerda, no es lo mismo realizar un ejercicio con un dataset de 1000 registros que enfrentarse a millones o miles de millones de registros en cientos de tablas y ficheros.

1+