Formar científicos de datos en las universidades es un desafío. La ciencia de datos, una de las nuevas profesiones creadas por la creciente digitalización del mundo, puede ser definida como la unificación de la estadística, la informática, la analítica, el machine learning y otros métodos relacionados para recolectar, procesar y explicar conjuntos complejos de datos digitales con la finalidad de extraer de ellos valor para la creación de productos útiles para la comprensión y análisis de los fenómenos reales.

Por ello, formar científicos de datos no es cosa rápida, pues su perfil requiere de talentos variados: tener conocimiento sólidos de estadísticas y matemáticas aplicadas. Establecer y probar hipótesis con experimentos diseñados por ellos mismos. Saber suficiente programación (con el dominio de lenguajes como SQL, R, Python, SPSS, Tableau y Hadoop) para diseñar las herramientas adecuadas para recolectar, procesar y almacenar sus datos. Por último, comunicar con claridad sus hallazgos, muchas veces de forma gráfica o con explicaciones fáciles de comprender.

La demanda en aumento de profesionales capacitados en la ciencia de datos obliga a las universidades a innovar e invertir con rapidez para atraer y retener al creciente número de estudiantes interesados en formarse en esa profesión. Un reporte de IBM estima que para 2020 habrá tan sólo en Estados Unidos 2.7 millones de puestos de trabajo relacionados con la ciencia de datos, con sueldos que van desde 101,000 hasta 115,000 dólares al año, con un salario promedio de 80,265 dólares, alrededor de 8,736 dólares más que el promedio de los egresados de otras licenciaturas.

En México, en cambio, el salario anual para un científico de datos novato ronda apenas los 18,000 dólares anuales, aunque los egresados más talentosos suelen ser reclutados rápidamente por grandes firmas tecnológicas, inclusive algunas de Silicon Valley.

Soluciones virtuales

Una manera accesible a la que han recurrido las universidades para ampliar su oferta de formación de científicos de datos es aliarse con empresas tecnológicas para llevar a los campus los programas de certificación en ciencia de datos ofrecidos por plataformas comerciales, como IBM Watson y Microsoft Azure. El enfoque no sólo ofrece un buena relación costo-beneficio, sino que permite a los estudiantes lanzarse de lleno a la adquisición de las habilidades para la ciencia de datos sin perder el tiempo mientras maduran los programas universitarios y los campus consolidan su capacidad para ofrecerlos.

Otra vía es acudir a los MOOC sobre ciencia de datos, como el ofrecido por la plataforma EdX. Impartido por el profesor Yoav Freund —uno de los expertos más renombrados en la materia— de la Universidad de California, San Diego, el curso tiene una alta demanda cada semestre. Si bien alrededor de 400 alumnos podrán tomarlo de manera presencial, entre 20,000 y 30,000 más se inscribirán para tomarlo de manera remota, vía Internet (se calcula que sólo 1,000 participarán activamente). Los estudiantes remotos pueden tomar el curso de manera gratuita, pero si desean certificarse deben pagar una cuota de 350 dólares.

Formar científicos de datos en las universidades: un gran desafío

Por su parte, la plataforma Coursera ofrece en línea numerosos cursos en varios idiomas relacionados con la ciencia de datos. Son impartidos por profesores de numerosas universidades y aun empresas como IBM. Inclusive, es posible cursar el master completamente en línea.

Otra posibilidad para cursar un master en línea lo ofrece el Instituto de Ciencia de Datos (MSDS) de la Universidad de Virginia en colaboración con la plataforma MOOC Noodle Partners. Aunque por ahora el cupo está limitado a 30 estudiantes remotos, la institución planea incrementar la matrícula en un futuro próximo.

Científicos de datos en las universidades: aspectos clave

En 2015 las Academias Nacionales de Ciencias, Ingeniería y Medicina de Estados Unidos (NASEM) organizaron un taller en el que reunió a expertos para discutir los principales rasgos que debe tener la formación de científicos de datos. El resultado fue el informe Training Students to Extract Value from Big Data, del cual la revista EdTech destaca 4 aspectos clave que las universidades deben tomar en cuenta al diseñar los planes curriculares —ya sean presenciales o en línea— para la formación de las nuevas generaciones de científicos de datos:

Deben tener habilidades en programación, aprendizaje automático y estimación de productos (la capacidad de comprender qué hace único a un producto determinado) para analizar adecuadamente los datos que recopilen.

Necesitan desarrollar y dominar habilidades de pensamiento crítico para aplicarlas en la exploración y el análisis de los datos. De acuerdo con Duncan Temple Lang, director de la Data Science Initiative en la Universidad de California, Davis, ese proceso debe estar compuesto por 10 pasos:

  • Hacer una pregunta.
  • Refinar la pregunta al identificar los datos pertinentes.
  • Acceder a los datos.
  • Transformar la estructura de los datos para analizarlos.
  • Comenzar el análisis y determinar si los resultados son escalables.
  • Reducir el tamaño del conjunto de datos.
  • Modelar y estimar los datos.
  • Diagnosticar qué tan bien el modelo se ajusta a los datos.
  • Cuantificar la incertidumbre en los resultados.
  • Comunicar los resultados.

El currículum de la carrera de ciencia de datos debe ser multidisciplinario desde los primeros semestres.

Los estudiantes de ciencias de datos deben resolver problemas —de preferencia con datos del mundo real— con la participación e equipos interdisciplinarios compuestos por estudiantes de diferentes carreras para estimular el pensamiento creativo y la innovación.