Ciencia de Datos: ¿Qué es, por qué la necesitan las empresas y qué perspectivas profesionales ofrece?

Maryia Ivanina, anteriormente Científica de Datos principal en EPAM (ahora Ingeniera de Software en Google), aborda en detalle las preguntas "¿Qué es la Ciencia de Datos?" y "¿Es cierto que la profesión de Científico de Datos es el futuro?". Alerta de spoiler: sí, ¡es verdad!

Temas de tecnología19 marzo 20248 min de lectura

¿Qué es la Ciencia de Datos?

La Ciencia de Datos es, en esencia, la ciencia que estudia los datos. Específicamente, es la exploración de los datos en sus diversas formas para identificar patrones y obtener insights a lo largo del ciclo de vida del análisis de datos y modelar procesos. Se emplean algoritmos de Machine Learning e Inteligencia Artificial para extraer información valiosa y crear modelos predictivos que, posteriormente, se aplican a nuevos conjuntos de datos.

En la actualidad, cada una de nuestras acciones en línea —escribir un mensaje, ver un video, realizar una compra en Internet, etc.— genera datos que los especialistas pueden utilizar para comprender el comportamiento del usuario y perfeccionar los sistemas de recomendación. El objetivo de recopilar estos datos es facilitar a los usuarios la búsqueda de lo que necesitan de manera más eficiente. Cuando dices "Hey Google" a tu asistente de voz y le solicitas la predicción meteorológica para el día, se activan varios modelos, incluidos los de reconocimiento de voz y algoritmos que procesan la información textual, buscan una respuesta, la generan y realizan varias otras tareas. Incluso la predicción del tiempo que recibes está basada en modelos desarrollados con aprendizaje automático.

¿Por qué es importante la Ciencia de Datos para los negocios?

Con la Ciencia de Datos, las empresas pueden comprender mejor a sus clientes, desarrollar una estrategia efectiva y mejorar sus productos con mayor rapidez. Anteriormente, recabar feedback de los clientes era un desafío. En el pasado, las empresas tenían que experimentar casi a ciegas, basándose en encuestas y opiniones. Ahora, al monitorear las interacciones de los usuarios, pueden obtener rápidamente información sobre qué características son más populares, cuáles son menos utilizadas, si la interfaz es del agrado de los usuarios, cuál es el momento óptimo para lanzar promociones, cómo calcular su impacto y predecir el crecimiento futuro, entre otros.

¿En qué industrias se utiliza la Ciencia de Datos hoy en día?

Áreas de IT

Motores de búsqueda, organización de flujos de trabajo con chatbots y asistentes de voz.

Seguros

Cálculo de la probabilidad de un accidente y evaluación del riesgo potencial para cada cliente.

Comercio electrónico

Sistemas de recomendación para seleccionar productos adecuados, análisis de comportamiento de compra, campañas de marketing y predicción de abandono de clientes.

Medicina

Predicción de patologías y recomendaciones para el mantenimiento de la salud.

Transporte y logística

Optimización de rutas de entrega, estimación de tiempos de espera y desarrollo de vehículos autónomos.

Finanzas

Análisis crediticio para decisiones de préstamos, detección y prevención de fraudes, y microtrading.

Bienes raíces.

Identificación de propiedades que se ajusten a las necesidades del comprador.

Deportes

Monitoreo de la condición física para entrenamientos personalizados, scouting de talentos y desarrollo de estrategias de juego.

¿Cómo están usando la Ciencia de Datos las grandes empresas hoy en día?

La Ciencia de Datos se está implementando en grandes corporaciones para capitalizar el análisis avanzado y optimizar los procesos de negocio. Estas empresas buscan integrar especialistas en Ciencia de Datos en las etapas iniciales de sus procesos para establecer una estrategia eficaz, determinar qué datos recopilar y cómo organizar el feedback de las acciones de los usuarios. A menudo, la información de productos y ventas actúa como punto de inicio para el análisis, acumulando gradualmente más datos para proporcionar al especialista material con el cual trabajar. Cuanto más relevantes y abundantes sean los datos, mejor; una mayor cantidad de datos de calidad permite describir las situaciones con mayor precisión y emplear modelos algorítmicos más avanzados.

Gigantes tecnológicos como Google, Amazon, Meta y Microsoft recopilan terabytes o incluso petabytes de datos, lo que les permite desarrollar y aplicar modelos de aprendizaje automático de vanguardia. Al ofrecer algunos de estos modelos en código abierto, permiten que empresas más pequeñas los utilicen para sus propias necesidades mediante el aprendizaje por transferencia, entrenando modelos que, de otro modo, serían menos efectivos por la escasez de datos.

¿Quiénes son los Científicos de Datos?

Un Científico de Datos es un especialista que combina habilidades de desarrollo y análisis con una sólida base matemática y algorítmica, comprendiendo los problemas empresariales y cómo estructurar la recolección de datos para luego analizarlos. A diferencia de un analista de datos, que se centra en analizar, preparar informes y describir lo que los datos revelan, los Científicos de Datos también emplean los datos para crear modelos predictivos.

Un desarrollador de software se encarga de implementar funcionalidades específicas basadas en los requisitos del cliente, ya sea en un sitio web o en una aplicación móvil.

Una distinción clave entre la Ciencia de Datos y el desarrollo de software es la incertidumbre de los resultados. Por ejemplo, crear un sitio web es un objetivo alcanzable, aunque surjan preguntas sobre su propósito, tecnologías a emplear y características necesarias. Sin embargo, en la Ciencia de Datos, no se puede asegurar la viabilidad de resolver un problema sin antes examinar los datos y comprender los objetivos del proyecto. A veces, la precisión requerida por el cliente puede ser inalcanzable con los datos y algoritmos disponibles, lo que justifica la realización de una Prueba de Concepto (PoC) para entender la viabilidad y dirección del proyecto. No obstante, la Ciencia de Datos a menudo se solapa con la tecnología de la información estándar, como cuando se necesita implementar los resultados de los modelos en un servicio web.

Ser o no ser: Perspectivas para la profesión de Científico de Datos

La Ciencia de Datos es la convergencia de diversos elementos: una sólida formación matemática, destrezas en desarrollo de software y conocimiento de los procesos empresariales o un área de especialización concreta.

Matemáticas sólidas

Es imprescindible contar con una base matemática robusta, abarcando áreas como probabilidad, estadística, análisis matemático y diferenciación, métodos de optimización y otras disciplinas que son parte integral de un currículo universitario en matemáticas. Aunque muchos estudiantes dudan de la necesidad de estudiar estos campos, ya que a menudo no se aplican en el desarrollo de software convencional, en la Ciencia de Datos son esenciales y extremadamente útiles. Estos conocimientos te permitirán entender cómo abordar correctamente un problema, discernir por qué algo no está funcionando en un algoritmo, probar hipótesis y llegar a conclusiones acertadas.

Por suerte, este conocimiento no se limita a la educación universitaria. Actualmente hay disponibles cursos en línea de plataformas como Coursera y Stepik, además de conferencias como las de la Escuela de Análisis de Datos de Yandex y otras fuentes de información esencial.

Python

El lenguaje de programación predominante en Ciencia de Datos es Python, por lo que se requiere un dominio sólido de sus fundamentos. Profundizar en el lenguaje es una gran ventaja, ya que un conocimiento amplio te permite desarrollar soluciones más eficientes y efectivas. Además de Python, también se emplean R, Julia y otros lenguajes con bibliotecas para aprendizaje automático.

Resultan igualmente beneficiosos los conocimientos sobre patrones de programación, la capacidad para escribir códigos limpios y optimizados y el manejo de CI/CD. La computación en la nube sigue siendo una herramienta popular, así que la habilidad para trabajar con servicios en la nube como Microsoft Azure, AWS y GCP también es ideal.

Procesos empresariales

Este es un componente crucial. Comprender los procesos y las tareas empresariales te facilitará comunicarte con los clientes en su lenguaje y comprender rápidamente sus problemas, la necesidad de resolverlos, cómo medir el éxito empresarial y cómo presentar soluciones. Desafortunadamente, este conocimiento no suele formar parte del plan de estudios en programas de informática o matemáticas, y probablemente requerirá de lecturas complementarias. Uno de los libros más recomendados para iniciarse en la ciencia de datos, incluso para aquellos con experiencia previa, es "Data Science for Business" de Tom Fawcett. El libro ofrece ejemplos prácticos y estrategias de acercamiento, incluyendo preguntas clave que se pueden formular al cliente y posibles soluciones. Este es un excelente punto de partida, pero en última instancia, las habilidades cruciales para la faceta de Ciencia de Datos se adquieren con la experiencia y la participación en una diversidad de proyectos.

Inglés

Para entender y resolver eficazmente los problemas de los clientes, una comunicación efectiva es fundamental, y en la mayoría de los casos, esto implica hablar con clientes internacionales. Por tanto, el dominio del inglés es indispensable, ya que una comunicación fluida construye confianza y permite definir el alcance del trabajo de manera más eficiente.

Habilidades blandas

Las habilidades de presentación son esenciales para un Científico de Datos, quien frecuentemente necesita exponer soluciones a clientes, convencerles de la necesidad de ciertas adaptaciones o compartir mejores prácticas con colegas en conferencias o meetups. En general, el desarrollo de habilidades interpersonales es siempre beneficioso y constituye un gran valor añadido.

Herramientas básicas para trabajar con datos

Big Data

Al tratar con Big Data, nos referimos a conjuntos de datos tan grandes que una sola computadora no puede procesarlos de manera eficiente. En su lugar, se requiere un conjunto de máquinas para realizar los cálculos necesarios de forma más rápida y eficiente. Las herramientas más utilizadas en Big Data son Apache Hadoop y Apache Spark. Hadoop se compone de varias partes:

HDFS: un sistema de archivos distribuidos.
MapReduce: un modelo de computación distribuida para procesamiento paralelo. Se utiliza para transformar tareas en trabajos, donde una tarea es mapear los datos en pares clave-valor (operación Map) y la otra es realizar acciones de agregación, como sumar o calcular máximos (operación Reduce).
YARN: una tecnología para la gestión de clústeres.
Varias bibliotecas para trabajar con HDFS.

Apache Spark is based on Hadoop but is an improvement over the MapReduce concept. In this technology, distributed computing takes place in RAM, which increases the processing speed.

Aprendizaje automático

Para trabajar con datos, los Científicos de Datos prefieren Python, utilizando librerías como:

NumPy: para manipulación de arreglos de datos. Pandas, que facilita el trabajo con datos tabulares, se construye sobre NumPy.
SciPy: para cálculos matemáticos y científicos, incluye algoritmos de integración, diferenciación y optimización.
Matplotlib: la librería de visualización más popular. Seaborn, construida sobre Matplotlib, ofrece gráficos más atractivos con una sintaxis simplificada.
Plotly: para crear gráficos interactivos.
Scikit-learn: recopila métodos clásicos de aprendizaje automático y herramientas útiles para el preprocesamiento de datos.

Aprendizaje profundo

Las redes neuronales se entrenan comúnmente con TensorFlow o PyTorch. TensorFlow, aunque puede ser más complejo para principiantes por la cantidad de conceptos, tiene ventajas como una amplia comunidad de desarrolladores, herramientas para visualizar entrenamientos de datos y numerosos ejemplos de aplicación.

PyTorch, más reciente y favorecido en entornos académicos por su facilidad de uso para experimentación, está ganando popularidad. Por ahora, TensorFlow está optimizado para producción y monitoreo de entrenamientos, lo que influye en su elección para proyectos grandes.

Inteligencia Artificial

La Inteligencia Artificial (IA) es un término amplio que engloba sistemas capaces de imitar comportamientos humanos para ejecutar tareas específicas y aprender de los datos recibidos. Incluye tanto el aprendizaje automático como el profundo.

Minería de datos

La minería de datos puede realizarse con las bibliotecas de Python mencionadas, aunque también existen herramientas con interfaces gráficas, como SAS Data Mining, RapidMiner, Knime y Qlik, que permiten analizar y visualizar datos de forma interactiva.

Conclusión

La Ciencia de Datos implica trabajar con datos para modelar soluciones a problemas. Con el aumento en la generación de datos, la demanda de Científicos de Datos crece, ofreciendo numerosas oportunidades laborales. Profesionales de desarrollo, análisis y otras áreas no tecnológicas están incursionando en este campo. Aunque el umbral de entrada puede ser alto debido a las habilidades y conocimientos necesarios, la era del aprendizaje en línea facilita adquirir la formación requerida.