Menos prisas con el “machine learning”

Cuidado con lanzarse, sin más, en brazos del “machine learning”. Un enfoque sencillo basado en buenos datos, consultas SQL, etcétera, suele dar buenos resultados para, entonces sí, preparar el desembarco.

Exagerar la complejidad

Los científicos de datos cobran mucho. Así que quizás sea tentador tratar de justificar ese sueldo envolviendo cosas como el análisis predictivo en una jerga complicada y modelos pesados.

No lo haga.

La visión de Lorang sobre la ciencia de los datos es tan cierta hoy como cuando la pronunció hace unos años: "Hay un subconjunto muy pequeño de problemas empresariales que se resuelven mejor con el machine learning; la mayoría de ellos sólo necesitan buenos datos y una comprensión de lo que significan". Lorang recomienda métodos más sencillos tales como "consultas SQL para la obtención de datos, aritmética básica sobre esos datos (calcular diferencias, percentiles, etc.), convertir los resultados en gráficos y [escribir] párrafos de explicación o recomendación".

No estoy sugiriendo que sea fácil. Lo que digo es que el machine learning no es el punto de partida cuando se trata de obtener información de los datos.

Tampoco es que se necesiten necesariamente grandes cantidades de datos.

De hecho, como afirma Katelyn Gleason, directora general de Eligible, es importante "empezar con los datos pequeños [porque] es la observación de las anomalías lo que me ha llevado a algunos de mis mejores hallazgos". A veces puede bastar con trazar las distribuciones para comprobar si hay patrones obvios.

Sí, así es: los datos pueden ser "lo suficientemente pequeños" como para que un humano pueda detectar patrones y descubrir ideas.

Por lo tanto, no es de extrañar entonces que el científico de datos de iRobot Brandon Rohrer sugiera con descaro lo siguiente: "Cuando tengas un problema, construye dos soluciones: un transformador bayesiano profundo que se ejecute en Kubernetes multicloud, y una consulta SQL construida sobre una pila de suposiciones atrozmente muy simplificadas. Pon una en tu currículum, la otra en producción. El resultado de ese trabajo es que todo el mundo se va a casa feliz".

De nuevo, esto no quiere decir que nunca debas usar machine learning, y definitivamente no es un argumento de que no ofrece un valor real. Ni mucho menos. Es sólo un argumento en contra de empezar con machine learning. Para profundizar en el porqué, vale la pena revisar el artículo de Yan sobre el tema.

Los humanos conocen los datos

En primer lugar, Yan señala que es importante reconocer lo difícil que es extraer significado de los datos dados los ingredientes críticos: "Se necesitan datos. Se necesita una cadena de producción sólida para apoyar los flujos de datos. Y, sobre todo, se necesitan etiquetas de alta calidad".

En otras palabras, las entradas son lo suficientemente complicadas como para que no resulte especialmente útil empezar por lanzar modelos de machine learning al problema. En ese punto, sólo está conociendo sus datos. Intente resolver el problema de manera manual o con heurística (métodos prácticos o atajos).

Yan destaca este razonamiento de Hamel Hussain, ingeniero de aprendizaje automático en GitHub: "Le obligará a familiarizarse íntimamente con el problema y los datos, que es el primer paso más importante".

Asumiendo que se trata de datos tabulares, Yan dice que vale la pena empezar con una muestra de los datos para ejecutar estadísticas, comenzando con correlaciones simples, y visualizar los datos, quizás usando gráficos de dispersión. Por ejemplo, en lugar de crear un complicado modelo de machine learning para las recomendaciones, se podría simplemente "recomendar los artículos de mayor rendimiento del periodo anterior", argumenta Yan; y luego buscar patrones en los resultados. Esto ayuda al profesional del machine learning a familiarizarse con sus datos, lo que a su vez le ayudará a construir mejores modelos, si resultan necesarios.

¿Cuándo es necesario, o al menos recomendable, el “machine learning”?

Según Yan, el machine learning empieza a tener sentido cuando el mantenimiento de su sistema heurístico sin machine learning se vuelve demasiado engorroso. En otras palabras, "cuando se tiene una línea de base sin machine learning que funciona razonablemente bien, y el esfuerzo de mantener y mejorar esa línea de base supera el esfuerzo de construir e implementar un sistema basado en machine learning ".

No hay una ciencia que determine cuándo sucede esto, por supuesto, pero si su heurística ya no es un atajo práctico, es el momento de considerar el machine learning, sobre todo si cuenta con datos sólidos y etiquetas.

Sí, de acuerdo: es tentador empezar con complejos modelos de machine learning, pero podría decirse que una de las habilidades más importantes que puede tener un científico de datos es el sentido común, saber cuándo confiar en el análisis de regresión o en unas pocas declaraciones si/luego, en lugar de machine learning.

Imprimir Subir

TE PUEDE INTERESAR...

DISTRIBUCIÓN

Confluent lanza un programa de ‘partners’ renovado orientado a los servicios

Fabricantes

Toshiba Tec amplía su estrategia de distribución en España

TENDENCIAS

Sostenibilidad energética: un camino complejo para las empresas

TENDENCIAS

Cómo la estrategia de IA de Intel podría desafiar el dominio de Nvidia

TENDENCIAS

Alberto Pascual (Asociación @aslan): “La tecnología ha calado en todos los órdenes de la vida”

Alberto Pascual, presidente de la Asociación Aslan

Entrevistas

"A diferencia de otros, en el sector TIC se respira una atmósfera de 'coopetición' muy saludable"

ACTUALIDAD

La 35ª edición del Congreso&EXPO ASLAN enciende la ilusión de las TIC españolas

Fabricantes

Bruselas pide información a Broadcom por los cambios de licenciamiento en VMware

Fabricantes

Acronis pone en manos del canal herramientas para hacer crecer su negocio

SEGURIDAD

¡Ataque inminente! ¿Están preparadas las pymes?

DISTRIBUCIÓN

Check Point Software y Westcon-Comstor amplían su colaboración

Fabricantes

Lenovo presenta nuevos PC de sobremesa ThinkCentre con IA

Mayoristas

Arrow Electronics anuncia el lanzamiento de Arrow Cloud Object Storage for Backup

Mayoristas

Object First une fuerzas con V-Valley en Iberia para ofrecer Ootbi

Fabricantes

Salesforce, en conversaciones para adquirir Informatica

Contenidos digitales

Modelo de trabajo híbrido: sí, pero...

16 ABR 2024

No deja de decirse que el modelo de trabajo híbrido ha venido para quedarse. Pero ¿es así? Lo analizamos este mes en el nuevo número de DealerWorld junto con otros contenidos de interés.

Revistas Digitales

Otros Contenidos

Registro:

Eventos:

Menos prisas con el “machine learning”

Exagerar la complejidad

Los humanos conocen los datos

¿Cuándo es necesario, o al menos recomendable, el “machine learning”?

TE PUEDE INTERESAR...

Modelo de trabajo híbrido: sí, pero...

Confluent lanza un programa de ‘partners’ renovado orientado a los servicios

Toshiba Tec amplía su estrategia de distribución en España

Sostenibilidad energética: un camino complejo para las empresas

Cómo la estrategia de IA de Intel podría desafiar el dominio de Nvidia

Alberto Pascual (Asociación @aslan): “La tecnología ha calado en todos los órdenes de la vida”

IT ECONOMICS 2020.Tendencias económicas y presupuestarias de las áreas de IT en España (Executive Briefing)

¿Cómo reducir los costes de un centro de datos?

Objetivo: acelerar operaciones de TI y reducir costes con vSAN

¿Por qué elegir VMware vSAN?

Se avecinan cambios en la infraestructura hiperconvergente

"A diferencia de otros, en el sector TIC se respira una atmósfera de 'coopetición' muy saludable"

La 35ª edición del Congreso&EXPO ASLAN enciende la ilusión de las TIC españolas

Bruselas pide información a Broadcom por los cambios de licenciamiento en VMware