Cloud Computing
Machine learning

Menos prisas con el “machine learning”

Cuidado con lanzarse, sin más, en brazos del “machine learning”. Un enfoque sencillo basado en buenos datos, consultas SQL, etcétera, suele dar buenos resultados para, entonces sí, preparar el desembarco.

machine learning

Primera premisa: la mejor manera de aprender a manejar el machine learning es no haciendo machine learning.

Hagamos caso a lo que dice Eugene Yan, experto en el universo Amazon: "La primera regla del machine learning [es] empezar sin machine learning ".

¿Qué? ¿Cómo se le queda el cuerpo?

Sí, está muy bien sacar a relucir modelos de machine learning elaborados casi a fuego lento durante meses de arduo esfuerzo. Pero no es necesariamente el enfoque más eficaz.

No cuando hay métodos más simples y accesibles.

Puede ser una simplificación excesiva decir, como hizo el científico de datos Noah Lorang hace años, que "los científicos de datos se limitan a hacer aritmética". Pero no está muy equivocado, y ciertamente él y Yan tienen razón en que por, mucho que queramos complicar el proceso de poner los datos a trabajar, la mayor parte de las veces es mejor empezar por lo pequeño.

 

Exagerar la complejidad

Los científicos de datos cobran mucho. Así que quizás sea tentador tratar de justificar ese sueldo envolviendo cosas como el análisis predictivo en una jerga complicada y modelos pesados.

No lo haga.

La visión de Lorang sobre la ciencia de los datos es tan cierta hoy como cuando la pronunció hace unos años: "Hay un subconjunto muy pequeño de problemas empresariales que se resuelven mejor con el machine learning; la mayoría de ellos sólo necesitan buenos datos y una comprensión de lo que significan". Lorang recomienda métodos más sencillos tales como "consultas SQL para la obtención de datos, aritmética básica sobre esos datos (calcular diferencias, percentiles, etc.), convertir los resultados en gráficos y [escribir] párrafos de explicación o recomendación".

No estoy sugiriendo que sea fácil. Lo que digo es que el machine learning no es el punto de partida cuando se trata de obtener información de los datos.

Tampoco es que se necesiten necesariamente grandes cantidades de datos.

De hecho, como afirma Katelyn Gleason, directora general de Eligible, es importante "empezar con los datos pequeños [porque] es la observación de las anomalías lo que me ha llevado a algunos de mis mejores hallazgos". A veces puede bastar con trazar las distribuciones para comprobar si hay patrones obvios.

Sí, así es: los datos pueden ser "lo suficientemente pequeños" como para que un humano pueda detectar patrones y descubrir ideas.

Por lo tanto, no es de extrañar entonces que el científico de datos de iRobot Brandon Rohrer sugiera con descaro lo siguiente: "Cuando tengas un problema, construye dos soluciones: un transformador bayesiano profundo que se ejecute en Kubernetes multicloud, y una consulta SQL construida sobre una pila de suposiciones atrozmente muy simplificadas. Pon una en tu currículum, la otra en producción. El resultado de ese trabajo es que todo el mundo se va a casa feliz".

De nuevo, esto no quiere decir que nunca debas usar machine learning, y definitivamente no es un argumento de que no ofrece un valor real. Ni mucho menos. Es sólo un argumento en contra de empezar con machine learning. Para profundizar en el porqué, vale la pena revisar el artículo de Yan sobre el tema.

 

Los humanos conocen los datos

En primer lugar, Yan señala que es importante reconocer lo difícil que es extraer significado de los datos dados los ingredientes críticos: "Se necesitan datos. Se necesita una cadena de producción sólida para apoyar los flujos de datos. Y, sobre todo, se necesitan etiquetas de alta calidad".

En otras palabras, las entradas son lo suficientemente complicadas como para que no resulte especialmente útil empezar por lanzar modelos de machine learning al problema. En ese punto, sólo está conociendo sus datos. Intente resolver el problema de manera manual o con heurística (métodos prácticos o atajos).

Yan destaca este razonamiento de Hamel Hussain, ingeniero de aprendizaje automático en GitHub: "Le obligará a familiarizarse íntimamente con el problema y los datos, que es el primer paso más importante".

Asumiendo que se trata de datos tabulares, Yan dice que vale la pena empezar con una muestra de los datos para ejecutar estadísticas, comenzando con correlaciones simples, y visualizar los datos, quizás usando gráficos de dispersión. Por ejemplo, en lugar de crear un complicado modelo de machine learning para las recomendaciones, se podría simplemente "recomendar los artículos de mayor rendimiento del periodo anterior", argumenta Yan; y luego buscar patrones en los resultados. Esto ayuda al profesional del machine learning a familiarizarse con sus datos, lo que a su vez le ayudará a construir mejores modelos, si resultan necesarios.

 

¿Cuándo es necesario, o al menos recomendable, el “machine learning?

Según Yan, el machine learning empieza a tener sentido cuando el mantenimiento de su sistema heurístico sin machine learning se vuelve demasiado engorroso. En otras palabras, "cuando se tiene una línea de base sin machine learning que funciona razonablemente bien, y el esfuerzo de mantener y mejorar esa línea de base supera el esfuerzo de construir e implementar un sistema basado en machine learning ".

No hay una ciencia que determine cuándo sucede esto, por supuesto, pero si su heurística ya no es un atajo práctico, es el momento de considerar el machine learning, sobre todo si cuenta con datos sólidos y etiquetas.

Sí, de acuerdo: es tentador empezar con complejos modelos de machine learning, pero podría decirse que una de las habilidades más importantes que puede tener un científico de datos es el sentido común, saber cuándo confiar en el análisis de regresión o en unas pocas declaraciones si/luego, en lugar de machine learning.



Revista Digital

Revistas Digitales

DealerWorld Digital

 



Otros Contenidos

Registro:

Eventos: