CategoríaBig Data

¿Qué es el Machine Learning? Aprendizaje supervisado vs no supervisado

164

A todos nos han deslumbrado alguna vez las películas de robots: Máquinas inteligentes que no solamente son capaces de hablar y respondernos, sino que pueden resolver problemas y aprender por sí mismos. Si bien el aprendizaje automático ya ha llegado para quedarse, esto significa un paso más en el mundo de la Inteligencia Artificial. Te contamos qué es Machine Learning y dos modelos de funcionamiento.

También te puede interesar: Master en Business Intelligence y Data Science

¿Qué es el Machine Learning o aprendizaje automático?

Cuando hablamos del significado de Machine Learning, nos referimos a un área de conocimiento dentro de la Inteligencia Artificial donde los ordenadores aplican técnicas de aprendizaje estadístico con el objetivo de identificar automáticamente patrones en los datos. Por ello podemos tomar la definición del aprendizaje automático como aprendizaje automatizado o aprendizaje de máquinas, un mundo apasionante dentro del Big Data y el Business Intelligence.

Los algoritmos generados son capaces de generalizar comportamientos a partir de los datos suministrados en forma de ejemplos.

El aprendizaje automático surge a mediados de los años 80 con la aplicación de las redes neuronales y los árboles de decisión. Se empezó a utilizar en problemas de predicción complejos donde los modelos estadísticos clásicos no eran eficientes como, por ejemplo, el reconocimiento de voz e imágenes, la predicción de series temporales no lineales, la predicción de los mercados financieros, el reconocimiento de texto escrito, etc.

Video

Cómo eliminar las barreras en proyectos Machine Learning y Deep Learning

Descargar
  

La característica principal de este tipo de algoritmos es que es que son capaces de reajustarse automáticamente para mejorar su rendimiento en función del número de aciertos y de fallos producidos en un proceso de entrenamiento previo a su aplicación y, durante la ejecución en tiempo real del mismo.

Por ejemplo, el sistema de control de seguridad de un aeropuerto podría estar programado para realizar un reconocimiento facial de todos sus usuarios y comprobar si éstos están en la lista de los delincuentes más buscados.

Pues bien, el propio algoritmo de búsqueda podría aprender por sí sólo por dos vías:

  • Proporcionándole imágenes de personas al azar e indicándole al algoritmo si son o no delincuentes durante el proceso de entrenamiento.
  • Rectificando su predicción en cada observación en tiempo real.

La aplicación de algoritmos de aprendizaje automático es muy diversa.

Otros ejemplos en el uso de algoritmos de Machine Learning lo tenemos en sistema que permite diferenciar si un email recibido a nuestra bandeja de entrada es spam o no en función de los correos recibidos previamente, o bien, el diagnóstico de un paciente en función de sus características e historial.

Los modelos de aprendizaje automático se pueden dividir en dos grandes categorías: aprendizaje supervisado y no supervisado. La clave para incluir los algoritmos en un tipo u otro estará en el tipo de datos que utilizamos para su entrenamiento.

Diferencia entre aprendizaje supervisado y no supervisado 

Como decíamos, la principal diferencia entre estos dos tipos de algoritmos radica en los datos que utilicemos en su entrenamiento.

En el aprendizaje supervisado, los resultados que se desean obtener del modelo son conocidos previamente.  Por ejemplo, en un algoritmo que predice la validez de un email sabemos que el resultado de salida ha de ser spam o no spam y, su proceso de entrenamiento se realiza con cientos de miles de emails de ejemplo etiquetados como spam y no spam.

Sin embargo, en el aprendizaje no supervisado el entrenamiento no se realiza con datos etiquetados previamente si no que dicho etiquetado de los datos es descubierto durante el propio proceso aprendizaje.

Por ejemplo, un algoritmo de aprendizaje automático desarrollado para clasificar los tipos clientes que tiene una empresa no es entrenado con datos de cliente etiquetados por segmentos porque, justamente, esas etiquetas sobre el segmento al que pertenece cada cliente son las que se desconocen.

10101000011111010101010100110110011000110101111111111010101010101111000010101000011111010101010100010101111100000011010111001100110101010100110080%

Tipos de aprendizaje supervisado

El objetivo del aprendizaje supervisado es predecir las respuestas que habrá en el futuro gracias al entrenamiento del algoritmo con datos conocidos del pasado. Los problemas que resuelve el aprendizaje supervisado de forma general son de dos tipos:

  • Problemas de regresión. En este tipo de problemas lo que se busca es inferir (predecir) una respuesta numérica continua en función de un conjunto de variables de entrada. Existen numerosos problemas del mundo real donde la variable que se desea predecir o estimar es una variable numérica, por ejemplo, los ingresos de una persona, el precio de venta de un inmueble o algo tan dispar como la carga que soportará una estructura metálica. 
  • Problemas de clasificación. Se trata de problemas que necesitan predecir la clase más probable de un elemento en función de un conjunto de variables de entrada. Existen dos tipos de problemas de clasificación: binaria y multiclase. Un ejemplo de clasificador binario sería un algoritmo para determinar la probabilidad de que un mensaje de correo electrónico sea spam o no spam. Por otro lado, un ejemplo de clasificador multiclase puede ser un algoritmo que busque predecir en qué país de doce posibles un cliente va a realizar la siguiente reserva.  Los tipos de algoritmos de clasificación más utilizados son Naive Bayes, Super Vector Machine, Arboles de decisión o Random Forest.

Master en Business Intelligence y Data Science

Aprende con los mejores profesionales

¡Fórmate en BI y sé un analista de datos!

Tipos de aprendizaje no supervisado

En el caso del aprendizaje no supervisado el problema consiste en probar y determinar la estructura existente en los datos, pero sin utilizar una etiqueta previa.

Estos algoritmos, también se conocen con el nombre de algoritmos de agrupamiento o clustering puesto que agrupan instancias de los datos en función de las variables de los conjuntos de datos. Es decir, este tipo de algoritmos buscan patrones en los datos con el objetivo de encontrar agrupaciones en los datos.

Los algoritmos de aprendizaje no supervisado se pueden dividir en dos grandes grupos según su funcionamiento interno:

  • Agrupación. Son algoritmos iterativos que comienzan con una asignación inicial de los datos en grupos y se van modificando siguiendo un criterio de optimización. El algoritmo más utilizado en este caso es K-medias.
  • Jerárquicos. Algoritmos donde no conocemos de antemano el número de clústeres que queremos y en los que en cada iteración solo un objeto cambia de grupo y los grupos están anidados en los de los pasos anteriores.

Otros tipos de algoritmos

Hay ciertos tipos de algoritmos que no encajarían de forma tan clara en supervisados o no supervisados, como son los algoritmos de detección de anomalías o aprendizaje por refuerzo.

El aprendizaje por refuerzo se centra en los procesos de aprendizaje basados en reglas capaces de aprender de su entorno, en los que se proporcionan algoritmos de aprendizaje automáticos con información del entorno acerca de lo que es o no apropiado.

Al definir las reglas, el algoritmo de aprendizaje automático intenta explorar diferentes opciones y posibilidades, monitorizando y evaluando cada resultado para determinar cuál es el óptimo. Algunos tipos de algoritmo son Fuerza bruta y Q-learning.

Los problemas de detección de anomalías son una aplicación común del aprendizaje automático. Se pueden ver como una posible solución a un problema de aprendizaje no supervisado, pero tienen también aspectos de aprendizaje supervisado.

Ejemplos de aplicación de este tipo de algoritmos son la detección del fraude visto como una anomalía, con la monitorización de un data-center.

Ejemplo de Machine Learning: Siri

Tenemos un ejemplo cercano: Siri es un siervo pasivo que espera a que le preguntemos para poder darnos la información que necesitamos. Este paradigma de pregunta-respuesta nos gusta, no entenderíamos que Siri nos diera consejos a diestro y siniestro cada vez que se nos planteara un dilema, aunque no hayamos hecho ninguna pregunta. Para que el Machine Learning sea capaz de mejorar nuestra calidad de vida, tendremos que aceptar un cambio en la relación que tenemos con la tecnología.

Según el analista de datos John Thruma, Director de Teradata, el Machine Learning podría llegar a ser una fuerza mucho más poderosa si estuviéramos dispuestos a aceptar un mayor nivel de interrupción en nuestras vidas.

Pongamos como ejemplo el caso de una persona que tiene un historial de depresión o problemas de corazón. Cuando el médico le prescribe una medicación, un dispositivo podría ayudar al enfermo a cuidar más de su salud. Si lo programamos para que sepa leer su temperatura, presión arterial, número de latidos del corazón por minuto y otras características, el dispositivo puede ayudar a esa persona a tomar la medicación o la terapia adecuada cuando la necesitara. 

Si te interesa aprender más acerca de los nuevos paradigmas que está propiciando la innovación, como el Big Data, la Smart Education o el Machine Learning, te recomendamos que eches un vistazo al Master en Business Intelligence y Data Science. Y si este artículo te ha parecido interesante, ¡No te olvides de compartir!

Master en Business Intelligence y Data Science

Aprende con los mejores profesionales

¡Fórmate en BI y sé un analista de datos!

Pascual Parada Torralba

Director de Innovación y Data de IEBS Business School, Pascual Parada es también asesor digital de Red.es para la realización de proyectos de transformación digital. Profesor de estrategia y operaciones... Leer más

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Síguenos en las redes