La inteligencia del hombre ha llegado al extremo de crear programas que permiten que los ordenadores aprendan por sí mismos de las experiencias previas, mejorando así el análisis de los datos. De este modo, los algoritmos de machine learning hacen reconocimiento facial y de voz, detectan fraudes a las instituciones bancarias y compañías de seguro, predicen la demanda de un determinado producto, exponen el correo basura, etc.
La clase de algoritmo dependerá de si las variables a analizar son discretas (con salidas específicas, por ejemplo: sí o no) o continuas (como la presión arterial de un paciente). Para estas últimas, el aprendizaje podría ser:
- Supervisado: con salidas conocidas y previamente definidas. Es útil cuando una propiedad del conjunto de datos es identificable con una etiqueta y deben predecirse otras.
- No supervisado: el sistema deducirá cuáles son las salidas; o sea, hay que descubrir las relaciones tácitas entre elementos que no han sido preliminarmente clasificados.
- De refuerzo: es una situación intermedia en la que cierta retroalimentación a una acción predictiva se encuentra disponible, pero la etiqueta o el código del error no.
Tipos de algoritmos de machine learning
Estos programas permiten identificar patrones complejos dentro de la información analizada, con lo cual las empresas hacen inferencias, establecen conclusiones y obtienen beneficios económicos. Los algoritmos pueden ser de:
- Clasificación: problema en el que las variables conocidas (independientes-VI) y las estimadas (dependientes-VD) deben ser discretas. Asimismo, los posibles valores que tomen las segundas (VD) también estarán predefinidos. Algunos ejemplos incluyen a los clasificadores lineales y cuadráticos, los árboles de decisión, etc.
- Regresión: a diferencia de los anteriores, en este tipo de modelo se desconocen las VD. Por supuesto, la regresión lineal (simple o múltiple) es la más popular de esta categoría.
- Clusterización: su objetivo es agrupar elementos de una clase. El proceso se distingue de la clasificación porque los valores probables de las output o variables de salida son desconocidos. Este sería el caso del hierarchical clustering, distribution o density-based clustering, etc.
- Reducción: aquí se trata de elegir las variables que positivamente impactan a la VD, descartando el resto, y luego aplicar alguno de los procedimientos anteriores. Se utiliza para ello el PCA (Principal Component Analysis), LDA (Linear Discriminant Analysis) y otros.
No se han encontrado comentarios