¿Qué son los métodos de conjunto?

Los métodos de conjunto son técnicas que tienen como objetivo mejorar la precisión de los resultados en los modelos mediante la combinación de varios modelos en lugar de utilizar un solo modelo. Los modelos combinados aumentan significativamente la precisión de los resultados. Esto ha aumentado la popularidad de los métodos conjuntos en el aprendizaje automático.

Métodos de conjunto

Sumario rápido

  • Los métodos de conjunto tienen como objetivo mejorar la predictibilidad de los modelos mediante la combinación de varios modelos para hacer un modelo muy confiable.
  • Los métodos de conjunto más populares son el refuerzo, el ensacado y el apilado.
  • Los métodos de conjunto son ideales para la regresión y la clasificación, donde reducen el sesgo y la varianza para aumentar la precisión de los modelos.

Categorías de métodos de conjunto

Los métodos de conjunto se dividen en dos categorías amplias, es decir, técnicas de conjunto secuencial y técnicas de conjunto paralelo. Las técnicas de conjuntos secuenciales generan aprendices básicos en una secuencia, por ejemplo, Adaptive Boosting (AdaBoost). La generación secuencial de alumnos base promueve la dependencia entre los alumnos base. A continuación, se mejora el rendimiento del modelo asignando mayores ponderaciones a los alumnos previamente mal representados.

En las técnicas de conjuntos paralelos , los alumnos base se generan en un formato paralelo, por ejemplo, bosque aleatorio Bosque aleatorio El bosque aleatorio es una técnica que se utiliza para modelar predicciones y análisis de comportamiento y se basa en árboles de decisión. Un bosque aleatorio contiene muchos árboles de decisión. Los métodos paralelos utilizan la generación paralela de alumnos base para fomentar la independencia entre los alumnos base. La independencia de los alumnos base reduce significativamente el error debido a la aplicación de promedios.

La mayoría de las técnicas de conjunto aplican un solo algoritmo en el aprendizaje base, lo que da como resultado la homogeneidad en todos los alumnos base. Los alumnos de base homogénea se refieren a los alumnos de base del mismo tipo, con cualidades similares. Otros métodos aplican aprendices de base heterogénea, dando lugar a conjuntos heterogéneos. Los alumnos de base heterogénea son alumnos de distintos tipos.

Tipos principales de métodos de conjunto

1. Embolsado

Bagging, la forma abreviada de agregación bootstrap, se aplica principalmente en clasificación y regresión Análisis de regresión El análisis de regresión es un conjunto de métodos estadísticos utilizados para la estimación de relaciones entre una variable dependiente y una o más variables independientes. Puede utilizarse para evaluar la fuerza de la relación entre variables y para modelar la relación futura entre ellas. . Aumenta la precisión de los modelos mediante el uso de árboles de decisión, lo que reduce la varianza en gran medida. La reducción de la varianza aumenta la precisión y, por lo tanto, elimina el sobreajuste, que es un desafío para muchos modelos predictivos.

El ensacado se clasifica en dos tipos, es decir, bootstrapping y agregación. Bootstrapping es una técnica de muestreo en la que las muestras se derivan de toda la población (conjunto) mediante el procedimiento de reemplazo. El método de muestreo con reemplazo ayuda a que el procedimiento de selección sea aleatorio. El algoritmo de aprendizaje base se ejecuta en las muestras para completar el procedimiento.

La agregación en el ensacado se realiza para incorporar todos los resultados posibles de la predicción y aleatorizar el resultado. Sin agregación, las predicciones no serán precisas, porque no se toman en consideración todos los resultados. La agregación se basa, por tanto, en los procedimientos de arranque de probabilidad o en todos los resultados de los modelos predictivos.

El agrupamiento es ventajoso ya que los estudiantes de base débil se combinan para formar un solo estudiante fuerte que es más estable que los estudiantes individuales. También elimina cualquier variación, reduciendo así el sobreajuste de los modelos. Una limitación del ensacado es que es computacionalmente costoso. Por lo tanto, puede generar más sesgo en los modelos cuando se ignora el procedimiento adecuado de ensacado.

2. Impulso

El impulso es una técnica de conjunto que aprende de los errores de predicción anteriores para hacer mejores predicciones en el futuro. La técnica combina varios alumnos de base débil para formar un alumno fuerte, mejorando así significativamente la previsibilidad de los modelos. El impulso funciona al organizar a los estudiantes débiles en una secuencia, de modo que los estudiantes débiles aprendan del siguiente estudiante en la secuencia para crear mejores modelos predictivos.

El impulso toma muchas formas, que incluyen aumento de gradiente, impulso adaptativo (AdaBoost) y XGBoost (aumento de gradiente extremo). AdaBoost hace uso de aprendices débiles que se encuentran en forma de árboles de decisión, que en su mayoría incluyen una división que se conoce popularmente como tocones de decisión. La principal decisión de AdaBoost comprende observaciones con pesos similares.

Aumento de degradado Aumento de degradado El aumento de degradado es una técnica que se utiliza para crear modelos de predicción. La técnica se utiliza principalmente en procedimientos de regresión y clasificación. agrega predictores secuencialmente al conjunto, donde los predictores precedentes corrigen a sus sucesores, aumentando así la precisión del modelo. Se adaptan nuevos predictores para contrarrestar los efectos de los errores en los predictores anteriores. El gradiente de descenso ayuda al amplificador de gradiente a identificar problemas en las predicciones de los alumnos y contrarrestarlos en consecuencia.

XGBoost hace uso de árboles de decisión con gradiente mejorado, lo que proporciona una velocidad y un rendimiento mejorados. Depende en gran medida de la velocidad computacional y el rendimiento del modelo de destino. El entrenamiento de modelos debe seguir una secuencia, lo que hace que la implementación de máquinas con aumento de gradiente sea lenta.

3. Apilamiento

El apilamiento, otro método de conjunto, a menudo se denomina generalización apilada. Esta técnica funciona al permitir que un algoritmo de entrenamiento combine varias otras predicciones de algoritmos de aprendizaje similares. El apilamiento se ha implementado con éxito en regresiones, estimaciones de densidad, aprendizaje a distancia y clasificaciones. También se puede utilizar para medir la tasa de error durante el ensacado.

Reducción de varianza

Los métodos de conjunto son ideales para reducir la variación en los modelos, aumentando así la precisión de las predicciones. La varianza se elimina cuando se combinan varios modelos para formar una única predicción que se elige entre todas las demás predicciones posibles de los modelos combinados. Un conjunto de modelos es el acto de combinar varios modelos para garantizar que la predicción resultante sea la mejor posible, basada en la consideración de todas las predicciones.

Recursos adicionales

Finance es el proveedor oficial de la certificación global Certified Banking & Credit Analyst (CBCA) ™ CBCA ™ La acreditación Certified Banking & Credit Analyst (CBCA) ™ es un estándar global para analistas de crédito que cubre finanzas, contabilidad, análisis de crédito, análisis de flujo de efectivo , modelos de convenios, reembolsos de préstamos y más. programa de certificación, diseñado para ayudar a cualquier persona a convertirse en un analista financiero de clase mundial. Para seguir avanzando en su carrera, los recursos financieros adicionales a continuación serán útiles:

  • Red elástica Red elástica Red elástica utiliza linealmente las penalizaciones de las técnicas de lazo y cresta para regularizar los modelos de regresión. La técnica combina el lazo y
  • Sobreajuste Sobreajuste El sobreajuste es un término utilizado en estadísticas que se refiere a un error de modelado que se produce cuando una función se corresponde demasiado con un conjunto particular de datos
  • Escalabilidad Escalabilidad La escalabilidad puede caer en contextos de estrategia empresarial y financiera. En ambos casos, representa la capacidad de la entidad para soportar la presión de
  • Spoofing Spoofing Spoofing es una práctica de negociación algorítmica disruptiva que implica realizar ofertas para comprar u ofertas para vender contratos de futuros y cancelar las ofertas u ofertas antes de la ejecución del acuerdo. La práctica pretende crear una imagen falsa de demanda o pesimismo falso en el mercado.

Recomendado

¿Se cerró Crackstreams?
2022
¿Es seguro el centro de comando de MC?
2022
¿Está Taliesin dejando un papel crítico?
2022