¿Qué es el ensacado (agregación Bootstrap)?

El aprendizaje automático de conjuntos se puede clasificar principalmente en embolsado y refuerzo. La técnica de ensacado es útil tanto para la regresión como para la clasificación estadística. El ensacado se utiliza con árboles de decisión, donde aumenta significativamente la estabilidad de los modelos en la reducción de la varianza y mejora la precisión, lo que elimina el desafío del sobreajuste.

Harpillera

Figura 1. Flujo de ensacado (agregación Bootstrap). Fuente

El agrupamiento en el aprendizaje automático conjunto requiere varios modelos débiles, agregando las predicciones para seleccionar la mejor predicción. Los modelos débiles se especializan en distintas secciones del espacio de funciones, lo que permite que las predicciones de apalancamiento de embolsado provengan de cada modelo para alcanzar el propósito máximo.

Resumen rápido

  • El embolsado y el impulso son los dos métodos principales de aprendizaje automático por conjuntos.
  • El ensacado es un método de conjunto que se puede utilizar en regresión y clasificación.
  • También se conoce como agregación bootstrap, que forma las dos clasificaciones de ensacado.

¿Qué es Bootstrapping?

El ensacado se compone de dos partes: agregación y arranque. Bootstrapping es un método de muestreo, en el que se elige una muestra de un conjunto, utilizando el método de reemplazo. A continuación, el algoritmo de aprendizaje se ejecuta en las muestras seleccionadas.

La técnica de bootstrapping usa muestreo con reemplazos para hacer que el procedimiento de selección sea completamente aleatorio. Cuando se selecciona una muestra sin reemplazo, las selecciones posteriores de variables siempre dependen de las selecciones anteriores, por lo que los criterios no son aleatorios.

¿Qué es la agregación?

Las predicciones del modelo se someten a agregación para combinarlas para que la predicción final considere todos los resultados posibles. La agregación se puede realizar en función del número total de resultados o de la probabilidad de predicciones derivadas del bootstrapping de cada modelo en el procedimiento.

¿Qué es un método de conjunto?

Tanto el ensacado como el refuerzo forman las técnicas de conjunto más destacadas. Un método de conjunto es una plataforma de aprendizaje automático que ayuda a varios modelos en el entrenamiento mediante el uso del mismo algoritmo de aprendizaje. El método de conjunto es un participante de un grupo más grande de multiclasificadores.

Los clasificadores múltiples son un grupo de estudiantes múltiples, que se encuentran en miles, con un objetivo común que puede fusionar y resolver un problema común. Otra categoría de multiclasificadores son los métodos híbridos. Los métodos híbridos utilizan un conjunto de alumnos, pero a diferencia de los multiclasificadores, pueden utilizar distintos métodos de aprendizaje.

El aprendizaje enfrenta múltiples desafíos, como errores que se deben principalmente al sesgo, el ruido y la varianza. La precisión y estabilidad del aprendizaje automático están garantizadas por métodos conjuntos como el ensacado y el impulso. Las combinaciones de múltiples clasificadores reducen la varianza, especialmente cuando los clasificadores son inestables, y son importantes para presentar resultados más confiables que un solo clasificador.

La aplicación de embolsado o refuerzo requiere primero la selección de un algoritmo de aprendizaje básico. Por ejemplo, si uno elige un árbol de clasificación, entonces el impulso y el ensacado sería un grupo de árboles con un tamaño igual al de la preferencia del usuario.

Ventajas y desventajas del ensacado

Bosque aleatorio Bosque aleatorio El bosque aleatorio es una técnica que se utiliza para modelar predicciones y análisis de comportamiento y se basa en árboles de decisión. Un bosque aleatorio contiene muchos árboles de decisión y es uno de los algoritmos de ensacado más populares. El empaquetamiento ofrece la ventaja de permitir que muchos estudiantes débiles combinen esfuerzos para superar a un solo estudiante fuerte. También ayuda a reducir la varianza, por lo que se elimina el sobreajuste. Sobreajuste. Sobreajuste es un término utilizado en estadísticas que se refiere a un error de modelado que se produce cuando una función se corresponde demasiado estrechamente con un conjunto particular de datos de modelos en el procedimiento.

Una desventaja del ensacado es que introduce una pérdida de interpretabilidad de un modelo. El modelo resultante puede experimentar muchos sesgos cuando se ignora el procedimiento adecuado. A pesar de que el ensacado es muy preciso, puede ser computacionalmente costoso y esto puede desalentar su uso en ciertos casos.

Embolsado vs Impulso

La mejor técnica a utilizar entre el ensacado y el refuerzo depende de los datos disponibles, la simulación y las circunstancias existentes en ese momento. La variación de una estimación se reduce significativamente mediante técnicas de embolsado y refuerzo durante el procedimiento de combinación, lo que aumenta la precisión. Por tanto, los resultados obtenidos demuestran una mayor estabilidad que los resultados individuales.

Cuando un evento presenta el desafío de un bajo rendimiento, la técnica de ensacado no resultará en un mejor sesgo. Sin embargo, la técnica de impulso genera un modelo unificado con menores errores ya que se concentra en la optimización de las ventajas y reducción de las deficiencias en un solo modelo.

Cuando el desafío en un solo modelo es el sobreajuste, el método de embolsado funciona mejor que la técnica de refuerzo. Boosting enfrenta el desafío de manejar un ajuste excesivo, ya que viene con un ajuste excesivo en sí mismo.

Lecturas relacionadas

Finance ofrece la certificación FMVA® de Analista de valoración y modelado financiero (FMVA) ™ Únase a más de 350,600 estudiantes que trabajan para empresas como Amazon, JP Morgan y el programa de certificación Ferrari para aquellos que buscan llevar sus carreras al siguiente nivel. Para seguir aprendiendo y desarrollando su base de conocimientos, explore los recursos financieros relevantes adicionales a continuación:

  • Muestreo por conglomerados Muestreo por conglomerados En las estadísticas, el muestreo por conglomerados es un método de muestreo en el que toda la población del estudio se divide en externamente homogénea pero internamente
  • Sesgo de exceso de confianza Sesgo de exceso de confianza El sesgo de exceso de confianza es una evaluación falsa y engañosa de nuestras habilidades, intelecto o talento. En resumen, es una creencia egoísta de que somos mejores de lo que realmente somos. Puede ser un sesgo peligroso y es muy prolífico en las finanzas conductuales y los mercados de capitales.
  • Análisis de regresión Análisis de regresión El análisis de regresión es un conjunto de métodos estadísticos utilizados para la estimación de relaciones entre una variable dependiente y una o más variables independientes. Puede utilizarse para evaluar la fuerza de la relación entre variables y para modelar la relación futura entre ellas.
  • Análisis de datos de series de tiempo Análisis de datos de series de tiempo El análisis de datos de series de tiempo es el análisis de conjuntos de datos que cambian durante un período de tiempo. Los conjuntos de datos de series de tiempo registran observaciones de la misma variable en varios puntos de tiempo. Los analistas financieros utilizan datos de series de tiempo como los movimientos del precio de las acciones o las ventas de una empresa a lo largo del tiempo.

Recomendado

¿Qué es la función TIMEVALUE?
¿Qué es la función XLOOKUP en Excel?
¿Qué son las devoluciones monetarias y ponderadas en el tiempo?