¿Qué es Random Forest?

El bosque aleatorio es una técnica utilizada para modelar predicciones y análisis de comportamiento y se basa en árboles de decisión. Contiene muchos árboles de decisión que representan una instancia distinta de la clasificación de la entrada de datos en el bosque aleatorio. La técnica de bosque aleatorio toma en consideración las instancias individualmente, tomando la que tiene la mayoría de votos como la predicción seleccionada.

Bosque aleatorio Figura 1. Estructura aleatoria del bosque (fuente)

Cada árbol de las clasificaciones toma datos de muestras del conjunto de datos inicial. Luego, las características se seleccionan al azar, que se utilizan para hacer crecer el árbol en cada nodo. Todos los árboles del bosque no deben podarse hasta el final del ejercicio cuando la predicción se alcanza de manera decisiva. De esta manera, el bosque aleatorio permite que cualquier clasificador con correlaciones débiles cree un clasificador fuerte.

Sumario rápido

  • El bosque aleatorio es una combinación de árboles de decisión que se pueden modelar para la predicción y el análisis del comportamiento.
  • El árbol de decisiones en un bosque no se puede podar para el muestreo y, por lo tanto, la selección de predicción.
  • La técnica de bosque aleatorio puede manejar grandes conjuntos de datos debido a su capacidad para trabajar con muchas variables que se ejecutan en miles.

Modelado de predicciones

El método de bosque aleatorio puede construir modelos de predicción utilizando árboles de regresión de bosque aleatorio, que generalmente no se podan para proporcionar predicciones sólidas. El método de muestreo bootstrap se utiliza en los árboles de regresión, que no deben podarse. Los nodos óptimos se muestrean del total de nodos en el árbol para formar la característica de división óptima.

La técnica de muestreo aleatorio utilizada en la selección de la característica de división óptima reduce la correlación y, por lo tanto, la varianza de los árboles de regresión. Mejora la capacidad predictiva de distintos árboles en el bosque. El muestreo mediante bootstrap también aumenta la independencia entre árboles individuales.

Importancia variable

Las variables (características) son importantes para el bosque aleatorio ya que es un desafío interpretar los modelos, especialmente desde un punto de vista biológico. El enfoque ingenuo muestra la importancia de las variables asignando importancia a una variable en función de la frecuencia de su inclusión en la muestra por todos los árboles. Se puede lograr fácilmente, pero presenta un desafío ya que los efectos sobre la reducción de costos y el aumento de la precisión son redundantes.

La importancia de la permutación es una medida que rastrea la precisión de la predicción cuando las variables se permutan aleatoriamente de muestras fuera de la bolsa. El enfoque de la importancia de la permutación funciona mejor que el enfoque ingenuo, pero tiende a ser más caro.

Debido a los desafíos del bosque aleatorio al no poder interpretar las predicciones lo suficientemente bien desde las perspectivas biológicas, la técnica se basa en los enfoques ingenuo, de disminución de la impureza y de la importancia de la permutación para darles interpretabilidad directa de los desafíos. Los tres enfoques apoyan las variables predictoras con múltiples categorías.

Sin embargo, en el caso de variables predictoras continuas con un número similar de categorías, tanto la importancia de la permutación como el enfoque de impureza de disminución media no exhiben sesgos Sesgo de minería de datos El sesgo de minería de datos se refiere a una suposición de importancia que un comerciante asigna a una ocurrencia en el mercado que en realidad fue el resultado de una casualidad o un imprevisto. La selección de variables a menudo viene con sesgo. Para evitarlo, se debe realizar un submuestreo sin reemplazo, y cuando se usa inferencia condicional, se debe aplicar la técnica de bosque aleatorio.

Bosques aleatorios oblicuos

Los bosques aleatorios oblicuos son únicos porque utilizan divisiones oblicuas para tomar decisiones en lugar de las divisiones de decisión convencionales en los nodos. Los bosques oblicuos muestran mucha superioridad al exhibir las siguientes cualidades.

En primer lugar, pueden separar distribuciones en los ejes de coordenadas mediante el uso de una única división multivariante que incluiría las divisiones alineadas con ejes profundos que se necesitan convencionalmente. En segundo lugar, permiten disminuir el sesgo de los árboles de decisión para las restricciones trazadas. Las divisiones alineadas con el eje convencionales requerirían dos niveles más de anidamiento al separar clases similares con las divisiones oblicuas, lo que hace que su uso sea más fácil y eficiente.

Clasificador de bosque aleatorio

El clasificador de bosque aleatorio es una colección de árboles de predicción, donde cada árbol depende de vectores aleatorios muestreados de forma independiente, con una distribución similar con todos los demás árboles del bosque aleatorio. Originalmente diseñado para el aprendizaje automático, el clasificador ha ganado popularidad en la comunidad de teledetección, donde se aplica en la clasificación de imágenes de teledetección debido a su alta precisión. También logra la velocidad adecuada requerida y una parametrización eficiente en el proceso. El clasificador de bosque aleatorio arranca muestras aleatorias en las que se selecciona la predicción con el voto más alto de todos los árboles.

La individualidad de los árboles es importante en todo el proceso. La individualidad de cada árbol está garantizada debido a las siguientes cualidades. Primero, cada entrenamiento de árbol en la muestra usa subconjuntos aleatorios de las muestras de entrenamiento inicial. En segundo lugar, la división óptima se elige entre las características seleccionadas al azar de los nodos del árbol sin podar. En tercer lugar, todo árbol crece sin límites y no se debe podar en absoluto.

Ventajas de los bosques aleatorios

Los bosques aleatorios presentan estimaciones de importancia variable, es decir, redes neuronales. También ofrecen un método superior para trabajar con datos faltantes. Los valores que faltan se sustituyen por la variable que más aparece en un nodo en particular. Entre todos los métodos de clasificación disponibles, los bosques aleatorios proporcionan la mayor precisión.

La técnica de bosque aleatorio también puede manejar big data con numerosas variables que se ejecutan en miles. Puede equilibrar automáticamente conjuntos de datos cuando una clase es menos frecuente que otras clases en los datos. El método también maneja variables rápidamente, lo que lo hace adecuado para tareas complicadas.

Más recursos

Finance ofrece la certificación FMVA® de Analista de valoración y modelado financiero (FMVA) ™ Únase a más de 350,600 estudiantes que trabajan para empresas como Amazon, JP Morgan y el programa de certificación Ferrari para aquellos que buscan llevar sus carreras al siguiente nivel. Para seguir aprendiendo y desarrollando su base de conocimientos, explore los recursos financieros relevantes adicionales a continuación:

  • Análisis de datos transversales Análisis de datos transversales El análisis de datos transversales es el análisis de conjuntos de datos transversales. Las encuestas y los registros gubernamentales son algunas fuentes comunes de datos transversales.
  • Muestreo por conglomerados Muestreo por conglomerados En las estadísticas, el muestreo por conglomerados es un método de muestreo en el que toda la población del estudio se divide en externamente homogénea pero internamente
  • Distribución normal Distribución normal La distribución normal también se conoce como distribución Gaussiana o Gauss. Este tipo de distribución es muy utilizado en ciencias naturales y sociales. los
  • Primer criterio de seguridad de Roy Criterio de seguridad primero de Roy El criterio de seguridad primero de Roy es una técnica de gestión de riesgos utilizada por los inversores para comparar y elegir una cartera según el criterio de que la probabilidad

Recomendado

¿Se cerró Crackstreams?
2022
¿Es seguro el centro de comando de MC?
2022
¿Está Taliesin dejando un papel crítico?
2022