Árboles de decisión

20 marzo, 2018

Hoy les voy a hablar de los árboles de decisión, una de las técnicas de inferencia inductiva más usadas.

Se trata de un método para aproximar funciones de valores discretos, capaz de expresar hipótesis disyuntivas y robusto al ruido en los ejemplos de entrenamiento.

Estos diagramas cuentan con reglas descritas por un conjunto de atributos que permiten devolver una decisión tomada a partir de las entradas.

El árbol de decisión contiene nodos internos, que contienen un test sobre algún valor de alguna de las propiedades; de probabilidad, indica que debe ocurrir un evento aleatorio de acuerdo a la naturaleza del problema.

Un nodo hoja, es redondo y representa el valor que devuelve el árbol de decisión y las ramas que brindan posibles caminos de acuerdo a la decisión tomada.

Ventajas de un árbol de decisión

Las ventajas de un árbol de decisión son:

  • Resume los ejemplos de partida y permite la clasificación de nuevos caso siempre que no existan modificaciones sustanciales en las condiciones bajo las que se generan los ejemplos
  • Facilita la interpretación de las
  • Brinda un alto grado de comprensión del conocimiento utilizado en la toma de
  • Proporciona alto grado de comprensión de conocimiento utilizado en la toma de
  • Explica el comportamiento respecto una determinada tarea de decisión.
  • Reduce el número de variables
  • Es una magnífica herramienta para el control de la gestión

Algoritmos

El primer algoritmo de árboles de decisión fue el ID3 encuadrado dentro de la familia de algoritmos Top Down Induction Decisiton Trees y el cuál realiza una búsqueda mediante Hill Climbing en el espacio de árboles.

Dichos algoritmos son capaces de obtener reglas de lógica de primer orden y el punto clave para estos métodos es como aprender la mejor regla dado un conjunto de ejemplos.

Se puede partir de la regla vacía e ir eligiendo la mejor condición utilizando heurísticas como medida.

Existen varios algoritmos para representar un árbol y resolverlo;  la mayoría son variaciones de un algoritmo básico que emplea una búsqueda descendente (top-down) y egoísta (greedy) en el espacio de posibles árboles de decisión como lo indica.

El J48 y el ID3 son los más comunes pero una alternativa para mejorar la precisión de la decisión es combinar varios algoritmos.