Clasificadores Duros vs. Clasificadores Blandos

febrero 12, 2025

La clasificación basada en márgenes ha sido popular tanto en el aprendizaje automático como en la estadística para problemas de clasificación. Entre la multitud de clasificadores, algunos son clasificadores duros mientras que otros son clasificadores blandos. Los clasificadores blandos estiman explícitamente la probabilidad condicional de la clase y luego realizan la clasificación basándose en la probabilidad estimada. Por el contrario, los clasificadores duros se dirigen directamente a la frontera de decisión de clasificación sin producir estimaciones de probabilidad. Estos dos tipos de clasificadores se basan en filosofías diferentes, y cada uno tiene sus propias ventajas.

La clasificación es una herramienta estadística muy útil para extraer información de los datos. Como técnica de aprendizaje supervisado, el objetivo de la clasificación es construir una regla de clasificación basada en un conjunto de entrenamiento, donde se proporcionan tanto las variables explicativas como las etiquetas de clase. Una vez obtenida, la regla de clasificación puede utilizarse para predecir la clase de nuevos objetos para los que se dispone de variables explicativas.

Existe una gran cantidad de literatura sobre diferentes métodos de clasificación, desde métodos muy clásicos como el análisis discriminante lineal de Fisher (LDA) y la regresión logística, hasta métodos recientes basados en el aprendizaje automático como las Máquinas de Vectores de Soporte (SVM) y el Boosting. Entre los diferentes métodos de clasificación, existen dos grupos principales de métodos: la clasificación blanda y la dura. El concepto de clasificación blanda y dura es similar a la definición en Wahba (1998) y Wahba (2002). Específicamente, una regla de clasificación blanda generalmente estima explícitamente la probabilidad condicional de la clase y luego hace una predicción de clase basada en la probabilidad estimada más alta. Por el contrario, la clasificación dura omite el requisito de estimar la probabilidad de clase y estima directamente la frontera de clasificación. Los clasificadores blandos típicos incluyen algunos métodos tradicionales basados en la probabilidad de distribución como LDA y la regresión logística. Por otro lado, algunos métodos basados en márgenes como SVM, que generalmente no tienen supuestos de distribución, pertenecen al grupo de métodos de clasificación dura.

Para una tarea de clasificación específica, una pregunta natural que surge es ¿qué tipo de clasificador se debe utilizar? Aunque existe una gran cantidad de clasificadores disponibles, comúnmente, no existe un método que funcione mejor para todos los problemas. La elección del clasificador realmente depende de la naturaleza del conjunto de datos y del objetivo principal del aprendizaje. Wahba (2002) proporcionó algunas ideas sobre la clasificación blanda versus la dura. En particular, demostró que tanto la regresión logística penalizada (PLR) como las SVM pueden formularse como problemas de optimización en un Espacio de Hilbert de Núcleo Reproductor (RKHS). Sin embargo, la elección entre PLR y SVM para muchos problemas prácticos no es trivial. Los rápidos avances recientes en el análisis de datos estadísticos de alta dimensión también arrojan luz sobre este tema. Con la gran cantidad de datos de alta dimensión y tamaño de muestra bajo (HDLSS) disponibles, las técnicas estadísticas efectivas para analizar datos HDLSS se vuelven más urgentes. Las técnicas tradicionales como LDA ni siquiera se pueden calcular directamente cuando la dimensión es mayor que el tamaño de la muestra. Se requiere alguna transformación o reducción de dimensionalidad para aplicar LDA. Los métodos basados en márgenes como SVM ofrecen una perspectiva completamente diferente a los métodos basados en la probabilidad. Por ejemplo, SVM no tiene ningún supuesto de distribución y solo se enfoca en la frontera de decisión. Se puede implementar de manera efectiva para datos HDLSS y ha logrado un gran éxito en muchas aplicaciones. Recientemente, Marron et al. (2007) señalaron que SVM tiene un fenómeno de "amontonamiento de datos" en la configuración HDLSS debido a su pérdida de bisagra no diferenciable. Específicamente, cuando proyectamos los datos de entrenamiento sobre el vector normal del hiperplano de separación para SVM lineal en problemas de alta dimensión, muchas proyecciones son idénticas. Propusieron una variante de SVM, a saber, el análisis discriminante ponderado por distancia (DWD), que no tiene el problema de amontonamiento de datos.

Entre los dos tipos de clasificadores, la clasificación blanda proporciona más información que la clasificación dura y, por lo tanto, es deseable en ciertas situaciones donde la información probabilística es útil. Sin embargo, si la función de probabilidad de clase es difícil de estimar en algunos problemas complejos, entonces la clasificación dura puede producir clasificadores más precisos apuntando solo a la frontera de clasificación. En la práctica, es difícil elegir entre un clasificador duro y un clasificador blando, y por lo tanto, sería ideal conectarlos ya que cada uno tiene sus propias fortalezas.

Los clasificadores blandos tienden a funcionar mejor cuando la función de probabilidad de clase condicional subyacente es relativamente suave; o cuando el nivel de señal de clase es relativamente débil. Por el contrario, los clasificadores duros tienden a funcionar mejor cuando la función de probabilidad de clase condicional subyacente es relativamente no suave; o cuando las dos clases cercanas son bien separables, es decir, el nivel de señal de clase es relativamente fuerte; o cuando la dimensión es relativamente grande en comparación con el tamaño de la muestra.

Leave A Comment

Create your account