Todos los animales son iguales, pero algunos animales son más iguales que otros (G.Orwell) .
Una de las mayores deficiencias en la mayoría de los algoritmos de agrupamiento aplicados hoy en día es que todos los puntos del conjunto de datos tienen el mismo poder de influencia en las decisiones. DBSCAN es un algoritmo revolucionario, porque introdujo diferentes categorías de puntos en un grupo: puntos dentro del grupo (puntos centrales), puntos en el borde del grupo (puntos de borde) y ruido (puntos de zona de baja densidad). Esta es una categorización mínima para obtener verdaderos grupos, independientemente de sus diversas formas y distribuciones, respectivamente. Pero DBSCAN no puede agrupar conjuntos de datos con grandes diferencias de densidad.
Examinemos nuevamente esta estructura 2D muy simple: la mezcla de 4 distribuciones normales con un pequeño volumen de ruido.
- ¿Cuál es tu mejor consejo para ser publicado como escritor de ficción?
- ¿Qué fuentes fueron utilizadas por el autor de Hechos de los Apóstoles?
- ¿Quién es el mejor autor indio?
- Gillian Anderson: ¿Hay algún consejo que le darías a los escritores con dificultades?
- Si le preguntara amablemente, ¿cree que John Green me diría de qué trata su próximo libro?
En mi respuesta sobre los errores más comunes, realizada por un aspirante a científico de datos, mostré cuán inadecuados funcionan muchos algoritmos de agrupamiento con este conjunto de datos.
La respuesta de Anatol Gaina a ¿Cuáles son los errores más comunes cometidos por los aspirantes a científicos de datos?
Entonces, ¿por qué la respuesta correcta es 4 grupos con ruido?
Simple, debido a la densidad. Los puntos de la zona de baja densidad no pueden formar un grupo. Los puntos de la zona que se ajustan a una ley de distribución forman un grupo, que se puede dividir en varios.
El mapa de calor y los histogramas 3d nos muestran que solo tenemos 4 picos, correspondientes a la zona de alta densidad. Por lo tanto, tenemos 4 grupos. La densidad relativa es diferente para algunos grupos (diferentes colores de las torres más altas), pero este enfoque maneja la situación. Deberíamos aplicar métodos basados en la densidad de la cuadrícula y trabajar con datos iterativos capa por capa de densidad.
Esto es solo una parte de las ideas que implementé en mi técnica de agrupación, denominada Asociación de disociación de niveles múltiples, que supera las deficiencias de los algoritmos de agrupación aplicados hoy en día. Describí todos los escollos en mi respuesta de Quora sobre las preguntas abiertas en la agrupación aquí: https://www.quora.com/There-are-…