882 Shares 1767 views

método del vecino más próximo: ejemplo de trabajo

el método del vecino más cercano es el más fácil clasificador métrica que se basa en la evaluación de la similitud de diferentes objetos.

objeto analizado pertenece a la clase a la que pertenecen los sujetos de la muestra de entrenamiento. Vamos a averiguar que es el vecino más cercano. Tratar de entender el asunto complicado, ejemplos de diferentes técnicas.

método de hipótesis

método del vecino más cercano puede ser considerado como el algoritmo más común utilizado para la clasificación. Objeto proceso de clasificación pertenece a la clase y_i, a la que el objeto más cercano aprendizaje muestra x_i.

La especificidad de los métodos de vecinos más próximos

k método del vecino más cercano puede mejorar la precisión de la clasificación. objeto analizado pertenece a la misma clase que la mayor parte de sus vecinos, es decir, k cerca de ella objetos de la x_i muestra analizada. En la solución de problemas con dos clases del número de vecinos será extraño para evitar una situación de ambigüedad, si el mismo número de vecinos pertenecerá a diferentes clases.

La técnica de los vecinos suspendidos

método analizado postgresql-tsvector vecinos más cercanos se utiliza cuando el número de clases por lo menos tres, y no se puede utilizar un número impar. Pero la ambigüedad surge incluso en estos casos. Entonces, el vecino de orden i se pone peso w_i, que disminuye con el rango vecino i. Se refiere a la clase del objeto, lo que tendrá un peso total máximo entre vecinos cercanos.

La hipótesis de compacidad

En el corazón de todos los métodos anteriores es la hipótesis de compacidad. Se sugiere una conexión entre la medida de la similitud de los objetos y su pertenencia a la misma clase. En esta situación, el límite entre los diferentes tipos es una forma sencilla, y crear clases de objetos en el espacio móvil compacto. En estas áreas en el análisis matemático considera que significa un conjunto cerrado y acotado. Esta hipótesis no está relacionado con la percepción cotidiana de la palabra.

La fórmula básica

Examinemos más de vecino más cercano. Si la formación propuesta tipo de muestra "objeto-respuesta» X ^ m = {(x 1, y1) dots, (x_m, YM) }; si una pluralidad de objetos para definir la distancia función rho (x, x '), que está representado en forma de un modelo de similitud adecuada de los objetos mediante el aumento del valor de la función disminuye similitud entre los objetos x, x'.

Para cualquier objeto, u será construir una muestra de entrenamiento objetos x_i con el aumento de las distancias de u:

Rho (u, x_ {1; u}) leq rho (u, x_ {2; u}) leq cdots leq rho (u, x_ {m; u}),

donde x_ {i; u} caracteriza la muestra objeto de aprendizaje, que es i-ésimo objeto de origen vecino u. Tal notación y uso para responder a i-ésimo vecino: y_ {i; u}. Como resultado, nos encontramos con que cualquier objeto u provoca renumeración propia muestra.

Determinación del número k de vecinos

método del vecino más cercano cuando k = 1 es capaz de dar una clasificación errónea, no sólo en los objetos de emisiones, sino también para otras clases que están cerca.

Si tomamos k = m, el algoritmo será tan estable y degenerará en un valor constante. Es por ello que la fiabilidad es importante evitar los índices k extremas.

En la práctica, deslizando el control criterio como el índice óptimo k utiliza.

las emisiones de proyecciones

Los objetos de estudio son en gran medida desigual, pero entre ellos están los que tienen las características de una clase y se conocen como normas. En la proximidad del sujeto al modelo ideal de su alta probabilidad de pertenencia a esta clase.

Cómo rezultativen método de vecinos más próximos? Un ejemplo se puede ver en la base de categorías periféricas y no informativos de objetos. Se supone ambiente denso de los objetos de otros representantes de esta clase. Cuando se quita desde la clasificación de muestreo de la calidad no se verá afectada.

Entrar en un cierto número de muestras podrá ráfagas de ruido que están "en el terreno" de una clase. Extracción de impacto sustancialmente positivo en la calidad de la clasificación.

Si la muestra tomada de los objetos de ruido poco informativos y eliminar, puede contar con unos resultados positivos al mismo tiempo.

El primer método de interpolación de la clasificación del vecino más cercano permite mejorar la calidad, reducir la cantidad de datos almacenados, reducir el tiempo de clasificación, que se gasta en la elección de las siguientes normas.

El uso de muestras ultra-grandes

método del vecino más próximo se basa en el almacenamiento real de los objetos de aprendizaje. Para crear mismas muestras a gran escala que utilizan un problema técnico. El objetivo no es sólo para ahorrar una cantidad significativa de información, sino también en la cantidad mínima de tiempo para tener tiempo para encontrar cualquier objeto u k entre los vecinos más cercanos.

Para hacer frente a esta tarea, se utilizan dos métodos:

  • muestra adelgazada a través de un objetos de descarga no son de datos;
  • uso especial estructura de datos eficaz y códigos para la búsqueda inmediata de los vecinos más cercanos.

Reglas de métodos de selección

La clasificación anterior se consideró. Más cercano método del vecino se utiliza en la solución de problemas prácticos, que se conoce de antemano la distancia función rho (x, x '). En los objetos que describen vectores numéricos utilizan una métrica euclidiana. Esta elección no tiene ninguna justificación especial, sino que implica la medición de todos los signos "en la misma escala." Si este factor no se tiene en cuenta, a continuación, la métrica predominará característica de tener altos valores numéricos.

Si hay una cantidad sustancial de características, el cálculo de la distancia como la suma de las desviaciones sobre los síntomas específicos aparecerá dimensión grave problema.

En espacio dimensional de alta distantes una de otra voluntad todos los objetos. En última instancia, cualquier muestra será al lado del objeto estudiado k vecinos. seleccionado un pequeño número de características informativas para eliminar este problema. Los algoritmos para el cálculo de las estimaciones se basan en la base de diferentes conjuntos de señales, y para cada individuo desarrollar su función de proximidad.

conclusión

Los cálculos matemáticos a menudo implican el uso de una variedad de técnicas que tienen sus propias distintivas características, ventajas y desventajas. Visto el método del vecino más cercano puede resolver un problema muy grave, debido a las características de los objetos matemáticos. El concepto experimental, basado en el método analizado está siendo utilizada activamente en la inteligencia artificial.

En los sistemas expertos es necesario no sólo para clasificar objetos, sino también mostrar al usuario una explicación de la clasificación de que se trate. En este método, una explicación de este fenómeno se expresan en relación con el objeto de una clase particular, así como su ubicación con respecto a la muestra utilizada. especialistas de la industria legales, geólogos, médicos, toman esta lógica "precedente" que utilizan activamente en sus investigaciones.

Con el fin de ser analizados método era el más confiable, eficiente, dando los resultados deseados, se debe tener una cifra mínima k, y al mismo tiempo evitar las emisiones entre los objetos analizados. Es por ello que el uso de estándares y el método de selección, así como las métricas de optimización.