9 medidas de distancia en la ciencia de datos


Muchos algoritmos, supervisados ​​o no supervisados, utilizan medidas de distancia. Estas medidas, como la distancia euclidiana o la similitud del coseno, a menudo se pueden encontrar en algoritmos como k-NN, UMAP, HDBSCAN, etc.
Comprender el campo de las medidas de distancia es más importante de lo que se imagina. Tome k-NN, por ejemplo, una técnica que se usa a menudo para el aprendizaje supervisado. De forma predeterminada, a menudo utiliza la distancia euclidiana. Por sí solo, una gran medida de distancia.

Sin embargo, ¿qué pasa si sus datos son muy dimensionales? ¿Funcionaría entonces la distancia euclidiana? ¿O qué pasa si sus datos consisten en información geoespacial? ¡Quizás la distancia entre líneas sería una mejor alternativa!
Saber cuándo usar qué medida de distancia puede ayudarlo a pasar de un clasificador deficiente a un modelo preciso.
En este artículo, analizaremos muchas medidas de distancia y exploraremos cómo y cuándo se pueden usar mejor. Lo más importante es que hablaré sobre sus desventajas para que pueda reconocer cuándo evitar ciertas medidas.
NOTA: Para la mayoría de las medidas de distancia, los artículos largos y elaborados podrían y se han escrito sobre sus casos de uso, ventajas y desventajas. Intentaré cubrir tanto como sea posible, ¡pero es posible que me quede corto! Por lo tanto, considere este artículo como una descripción general global de estas medidas.

1. Distancia euclidiana

Comenzamos con la medida de distancia más común, a saber, la distancia euclidiana. Es una medida de distancia que se puede explicar mejor como la longitud de un segmento que conecta dos puntos.
La fórmula es bastante sencilla ya que la distancia se calcula a partir de las coordenadas cartesianas de los puntos utilizando el teorema de Pitágoras.

Desventajas: aunque es una medida de distancia común, la distancia euclidiana no es una variante de escala, lo que significa que las distancias calculadas pueden estar sesgadas según las unidades de las características. Normalmente, es necesario normalizar los datos antes de utilizar esta medida de distancia.
Además, a medida que aumenta la dimensionalidad de sus datos, la distancia euclidiana se vuelve menos útil. Esto tiene que ver con la maldición de la dimensionalidad que se relaciona con la noción de que el espacio de dimensiones superiores no actúa como lo esperaríamos, intuitivamente, del espacio bidimensional o tridimensional. Para obtener un buen resumen, consulte esta publicación.

Casos de uso: la distancia euclidiana funciona muy bien cuando tiene datos de baja dimensión y es importante medir la magnitud de los vectores. Los métodos como kNN y HDBSCAN muestran excelentes resultados listos para usar si se usa la distancia euclidiana en datos de baja dimensión.
Aunque se han desarrollado muchas otras medidas para tener en cuenta las desventajas de la distancia euclidiana, sigue siendo una de las medidas de distancia más utilizadas por buenas razones. Es increíblemente intuitivo de usar, fácil de implementar y muestra excelentes resultados en muchos casos de uso.

2. Similitud de coseno

La similitud de coseno se ha utilizado a menudo como una forma de contrarrestar el problema de la distancia euclidiana con alta dimensionalidad. La similitud del coseno es simplemente el coseno del ángulo entre dos vectores. También tiene el mismo producto interno de los vectores si se normalizaran para que ambos tuvieran longitud uno.
Dos vectores con exactamente la misma orientación tienen una similitud de coseno de 1, mientras que dos vectores diametralmente opuestos entre sí tienen una similitud de -1. Tenga en cuenta que su magnitud no es importante ya que es una medida de orientación.

Desventajas: Una de las principales desventajas de la similitud de coseno es que no se tiene en cuenta la magnitud de los vectores, solo su dirección. En la práctica, esto significa que las diferencias de valores no se tienen en cuenta por completo. Si toma un sistema de recomendación, por ejemplo, entonces la similitud de coseno no tiene en cuenta la diferencia en la escala de calificación entre diferentes usuarios.

Casos de uso: usamos la similitud de coseno a menudo cuando tenemos datos de alta dimensión y cuando la magnitud de los vectores no es importante. Para los análisis de texto, esta medida se usa con bastante frecuencia cuando los datos están representados por recuentos de palabras. Por ejemplo, cuando una palabra aparece con más frecuencia en un documento que en otro, esto no significa necesariamente que un documento esté más relacionado con esa palabra. Podría darse el caso de que los documentos tengan longitudes desiguales y la magnitud del recuento sea de menor importancia. Entonces, podemos usar mejor la similitud de coseno que ignora la magnitud.

3. Distancia de Hamming

La distancia de Hamming es el número de valores que son diferentes entre dos vectores. Normalmente se utiliza para comparar dos cadenas binarias de igual longitud. También se puede utilizar para cadenas para comparar qué tan similares son entre sí calculando la cantidad de caracteres que son diferentes entre sí.

Desventajas : Como era de esperar, la distancia de martillado es difícil de usar cuando dos vectores no tienen la misma longitud. Querría comparar vectores de la misma longitud entre sí para comprender qué posiciones no coinciden.
Además, no tiene en cuenta el valor real siempre que sean diferentes o iguales. Por lo tanto, no se recomienda utilizar esta medida de distancia cuando la magnitud es una medida importante.

Casos de uso: los casos de uso típicos incluyen la corrección / detección de errores cuando los datos se transmiten a través de redes informáticas. Puede usarse para determinar el número de bits distorsionados en una palabra binaria como una forma de estimar el error.
Además, también puede utilizar la distancia de Hamming para medir la distancia entre variables categóricas.

4. Distancia de Manhattan

La distancia de Manhattan, a menudo llamada distancia de taxi o distancia de bloque de ciudad, calcula la distancia entre vectores de valor real. Imagina vectores que describen objetos en una cuadrícula uniforme, como un tablero de ajedrez. La distancia de Manhattan se refiere a la distancia entre dos vectores si solo pudieran moverse en ángulos rectos. No hay ningún movimiento diagonal involucrado en el cálculo de la distancia.

Desventajas
Aunque la distancia de Manhattan parece funcionar bien para datos de alta dimensión, es una medida algo menos intuitiva que la distancia euclidiana, especialmente cuando se usa en datos de alta dimensión.
Además, es más probable que dé un valor de distancia más alto que la distancia euclidiana, ya que no es el camino más corto posible. Esto no necesariamente genera problemas, pero es algo que debe tener en cuenta.

Casos de uso
Cuando su conjunto de datos tiene atributos discretos y / o binarios, Manhattan parece funcionar bastante bien ya que toma en cuenta las rutas que de manera realista se podrían tomar dentro de los valores de esos atributos. Tomemos la distancia euclidiana, por ejemplo, crearía una línea recta entre dos vectores cuando en realidad esto podría no ser posible.

5. Distancia de Chebyshev

La distancia de Chebyshev se define como la mayor diferencia entre dos vectores a lo largo de cualquier dimensión de coordenadas. En otras palabras, es simplemente la distancia máxima a lo largo de un eje. Debido a su naturaleza, a menudo se la conoce como distancia del tablero de ajedrez, ya que el número mínimo de movimientos que necesita un rey para ir de una casilla a otra es igual a la distancia de Chebyshev.

Desventajas
Chebyshev se usa generalmente en casos de uso muy específicos, lo que dificulta su uso como una métrica de distancia de uso general, como la distancia euclidiana o la similitud del coseno. Por esa razón, se sugiere usarlo solo cuando esté absolutamente seguro de que se adapta a su caso de uso.

Casos de uso
Como se mencionó anteriormente, la distancia de Chebyshev se puede usar para extraer el número mínimo de movimientos necesarios para ir de un cuadrado a otro. Además, puede ser una medida útil en juegos que permiten un movimiento de 8 direcciones sin restricciones.
En la práctica, la distancia de Chebyshev se utiliza a menudo en la logística del almacén, ya que se parece mucho al tiempo que tarda una grúa puente en mover un objeto.

6. Minkowski

La distancia de Minkowski es una medida un poco más compleja que la mayoría. Es una métrica utilizada en el espacio vectorial normado (espacio real n-dimensional), lo que significa que se puede utilizar en un espacio donde las distancias se pueden representar como un vector que tiene una longitud.

Esta medida tiene tres requisitos:

– Vector cero: el vector cero tiene una longitud cero, mientras que todos los demás vectores tienen una longitud positiva. Por ejemplo, si viajamos de un lugar a otro, esa distancia siempre es positiva. Sin embargo, si viajamos de un lugar a sí mismo, esa distancia es cero.

– Factor escalar: cuando multiplica el vector con un número positivo, su longitud cambia manteniendo su dirección. Por ejemplo, si recorremos una cierta distancia en una dirección y agregamos la misma distancia, la dirección no cambia.

– Desigualdad de triángulo: la distancia más corta entre dos puntos es una línea recta.

Desventajas
Minkowski tiene las mismas desventajas que las medidas de distancia que representan, por lo que una buena comprensión de métricas como la distancia de Manhattan, Euclidiana y Chebyshev es extremadamente importante.
Además, el parámetro p en realidad puede ser problemático para trabajar, ya que encontrar el valor correcto puede ser bastante ineficiente desde el punto de vista computacional dependiendo de su caso de uso.

Casos de uso
La ventaja de p es la posibilidad de iterar sobre él y encontrar la medida de distancia que funcione mejor para su caso de uso. Le permite una gran cantidad de flexibilidad sobre su métrica de distancia, lo que puede ser un gran beneficio si está familiarizado con py muchas medidas de distancia.

7. Índice Jaccard

El índice de Jaccard (o Intersección sobre Unión) es una métrica que se utiliza para calcular la similitud y diversidad de conjuntos de muestras. Es el tamaño de la intersección dividido por el tamaño de la unión de los conjuntos de muestras.
En la práctica, es el número total de entidades similares entre conjuntos dividido por el número total de entidades. Por ejemplo, si dos conjuntos tienen 1 entidad en común y hay 5 entidades diferentes en total, entonces el índice de Jaccard sería 1/5 = 0,2.

Desventajas
Una de las principales desventajas del índice Jaccard es que está muy influenciado por el tamaño de los datos. Los grandes conjuntos de datos pueden tener un gran impacto en el índice, ya que podrían aumentar significativamente la unión mientras se mantiene similar la intersección.

Casos de uso
El índice Jaccard se utiliza a menudo en aplicaciones donde se utilizan datos binarios o binarizados. Cuando tiene un modelo de aprendizaje profundo que predice segmentos de una imagen, por ejemplo, un automóvil, el índice de Jaccard se puede usar para calcular la precisión del segmento predicho con etiquetas verdaderas.
De manera similar, se puede usar en el análisis de similitud de texto para medir cuánta superposición de palabras entre documentos existe. Por tanto, se puede utilizar para comparar conjuntos de patrones.

8. Haversine

La distancia de Haversine es la distancia entre dos puntos en una esfera dadas sus longitudes y latitudes. Es muy similar a la distancia euclidiana en que calcula la línea más corta entre dos puntos. La principal diferencia es que no es posible una línea recta, ya que el supuesto aquí es que los dos puntos están en una esfera.

Desventajas
Una desventaja de esta medida de distancia es que se supone que los puntos se encuentran en una esfera. En la práctica, esto rara vez ocurre ya que, por ejemplo, la tierra no es perfectamente redonda, lo que podría dificultar el cálculo en ciertos casos. En cambio, sería interesante mirar hacia la distancia de Vincenty que asume un elipsoide en su lugar.

Casos de uso
Como era de esperar, la distancia de Haversine se utiliza a menudo en la navegación. Por ejemplo, puede usarlo para calcular la distancia entre dos países cuando vuela entre ellos. Tenga en cuenta que es mucho menos adecuado si las distancias por sí mismas ya no son tan grandes. La curvatura no tendrá un impacto tan grande.

9. Índice de Sørensen-Dice

El índice de Sørensen-Dice es muy similar al índice de Jaccard en el sentido de que mide la similitud y diversidad de conjuntos de muestras. Aunque se calculan de manera similar, el índice de Sørensen-Dice es un poco más intuitivo porque se puede ver como el porcentaje de superposición entre dos conjuntos, que es un valor entre 0 y 1.

Desventajas
Al igual que el índice de Jaccard, ambos exageran la importancia de los conjuntos con pocos o ningún conjunto positivo de verdad fundamental. Como resultado, podría dominar la puntuación media obtenida en varios conjuntos. Pesa cada elemento de forma inversamente proporcional al tamaño del conjunto relevante en lugar de tratarlos por igual.

Casos de
uso Los casos de uso son similares, si no iguales, al índice Jaccard. Lo encontrará normalmente utilizado en tareas de segmentación de imágenes o análisis de similitud de texto.

NOTA: Hay muchas más medidas de distancia que las 9 mencionadas aquí. Si está buscando métricas más interesantes, le sugiero que busque en una de las siguientes: Mahalanobis, Canberra, Braycurtis y KL-divergence.

Fuente: Maarten Grootendorst.