Manhattan mesafesini Öklid mesafesinin tersi olarak ne zaman kullanırsınız?


18

Bir neden kullanacağınızı iyi bir argüman aramaya çalışıyorum Manhattan mesafe üzerinde Öklit mesafesi Machine Learning'de.

Şimdiye kadar iyi bir argümana bulduğum en yakın şey bu MIT dersinde .

36: 15'te slaytlarda aşağıdaki ifadeyi görebilirsiniz:

"Genellikle Öklid metriği kullanın; farklı boyutlar karşılaştırılamazsa Manhattan uygun olabilir. "

Profesör, sürüngen bacaklarının sayısının 0 ila 4 arasında değiştiği için (diğer özellikler ikili, sadece 0 ila 1 arasında değiştiği için) söyledikten kısa bir süre sonra, "bacak sayısı" özelliği çok daha yüksek olacak Euclid mesafesi kullanıldığında ağırlık. Tabii ki, bu gerçekten doğru. Ama Manhattan mesafesini kullanırken de bu problemi yaşar (sadece sorunun biraz azaltılması gerekir, çünkü Öklid mesafesindeki gibi kareyi fark etmiyoruz).

Yukarıdaki sorunu çözmenin daha iyi bir yolu, "bacak sayısı" özelliğini normalleştirmek, böylece değeri her zaman 0 ile 1 arasında olacaktır.

Bu nedenle, sorunu çözmenin daha iyi bir yolu olduğundan, bu durumda Manhattan mesafesini kullanma argümanı, en azından benim görüşüme göre daha güçlü bir noktaya sahip değildi.

Birisi Manhattan'ın Öklid üzerindeki mesafesini neden ve ne zaman kullanacağını gerçekten bilen var mı? Birisi bana Manhattan mesafesini kullanmanın daha iyi sonuçlar vereceği bir örnek verebilir mi?

Yanıtlar:


4

Bu ilginç makaleye göre, Manhattan mesafesi (L1 normu), yüksek boyutlu veriler için Öklid mesafesine (L2 normu) tercih edilebilir:

https://bib.dbvis.de/uploadedFiles/155.pdf

Makalenin yazarları bir adım daha ileri gidip, kümeleme gibi mesafe tabanlı algoritmaların sonuçlarını iyileştirmek için çok yüksek boyutlu veriler için, kesir değeri k olan Lk norm mesafelerinin kullanılmasını önermektedir.


stats.stackexchange.com/a/99191 daha eksiksiz bir yanıt sağlar
mic

3

Vikipedi'den birkaç fikir önerebilirim .

  1. Aykırı değerlere daha az vurgu yapmak istiyorsanız, gradyanın sabit büyüklüğü olduğundan manhattan mesafesi tüm hataları eşit olarak azaltmaya çalışır.
  2. Gürültünüz Laplacian'a dağıtılırsa, MLE manhattan tahminini en aza indirerek bulunur.

3

Scikit-Learn ve TensorFlow ile Uygulamalı Makine Öğreniminde bu sorunla ilgili sezgi olabilecek bir şey buldum

Hem RMSE hem de MAE iki vektör arasındaki mesafeyi ölçmenin yoludur: tahmin vektörü ve hedef değerlerin vektörü. Çeşitli mesafe ölçümleri veya normları mümkündür:

  • Toplam karelerin (RMSE) kökünü hesaplamak Öklid normuna karşılık gelir: aşina olduğunuz mesafe kavramıdır. Buna ℓ2 normu da denir (...)

  • Mutlakların toplamının (MAE) hesaplanması ℓ1 normuna karşılık gelir, (...). Bazen Manhattan normu olarak adlandırılır, çünkü yalnızca dikey şehir blokları boyunca seyahat edebiliyorsanız bir şehirdeki iki nokta arasındaki mesafeyi ölçer.

  • Daha genel olarak, (...) ℓ 0 sadece vektördeki sıfır olmayan elemanların sayısını verir ve ℓ∞ vektördeki maksimum mutlak değeri verir.

  • Norm endeksi ne kadar yüksek olursa, büyük değerlere o kadar fazla odaklanır ve küçük olanları ihmal eder. Bu nedenle RMSE, aykırı değerlere MAE'den daha duyarlıdır. Ancak aykırı değerler katlanarak nadir olduğunda (çan şeklindeki bir eğride olduğu gibi), RMSE çok iyi performans gösterir ve genellikle tercih edilir.


2

Manhattan mesafesinin kullanımı büyük ölçüde veri setinizin kullandığı koordinat sisteminin türüne bağlıdır. Öklid mesafesi iki nokta arasındaki en kısa veya minimum mesafeyi verirken, Manhattan'ın belirli uygulamaları vardır.

Örneğin, bir Satranç veri seti kullanacak olsaydık, Manhattan mesafesinin kullanımı Öklid mesafesinden daha uygundur. Başka bir kullanım, birkaç blok ayrı olan evler arasındaki mesafenin bilinmesi ile ilgilidir.

Ayrıca, giriş değişkenlerinin türü benzer değilse (yaş, cinsiyet, boy, vb.) Manhattan mesafesini dikkate almak isteyebilirsiniz. Boyutsallığın laneti nedeniyle, boyutların sayısı arttıkça Öklid mesafesinin zayıf bir seçenek haline geldiğini biliyoruz.

Özetle: Manhattan mesafesi genellikle sadece noktalar bir ızgara şeklinde düzenlenmişse çalışır ve üzerinde çalıştığımız sorun, noktalar arasındaki mesafeye sadece ızgaralarla birlikte değil, geometrik mesafeye daha fazla öncelik verirse çalışır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.