Öklid mesafesi neden yüksek boyutlarda iyi bir ölçüm değildir?


239

'Öklid mesafesinin yüksek boyutlarda iyi bir mesafe olmadığını' okudum. Sanırım bu ifadenin boyutluluk laneti ile bir ilgisi var, ama tam olarak ne? Ayrıca 'yüksek boyutlar' nedir? 100 özelliği olan Öklid mesafesini kullanarak hiyerarşik kümeleme uyguluyorum. Bu ölçümü kullanmak kaç özelliğe kadar 'güvenli'?



5
Bu muhtemelen sizin için çok temel; Öklid metriği konusunda daha yüksek boyutlarda bir dizi blog yazısı yazdım ve bunun en yakın eşleşmeler için vektör uzaylarının aranmasını nasıl etkilediğini yazdım. blogs.msdn.com/b/ericlippert/archive/tags/…
Eric Lippert

1
@ HorstGrünbusch, bazı referanslar için aşağıdaki cevaplara bakın. Mesafelerin varyansı ortalamaya kıyasla küçük olur. Yani bir noktada, eşikleri, ağırlıkları, siparişleri seçmekte zorlanıyorsunuz; ve hatta sayısal hassasiyet problemleri de alabilirsiniz. Fakat eğer verileriniz seyrekse, bu muhtemelen çok daha düşük bir boyutluluğa sahiptir.
Anony-Mousse

3
"yüksek boyutlar" yanıltıcı bir terim gibi görünmektedir - bazı cevaplar 9-12'yi "yüksek boyutlar" olarak ele almaktadır, ancak diğer alanlarda yüksek boyutluluk binlerce veya milyon boyut anlamına gelir (örneğin, sözcük torbalarının vektörleri arasındaki açıların ölçülmesi. her boyut bir sözlükteki bazı kelimelerin sıklığıdır) ve 100 boyut yüksek değil düşük olarak adlandırılır.
Peteris

2
Bu soru gerçekten bazı bağlamlarda yapabilirdi. Ne için iyi değil?
Szabolcs

Yanıtlar:


242

Washington Üniversitesi'ndeki Pedro Domingos'un “ Makine Öğrenimi Hakkında Bilmek Gereken Birkaç Yararlı Şey ” den yüksek boyutlardaki sezgisel olmayan sonuçların büyük bir özeti :

Üç boyutlu bir dünyadan gelen sezgiler, genellikle yüksek boyutlu olanlara uygulanmaz. Yüksek boyutlarda, çok değişkenli bir Gauss dağılımının kütlesinin çoğu ortalamanın yanında değil, etrafındaki giderek daha uzak bir “kabuk” içindedir; ve yüksek boyutlu bir portakalın hacminin çoğu, hamurda değil deridedir. Sabit sayıda örnek yüksek boyutlu bir hiper küpte eşit olarak dağıtılmışsa, bazı boyutlulukların ötesinde, çoğu örnek hiper küpün bir yüzüne en yakın komşularından daha yakındır. Ve bir hiper küpün içine yazarak bir hiper küreyi yaklaşık olarak tahmin edersek, yüksek boyutlarda hiper küpün neredeyse tüm hacmi hiperferin dışındadır. Bu, bir türdeki şekillerin sıklıkla başkalarının şekilleriyle yaklaştığı makine öğrenmesi için kötü bir haberdir.

Makale ayrıca makine öğrenmesi için birçok bilgelik incisi ile doludur.

Makine öğreniminin ötesinde bir başka uygulama, en yakın komşu araştırmasıdır: ilgi gözlemlendiğinde, en yakın komşularını bul (bu, sorgu noktasından en küçük mesafeye sahip noktalar olduğu anlamında). Ancak, yüksek boyutlarda, merak uyandıran bir fenomen ortaya çıkar: en yakın ve en uzak noktalar arasındaki oran 1'e yaklaşır, yani noktalar esasen birbirlerinden eşit derecede uzaklaşır. Bu fenomen, çok çeşitli mesafe ölçümleri için gözlenebilir, ancak Öklid metriği için Manhattan uzaklık ölçüsünden daha belirgindir. En yakın komşu araştırmasının temeli, "daha yakın" noktaların "daha uzak" noktalardan daha alakalı olduğudur, ancak bütün noktalar esasen birbirinden eşit olarak uzaksa, ayrım anlamsızdır.

Charu C. Aggarwal, Alexander Hinneburg, Daniel A. Keim, " Uzaklık Ölçütlerinin Yüksek Boyutlu Uzayda Şaşırtıcı Davranışı Üzerine ":

[Kevin Beyer, Jonathan Goldstein, Raghu Ramakrishnan, Uri Şaftı, " Ne Zaman En Yakın Komşu " Ne Zaman Anlamlı Olmalı? " yüksek boyutlu uzaydaki belirli bir hedefe, çok çeşitli veri dağılımları ve mesafe fonksiyonları için neredeyse 1'dir. Böyle bir durumda, en yakın komşu problemi tanımlanmaz, çünkü farklı veri noktalarına mesafeler arasındaki kontrast mevcut değildir. Bu gibi durumlarda, yakınlık kavramı bile niteliksel bir bakış açısıyla anlamlı olmayabilir: yüksek boyutlu algoritmaların performansının düşmesinden bile daha temel olan bir problem.

... Birçok yüksek boyutlu indeksleme yapısı ve algoritması, [E] uclidean uzaklık ölçüsünü iki veya üç boyutlu uzaysal uygulamalarda geleneksel kullanımının doğal bir uzantısı olarak kullanır. ... Bu yazıda, normunun değerine bağımlılığını analiz etmede bazı şaşırtıcı teorik ve deneysel sonuçlar . Daha spesifik olarak, mesafelerin bir sorgu noktasına göreceli karşıtlıklarının, kullanılan ölçüsüne büyük ölçüde bağlı olduğunu göstermektedir . Bu, normunun anlamlılığının, daha yüksek değerleri için artan boyutluluk içinde daha da kötüleştiğine dair önemli kanıtlar sağlar . Böylece, boyutluluk için sabit (yüksek) bir değere sahip verilen bir problem içinLkkLkLkkddaha düşük değerlerinin kullanılması tercih edilebilir . Bu, mesafe metriğinin (Manhattan mesafe metriği), yüksek boyutlu uygulamalar için en çok tercih edilen, ardından Öklid metriğini ( ) ifade eder. ...kL1L2

"Şaşırtıcı Davranış" makalesinin yazarları ile normlarını kullanmayı . Bu "kesirli normların" en uzak ve en yakın noktalar arasındaki kontrastı artırma özelliğini gösterdiğini gösteren bazı sonuçlar ortaya koyuyorlar. Bu, bazı bağlamlarda faydalı olabilir, ancak bir uyarı vardır: bu "kesirli normlar" uygun mesafe ölçütleri değildir, çünkü üçgen eşitsizliğini ihlal ederler. Üçgensel eşitsizlik araştırmanızda sahip olması gereken önemli bir kalite ise, kesirli ölçümler çok yararlı olmayacaktır.Lkk<1


7
bu referans harika
Antoine

1
Bir kez daha
Richard Hardy

113

Euclid tarafından incelenen iki boyutlu ve üç boyutlu dünyalarda iyi işleyen Öklid mesafesi kavramı , aynı zamanda iki ve üçten ekstrapolasyon olan (belki sadece benim ) geometrik sezgimize aykırı olan bazı özelliklere sahiptir. boyutları.

noktasında kare köşeleri düşünün . Merkezlenmiş dört birim yarıçaplı daire çizin . Bunlar, kareyi her iki köşenin iki noktaya değdiği ve her dairenin iki komşusuna dokunduğu şekilde kareyi doldurur. Örneğin, daire merkezli 4×4(±2,±2)(±1,±1)(1,1)(2,1)(1,2)(1,0)(0,1)r2=21(±r2/2,±r2/2)(r2,0)(2,0,0)(1,0,0)(1,1)(1,1)

4×4×4(±2,±2,±2)8(±1,±1,±1)r3=31<1(r3,0,0)(2,0,0)

n42n(±1,±1,,±1)

(1)rn=n1
(rn,0,0,,0)(1)n=4rn=1n4n>9(1)rn>2(rn,0,0,,0)4 hiperküpü "dolduran" (yarıçapı doldurma anlamında) "yarıçaplı hiper küre tarafından" tamamen sarılı olmasına rağmen ". Merkez küre, yüksek boyutlu uzayda hiper küpün dışına "çıkıntı yapar". Bunu çok sezgisel buluyorum çünkü Öklid uzaklığı kavramını zihinsel çevirilerim, aşina olduğum 2 uzay ve 3 uzaydan geliştirdiğim geometrik sezgiyi kullanarak daha yüksek boyutlara çeviriyor. yüksek boyutlu uzay.

n9



9
@ stackoverflowuser2010: Bu cevap tamamen anlaşılmazsa, asıl soruyu ele alıp atmayacağını nasıl anlarsınız? Her şeyi elden çıkarmak yerine, belirsiz bulduğunuz noktaların açıklanmasını istemek daha yapıcı bir yaklaşım olabilir.
Scortchi

8
@ stackoverflowuser2010 Bu cevabın düzinelerce fazlası oyu olduğu için, birçok insanın hem makul derecede anlaşılır olduğunu hem de soruyu kabul edilebilir bir şekilde yanıtladığını düşünüyor. Belki daha yapıcı bir eleştiriyi deneyebilirsin - özellikle bu cevabın nasıl geliştirileceğini düşünüyorsun? İçermemesi gereken neyi içermelidir?
Glen_b

1
@Scortchi: Belki de çok bekliyorum, ama topluluğa yardım edebilecek bu soruya açık bir cevap "Öklid mesafesi iyi bir ölçü değil çünkü <X>" olur.
stackoverflowuser2010

7
@ stackoverflow2010 Böyle bir "iyi" cevap görmeyeceksiniz çünkü <işler if-then ifadelerinden çok daha karmaşık>. Kolay bir cevap istiyorsanız, büyük olasılıkla yanlıştır. Lanet olası Brexit yalancıları gibi, kolay cevaplar (yanlış, ama kolay) sunmakta başarılı oldular.
Anony-Mousse

42

Bu sinyal-gürültü meselesidir . Öklid mesafesi, kare terimler nedeniyle gürültüye karşı hassastır; ancak Manhattan mesafesi ve "kesirli" (metrik olmayan) mesafeler bile acı çekiyor.

Bu makaledeki çalışmaları çok aydınlatıcı buldum:

Zimek, A., Schubert, E. ve Kriegel, H.-P. (2012),
Yüksek boyutlu sayısal verilerde denetimsiz dışlayıcı tespiti üzerine bir araştırma.
İstatistiksel Analiz Veri Madenciliği, 5: 363–387. doi: 10.1002 / sam.11161

Örneğin, Agatwal, Hinneburg ve @Pat tarafından belirtilen Yüksek Boyutlu Uzayda Uzaklık Metriklerinin Şaşırtıcı Davranışı Üzerine Yapılan Gözlemleri Yeniden İnceliyor. Ancak, sentetik deneylerin nasıl yanıltıcı olduğunu ve aslında yüksek boyutlu verilerin daha kolay olabileceğini gösteriyor . Çok fazla (fazlalık) sinyaliniz varsa ve yeni boyutlar çok az gürültü ekler.

x,yx,y,x,y,x,y,x,y,...,x,y

Sonuçta, yine de verilerinize bağlı. Yararsız nitelikler çok varsa, Öklid uzaklığı işe yaramaz hale gelir. Verilerinizi düşük boyutlu bir veri alanına kolayca gömebiliyorsanız, Öklid mesafesi de tam boyutlu alanda çalışmalıdır. Özellikle , metinden gelen TF vektörleri gibi seyrek veriler için, verilerin vektör uzay modelinin önerdiğinden daha düşük bir boyutluluğa sahip olduğu görülmektedir.

Bazı insanlar, yüksek boyutlu verilerde kosinüs mesafesinin Öklid'den daha iyi olduğuna inanmaktadır. Ben öyle düşünmüyorum: kosinüs mesafe ve Öklit mesafesi vardır yakından ilişkili; bu yüzden aynı sorunlardan acı çekmelerini beklemeliyiz. Bununla birlikte, kosininin popüler olduğu metinsel veriler genellikle seyrektir ve kosinüs, seyrek olan verilere göre daha hızlıdır - bu nedenle seyrek veriler için, kosinüs kullanmak için iyi nedenler vardır; ve veri seyrek olduğundan, içsel boyutluluk vektör uzay boyutundan çok daha azdır.

Ayrıca daha önceki bir soruya verdiğim bu cevaba bakınız: https://stats.stackexchange.com/a/29647/7828


[1,1]nn

Ve bunun sonucu ne olurdu? [-1; 1] ^ 'de Cosine kullanılmamalıdır çünkü 0'da tanımlanmaz, ortalama bize lanet hakkında hiçbir şey söylemez ve tekdüze veriler gerçekçi değildir.
Anony-Mousse

Şimdiye kadar denemedim, ama açıların gerçek veriler için benzer olduğunu düşünüyorum. 0'da tanımlanmadığı gerçeği, yalnızca tek bir nokta olduğu için önemli olmamalıdır. Benim sonuç sizinkine benzer: Kosinüs mesafe yüksek boyutlu alanlar için çok uygundur değil (olabileceğini ifade etki hala çalışıyor idi)
Martin Thoma

Daha gerçekçi bir senaryo, negatif olmayan birime dair alanlara işaret eder. Ve ilgi ölçüsü, büyük olasılıkla değil, varyans olacaktır.
Anony-Mousse

Negatif olmayan birim küreye ulaşmak için sadece +1 ekleyip 2'ye bölmek zorundasınız ...
Martin Thoma

34

Başlamak için en iyi yer Muhtemelen Aggarwal, Hinneburg ve Keim'in Yüksek Boyutlu Uzayda Uzaklık Metriklerinin Şaşırtıcı Davranışını okumaktır. Burada şu anda çalışan bir bağlantı var (pdf) , ancak bu koparsa çok güçlü olmalı. Kısacası, boyutların sayısı arttıkça, kümedeki bir nokta ile en yakın komşusu arasındaki ve o nokta ile en uzaktaki komşusu arasındaki nispi öklid mesafesi bazı açık olmayan şekillerde değişir. Bunun sonuçları kötü bir şekilde etkileyip etkilemeyeceği, elde etmeye çalıştığınız şeye ve verilerinizin nasıl olduğuna bağlı olarak büyük ölçüde değişir.


6

Öklid mesafesi, nadiren Makine Öğrenimi'nde seçilebilecek bir mesafedir ve bu, daha yüksek boyutlarda daha belirgin hale gelir. Bunun nedeni, Makine Öğreniminde çoğu zaman bir Öklid Metrik Uzay'la değil, Olasılıklı bir Metrik Uzay'la uğraşıyor olmanızdır ve bu nedenle olasılık ve bilgi teorik mesafe fonksiyonlarını, örneğin entropi tabanlı olanları kullanmanız gerekir.

Öklid uzayı sevenler, kavramlaştırması kolaydır, ayrıca doğrusal cebir uygulayabileceğimiz anlamına gelir. Kullback-Leibler Divergence deyince mesafeleri tanımlarsak, görselleştirmek ve matematiksel olarak çalışmak daha zordur.


2
KL Divergence metrik olmadığı için problemli olabilir. :-)
agarie

2
Simetriye ihtiyaç duyulursa, belirtildiği gibi KL cinsinden tanımlanmış Karşılıklı Bilgileri kullanabilirsiniz.
samthebest

3

Bir benzetme olarak, başlangıç ​​noktasında ortalanmış bir daire hayal edin. Puanlar eşit olarak dağıtılır. Rastgele seçilen bir noktanın (x1, x2) olduğunu varsayalım. Öklid'den kökene olan uzaklık ((x1) ^ 2 + (x2) ^ 2) ^ 0.5

Şimdi, bir küreye eşit dağılmış noktaları hayal edin. Aynı nokta (x1, x2) şimdi muhtemel olacaktır (x1, x2, x3). Eşit dağılımda, yalnızca birkaç noktanın koordinatlardan bir tanesini sıfır olarak aldığından, rastgele seçilen eşit dağıtılmış noktamız için [x3! = 0] varsayıyoruz. Bu nedenle rastgele noktamız büyük olasılıkla (x1, x2, x3) ve değil (x1, x2, 0).

Bunun etkisi şudur: herhangi bir rastgele nokta şu anda 3B kürenin kaynağından ((x1) ^ 2 + (x2) ^ 2 + (x3) ^ 2) ^ 0.5 aralığındadır. Bu mesafe, 2 boyutlu dairenin kökeni yakınına rastgele bir nokta için daha büyüktür. Bu sorun daha yüksek boyutlarda daha da kötüye gidiyor, bu yüzden daha yüksek boyutlarla çalışmak için Öklid boyutlarından başka ölçümleri seçiyoruz.

EDIT: Şimdi hatırladığım bir söz var: “Yüksek boyutlu bir portakalın kütlesinin çoğu, hamurda değil, ciltte”, yani daha yüksek boyutlarda eşit dağılmış noktaların sınırın daha “yakınında” (Öklid mesafesi) olduğu anlamına gelir. kökenli.

Yan not: Öklid mesafesi, gerçek olmayan problemler için çok kötü değildir, çünkü 'tekdüzelikten arındı', çünkü gerçek veriler için, verilerinizin muhtemelen daha yüksek boyutlu uzayda eşit dağılmayacağını belirtir. alanın küçük bir kümelenmiş alt kümesini işgal eder. Bu sezgisel olarak mantıklı geliyor: yükseklik, ağırlık, vb. Gibi insanlar hakkında 100 nicelik ölçüyorsanız, boyut alanı üzerindeki eşit bir dağılım sadece mantıklı değil, örneğin (yükseklik = 65 inç, ağırlık = 150 lbs, avg_calorie_intake) = 4000) bu gerçek dünyada mümkün değil.


Gelecekteki okuyucular “turuncu / kağıt hamuru” fiyat teklifi veya “tek biçimlilik olmayan kutsama” lafı ile ilgileniyorlarsa, ikisi de bu konuda cevabımla bağlantılı olan “Makine öğrenmesi hakkında öğrenmesi gereken birkaç yararlı şey” içinde görünür. Konu.
Sycorax

1

Bu sorunun bir başka yönü de şudur:

Çok sık (makine öğrenmesi / istatistiksel) problemlerin yüksek boyutları aşırı kısıtlı özelliklerin bir sonucudur.

Yani, boyutlar bağımsız DEĞİLDİR (veya ilişkisiz), ancak Öklid metrikleri (en azından) ilişkisiz olduğunu varsayar ve bu nedenle en iyi sonuçları vermeyebilir

Bu nedenle sorunuzu yanıtlamak için "yüksek boyutlar" sayısı kaç tane özelliklerin birbirine bağlı ya da fazla ya da fazla kısıtlı olduğu ile ilgilidir.

Ek olarak: Csiszar (ve ark.) Tarafından , Öklid metriklerinin, özellikler belirli biçimlerde olduğunda çıkarım için "doğal" adaylar olduğu teoremidir .


3
Öklid metrikleri "korelasyon olmadığını" varsaymaz. Öklid mesafeleri, ilişkisiz değişkenlerle yüksek boyutlarda daha kötü çalışır. En uç durumu göz önünde bulundurun: hepsi mükemmel bir şekilde ilişkilendirilen çok sayıda boyutunuz var, r = 1, şimdi verileriniz aslında tek boyutlu ve Öklid mesafesi w / tek boyutlu veri olarak çalışıyor.
gung

Hayır, öyle düşünmüyorum, tanım gereği Öklid mesafesi, korele edilmemiş verileri varsayar (correllation matrisli genelleştirilmiş Öklid uzaklığı kullanıyorsanız hariç)
Nikos M.

Toplam korelasyonlu özellikler (r = 1) önemsiz bir örnek ve "önemsiz korelasyon matrisine" eşdeğerdir, ancak belki de hatalıyım
Nikos M.

@gung Öklid kaybını, Gaussianların sabit birim izotropik varyans matrisi ile çapraz entropi kaybı olarak yorumlayabilirsiniz. Bunun iyi bir nokta olduğunu düşünüyorum, ancak daha iyi açıklanabilir.
Neil G,

1
(0,0)(1,1)dE=j(x2jx1j)22X1=X212cor(X1,X2)=02

0

Bu yazıda çok "Geliştirilmiş sqrt-kosinüs benzerliği ölçümü" ziyaret yardımcı olabilir https://journalofbigdata.springeropen.com/articles/10.1186/s40537-017-0083-6 Öklit mesafesi yüksek boyutsal iyi bir metrik değil neden kâğıt açıklıyor veri ve yüksek boyutlu verilerde Öklid mesafesi için en iyi yer değiştirme nedir? Öklid mesafesi L2 normudur ve Lk normunda k değerini düşürerek yüksek boyutlu verideki mesafe problemini azaltabiliriz. Referansları bu yazıda da bulabilirsiniz.


2
Siteye Hoşgeldiniz. Sorular ve cevaplar şeklinde yüksek kalitede istatistiksel bilgilerin kalıcı bir deposunu oluşturmaya çalışıyoruz. Bu nedenle, linkrot nedeniyle sadece link cevaplarına karşı temkinliyiz. Öldüğü takdirde linkte yer alan bilgilerin bir özetini ve bir özetini gönderebilir misiniz?
gung
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.