“En Yakın Komşu” bugün ne zaman anlamlı?

1999 yılında Beyer ve ark. sorulduğunda, ne zaman "Yakın Komşu" anlamlıdır?

1999'dan bu yana mesafe düzlüğünün NN araştırması üzerindeki etkisini analiz etmenin ve görselleştirmenin daha iyi yolları var mı?

[Belirli bir] veri kümesi 1-NN problemine anlamlı cevaplar veriyor mu? 10-NN sorunu mu? 100-NN sorunu mu?

Uzmanlar bugün bu soruya nasıl yaklaşırsınız?

Düzenlemeler Pazartesi 24 Oca:

"Artan boyutla uzaklık düzlüğü" için daha kısa bir isim olarak "mesafe beyazlığı" ne dersiniz?

"Mesafe beyazlığı" na bakmanın kolay bir yolu 2-NN çalıştırmak ve en yakın komşu ve en yakın ikinci komşulara mesafeleri çizmektir. Aşağıdaki grafik , Monte Carlo'nun çeşitli kümeleri ve boyutları için dist ₁ ve dist _2'yi göstermektedir . Bu örnek, ölçeklendirilmiş mutlak fark | dist ₂ - dist ₁ | için oldukça iyi mesafe kontrastını göstermektedir . (Göreceli farklılıklar | dist ₂ / dist ₁ | → 1 boyut olarak → ∞, bu yüzden işe yaramaz olun.)

Belirli bir bağlamda mutlak hataların veya göreli hataların kullanılıp kullanılmayacağı elbette "gerçek" gürültüye bağlıdır: zor.

Öneri: her zaman 2-NN çalıştırın; 2 komşu yakın olduklarında faydalı, yakın olmadığında da faydalıdır.

resim açıklamasını buraya girin

machine-learning k-nearest-neighbour

— denis
kaynak

Beyer ve diğ. NN sorununun biraz farklı yönlerini ele alıyor gibi görünüyor. Ancak, (ikili) sınıflandırma amaçları için, ılımlı koşullar altında, 1-NN sınıflandırmasının en kötü durumda Bayes (yani, optimal) sınıflandırıcısının asimptotik olarak iki kez hata olasılığına sahip olması klasik bir sonuçtur . Başka bir deyişle, en yakın ilk komşu, en iyi sınıflandırıcıda olduğu gibi hedefin etiketi hakkında "bilgilerin en az yarısını" içerir. Bu anlamda, 1-NN oldukça alakalı görünmektedir. (Daha fazla bilgi için Cover & Hart'a (1967) bakın. Beyer ve arkadaşlarının buna değinmediğine şaşırdım.)

— cardinal

@cardinal, Cover-Hart sınırının farklı bir yönü söylediğiniz gibi boyuta hiç bağlı olmadığı anlaşılıyor.

— denis

evet bunun doğru olduğuna inanıyorum ve bu büyük ölçüde bunu gündeme getirmemdeki amacımdı. 1-NN bu anlamda oldukça alakalı görünmektedir, yani, özellik alanı boyutunda (teorik olarak) iyi (teorik olarak) düzgün çalıştığı gerçeği, en yakın olanın davranışına bakılmaksızın kendi başına durmasına yardımcı gibi görünmektedir. en uzak komşular geniş boyutlu bir uzaydadır. Beyer'in bu (klasik) sonucun farkında olup olmadığını merak ediyor.

— kardinal

@cardinal Cover ve Hart'ın 24. sayfasının üstü, Cover ve Hart'ın X'teki her RV x \ 'nin x hakkında her açık kürenin sahip olduğu özelliğe sahip olduğunu iddia ettiği adımda kanıtlarında potansiyel olarak bir sorunun ortaya çıkabileceği bir yere benziyor. sıfır olmayan ölçü. Hiper kürenin geometrisini düşünürsek, hiper kürenin iç hacminin artan boyutla küçüldüğünü görürüz, bu nedenle sınırda, x etrafındaki açık top iç kısmında sadece x içerir. Alternatif olarak, SLLN vasıtasıyla, metrik uzay X'deki iid RVs x'in tümü, olasılıkla bir hiper kürenin yüzeyinde yer alır.

— Bob Durrant

Kümeleme için ayrıca L1 veya L.5 metriklerine de bakın .

— denis

Yanıtlar:

Bu soruya tam bir cevabım yok, ancak bazı analitik yönler hakkında kısmi bir cevap verebilirim. Uyarı: Aşağıdaki ilk makaleden bu yana başka sorunlar üzerinde çalışıyorum, bu yüzden farkında olmadığım başka iyi şeyler de var.

İlk olarak, "En yakın komşu 'ne zaman anlamlı" makalelerinin başlığına rağmen, Beyer ve arkadaşlarının aslında farklı bir soruyu, yani NN'nin ne zaman anlamlı olmadığını belirttiğini düşünüyorum . 'En Yakın Komşu' Ne Zaman Anlamlı: Bir Converse Teoremi ve Sonuçları bölümünde, örneklemin boyutuyla ilgili bazı ilave varsayımlar altında teoremlerine karşılık olduğunu kanıtladık . Journal of Complexity, 25 (4), Ağustos 2009, sf 385-397.ve (teoride) mesafelerin konsantrasyonunun ortaya çıkmayacağı durumlar olduğunu gösterdik (örnekler veriyoruz, ama aslında gürültü olmayan özelliklerin sayısının boyutsallıkla birlikte büyümesi gerekiyor, bu yüzden elbette pratikte nadiren ortaya çıkıyorlar). Makalemizde belirtilen 1 ve 7 referansları, uygulamada mesafe konsantrasyonunun azaltılabileceği yollara bazı örnekler vermektedir.

Denetçim Ata Kaban'ın bir makalesi , Belirli Veri Azaltma Tekniklerinin Uzaktan Konsantrasyon Bilincinde boyutsallık azaltma teknikleri uygulamasına rağmen bu mesafe konsantrasyonu sorunlarının devam edip etmediğine bakıyor . Desen tanıma. Vol. 44, Sayı 2, Şubat 2011, s.265-277. . Orada da güzel tartışmalar var.

Radovanovic ve ark. Hubs in Space: Son Boyut Verilerinde Popüler En Yakın Komşular. JMLR, 11 (Eylül), Eylül 2010, s: 2487-2531. "Hubness" konusunu tartışır, yani noktaların küçük bir alt kümesi $k$

— Bob Durrant
kaynak

Teşekkürler Bob, +1. İlgili bir soru, kesirli metrik q değerini seçmek için temel bir kuralınız var mı (ya da bunu ayrı bir soru olarak sormalıyım)?

— denis

q = 1 / p

$q=1/p$

p > 1

$p>1$

p

$p$

l_{0}

$l_0$

p = 1

$p=1$

l_{1}

$l_{1}$

l_{q = 1 / p}

$l_{q=1/p}$

p > 1

$p>1$

p

$p$

\sum | a_{j} - b_{j} |^{q}

$\sum |a_j - b_j|^q$

1 / q

$1/q$

< q <

$< q <$

ℓ_{p}

$\ell_{p}$

Sen de ilgilenen olabilir mahalle bileşenleri analiz Goldberger ark.

Burada, stokastik bir en yakın mahalle seçimi ile doğru şekilde sınıflandırılmış beklenen noktaları en üst düzeye çıkarmak için doğrusal bir dönüşüm öğrenilir.

Bir yan etki olarak (beklenen) komşu sayısı verilerden belirlenir.

— bayerj
kaynak

Teşekkürler bayer. Görünüşe göre "uzaktan metrik öğrenme" patlama yaşıyor - scholar.goo'nun 2008'den beri 50 başlığı var. Ama patlama kağıdı mı yoksa gerçek kullanım mı? Dipnot, nca kodu "yineleme ... iyi sonuçlar için en az 100000" diyor. Dipnot 2, uzaktan metrik öğrenme üzerine yapılan çalışmaların çoğunun bir Mahalanobis mesafesini modellediği görülmektedir; diğer mesafe modellerini biliyor musunuz?

— denis

NCA ile farklı deneyimlerim var - bu genellikle benim için oldukça hızlı bir şekilde birleşiyor. LeCun tarafından "değişmez bir harita öğrenerek boyutsal küçülme" ve Norouzi tarafından "Kompakt İkili Kodlar için Minimum Kayıp Hashing" e bakın.

— bayerj