Kapağın Teoremi: Kabaca belirtildiği gibi, rastgele herhangi bir sonlu nokta kümesi (rastgele etiketlerle) verildiğini, daha sonra yüksek olasılıkla bu noktalar daha yüksek bir boyuta [2] eşlenerek doğrusal olarak ayrılabilir hale getirilebileceğini [1] söylüyor.
Sonuç: Harika, bu teoremin bana söylediği şey, veri setimi alıp bu noktaları daha yüksek bir boyuta eşlersem, o zaman kolayca doğrusal bir sınıflandırıcı bulabilirim. Bununla birlikte, çoğu sınıflandırıcı nokta ürünü gibi bir tür benzerliği hesaplamak zorundadır ve bu, bir sınıflandırma algoritmasının zaman karmaşıklığının veri noktasının boyutuyla orantılı olduğu anlamına gelir. Bu nedenle, daha yüksek boyut, daha büyük zaman karmaşıklığı anlamına gelir (bu büyük boyutlu noktaları saklamak için alan karmaşıklığından bahsetmiyoruz).
nfN(>>n)KxyK(x,y)=⟨f(x),f(y)⟩O(n)O(N)
f
Doğrusal ayrılabilirlik, aynı sınıftan puanların farklı sınıflardan puanlara yaklaşacağını ima ediyor mu?
Hayır, böyle bir garanti yoktur. Doğrusal ayrılabilirlik, aynı sınıftaki noktanın daha yakınlaştığı ya da iki farklı sınıftan puanların daha da arttığı anlamına gelmez.
Öyleyse kNN neden işe yarar?
Gerek yok! Ancak, eğer öyleyse, sadece çekirdek yüzünden olur.
x=(x1,x2)x(x21,2–√x1x2,x22)
Öyleyse neden çekirdek kNN kullanıyorsunuz?
Çekirdek kullanmanın hesaplama karmaşıklığının her zamanki kNN'den biraz daha fazla olduğunu gösterdik ve eğer veri çekirdeği kullanmaktan yarar sağlıyorsa, neden onları yine de kullanmıyorsunuz?
KNN'deki çekirdeklerden hangi veri sınıfının yararlanabileceğini inceleyen herhangi bir makale var mı?
Bildiğim kadarıyla, Hayır.
[1] http://en.wikipedia.org/wiki/Linear_separability
[2] http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=4038449&tag=1