KNN ve lineer regresyonu çok farklı şeyler oldukları için doğrudan karşılaştırmak oldukça zordur, ancak bence buradaki kilit nokta "modelleme arasındaki farktır. f( x )"ve" hakkında varsayımlara sahip olmak f( x )".
Doğrusal regresyon yaparken, kişi özellikle f( x ), genellikle f( x ) = g x + ϵ nerede εbir Gauss gürültü terimidir. Maksimum olabilirlik modelinin minimum kareler toplamı hata modeline eşdeğer olduğunu düşünebilirsiniz.
Diğer yandan KNN, ikinci noktanızın da belirttiği gibi, bu işlevi yerel olarak sabit bir işlevle yaklaşık olarak tahmin edebileceğinizi varsayar -x- tüm dağılımı özel olarak modellemeden kullanır.
Başka bir deyişle, doğrusal regresyon genellikle iyi bir değer fikrine sahip olacaktır. f( x ) görünmeyenler için x sadece xkNN hakkında tahminlerde bulunmak için başka bilgilere (yani k komşularına) ihtiyaç duyarken, f( x ), çünkü değeri xve sadece değerin kendisi, herhangi bir bilgi vermeyecektir, çünkü f( x ).
DÜZENLEME: Bu açık ifadeyi yeniden ifade etmek için bunu tekrarlayın (yorumlara bakın)
Hem lineer regresyonun hem de en yakın komşu yöntemlerin, y=f(x) yeni için x. Şimdi iki yaklaşım var. Doğrusal regresyon, verilerin düz bir çizgide (artı eksi biraz gürültü) düştüğü varsayılarak devam eder ve bu nedenle y'nin değeri,f(x)Çizginin eğiminin çarpımı. Başka bir deyişle, doğrusal ifade verileri düz bir çizgi olarak modeller .
Şimdi en yakın komşu yöntemleri, verinin nasıl göründüğünü (verileri modellemiyorsa) umursamıyor, yani, bir çizgi, bir parabol, bir daire vb. f(x1) ve f(x2) benzer olacaktır, eğer x1 ve x2benzerdir. Bu varsayımın, yukarıda bahsettiğim tüm modeller de dahil olmak üzere hemen hemen her model için kabaca doğru olduğunu unutmayın. Bununla birlikte, bir NN yöntemi,f(x) ile ilgilidir x (bir çizgi, parabol, vb. olsun), bu ilişkinin bir modeli olmadığından, sadece yakın noktalara bakarak tahmin edilebileceğini varsayar.