«k-nearest-neighbour» etiketlenmiş sorular

k-En Yakın-Komşu Sınıflandırıcıları Bu sınıflandırıcılar bellek tabanlıdır ve hiçbir modelin sığmasını gerektirmez. X0 sorgu noktası verildiğinde, x0 mesafesine en yakın k eğitim noktalarını x (r), r = 1, ..., k buluruz ve sonra k komşuları arasında çoğunluk oyu kullanarak sınıflandırırız.


2
İstatistiki Öğrenim Unsurlarından en yakın k sınıf komşu sınıflayıcısının karar sınırı nasıl çizilir?
Trevor Hastie ve Robert Tibshirani & Jerome Friedman'ın ElemStatLearn "İstatistiksel Öğrenmenin Öğeleri: Veri Madenciliği, Çıkarım ve Tahmin. İkinci Basım" kitabında açıklanan grafiği oluşturmak istiyorum. Arsa: Bu kesin grafiği nasıl üretebileceğimi merak ediyorum R, özellikle sınır grafiğini ve ızgara grafiklerini ve hesaplamalarını not edin.

1
Bir lmer modelden etkilerin tekrarlanabilirliğinin hesaplanması
Bu yazıda , karışık etki modellemesi ile bir ölçümün tekrarlanabilirliğini (diğer bir deyişle güvenilirlik, sınıf içi korelasyon) nasıl hesaplayacağımı anladım . R kodu şöyle olurdu: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

4
Neden biri KNN'yi regresyon için kullansın?
Anladığım kadarıyla, sadece eğitim verilerinin aralığında kalan bir regresyon işlevi oluşturabiliriz. Örneğin (panellerden sadece biri gerekli): Bir KNN regresör kullanarak geleceği nasıl tahmin edebilirim? Yine, sadece antrenman verileri aralığı dahilinde olan bir fonksiyona yaklaştığı görülmektedir. Sorum şu: KNN regresör kullanmanın avantajları nelerdir? Bunun sınıflandırma için çok güçlü bir araç olduğunu …

3
Makine öğrenimi modellerini birleştirme
Ben veri madenciliği / makine öğrenimi / vb. ve tahminleri iyileştirmek için aynı modelin birden fazla modelini ve çalışmasını birleştirmenin birkaç yolunu okuyor. Birkaç makaleyi okuduğum izlenimim (teori ve yunan harfleri üzerinde genellikle ilginç ve harika, ancak kod ve gerçek örnekler üzerinde kısa) şu şekilde olması gerekiyor: Bir model ( …

2
“En Yakın Komşu” bugün ne zaman anlamlı?
1999 yılında Beyer ve ark. sorulduğunda, ne zaman "Yakın Komşu" anlamlıdır? 1999'dan bu yana mesafe düzlüğünün NN araştırması üzerindeki etkisini analiz etmenin ve görselleştirmenin daha iyi yolları var mı? [Belirli bir] veri kümesi 1-NN problemine anlamlı cevaplar veriyor mu? 10-NN sorunu mu? 100-NN sorunu mu? Uzmanlar bugün bu soruya nasıl …

1
k-NN hesaplama karmaşıklığı
Saf arama yaklaşımı ile k- NN algoritmasının zaman karmaşıklığı nedir (kd ağacı veya benzeri yok)? K hiperparametresi de göz önünde bulundurularak zaman karmaşıklığıyla ilgileniyorum . Çelişkili cevaplar buldum: O (nd + kn); burada n , eğitim setinin temel niteliğidir ve d , her bir numunenin boyutudur. [1] O (ndk), burada …


3
KNN için optimum K seçimi
KNN için optimal K'yi seçmek için 5 kat CV yaptım. Görünüşe göre K büyüdükçe hata küçülüyor ... Maalesef bir efsanem yoktu, ancak farklı renkler farklı denemeleri temsil ediyor. Toplam 5 var ve aralarında çok az değişiklik var gibi görünüyor. K büyüdükçe hata her zaman azalır. Peki en iyi K'yi nasıl …

4
KNN'de bağlarla, ağırlıklarla oylama ve oylama
Bir kNN algoritması programlıyorum ve aşağıdakileri bilmek istiyorum: Tie-sonları: Çoğunluk oylamasında net bir kazanan yoksa ne olur? Örneğin, en yakın tüm k komşuları farklı sınıflardan veya k = 4 için A sınıfı 2 komşu ve B sınıfı 2 komşu var mı? Aynı mesafeye sahip daha fazla komşu olduğu için en …

2
KNN'deki verileri neden ölçeklendirmeniz gerekiyor?
Birisi bana en yakın komşuları kullanırken neden verileri normalleştirmeniz gerektiğini açıklayabilir mi? Bunu aramaya çalıştım, ama hala anlayamıyorum. Aşağıdaki bağlantıyı buldum: https://discuss.analyticsvidhya.com/t/why-it-is-necessary-to-normalize-in-knn/2715 Ancak bu açıklamada, özelliklerden birinde daha geniş bir aralığın neden tahminleri etkilediğini anlamıyorum.

1
Boyut küfürü bazı modelleri diğerlerinden daha fazla etkiler mi?
Boyutsallık laneti hakkında okuduğum yerler, öncelikle kNN ve genel olarak doğrusal modellerle bağlantılı olarak açıklıyor. Veri kümesindeki 100k veri noktasına sahip binlerce özellik kullanarak Kaggle'daki en üst sıralayıcıları düzenli olarak görüyorum. Diğerleri arasında ağırlıklı olarak Artırılmış ağaçlar ve NN kullanırlar. Pek çok özellik çok yüksek görünüyor ve boyutsal lanetten etkileneceklerini …

5
KNN imputation R paketleri
Bir KNN dürtü paketi arıyorum. Ben imputation paketi bakıyordum ( http://cran.r-project.org/web/packages/imputation/imputation.pdf ) ama nedense KNN impute işlevi (açıklamadaki örneği takip ederken bile) sadece görünüyor sıfır değerleri impute etmek için (aşağıdaki gibi). Etrafa bakıyordum ama henüz bir şey bulamıyorum ve bu yüzden iyi KNN imputasyon paketleri için başka önerileri olup olmadığını …

4
Sıra normalleşmesinin amacı nedir
Sütun normalleşmesinin ardındaki mantığı anlıyorum, çünkü özelliklerin aynı ölçekte ölçülmemiş olsalar bile eşit olarak ağırlıklandırılmasına neden oluyor - ancak, en yakın komşu literatüründe, hem sütunlar hem de satırlar normalleştiriliyor. Satır normalleştirmesi nedir / neden satırları normalleştirmelisiniz? Özellikle, satır normalleştirmesinin sonucu satır vektörleri arasındaki benzerliği / mesafeyi nasıl etkiler?

3
Birim bilyadan N numunenin ortasına kadar en yakın medyan nokta için formülün açıklaması
In İstatistiksel Öğrenme Elements , bir sorun yüksek boyutlu uzaylarda k-nn ile vurgulamak konulara tanıtıldı. Vardır NNN homojen bir dağıtılan veri noktaları ppp boyutlu birim top. Başlangıç ​​noktasından en yakın veri noktasına olan ortalama mesafe ifadesi tarafından verilir: d(p,N)=(1−(12)1N)1pd(p,N)=(1−(12)1N)1pd(p,N) = \left(1-\left(\frac{1}{2}\right)^\frac{1}{N}\right)^\frac{1}{p} Zaman en yakın nokta olarak sınırına yaklaşırken, nasıl topun …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.