İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

4
Silhouette çizimi ne anlama gelir?
Veri setimdeki küme sayısını belirlemek için siluet grafiği kullanmaya çalışıyorum. Veri kümesi treni göz önüne alındığında, aşağıdaki matlab kodunu kullandım Train_data = full(Train); Result = []; for num_of_cluster = 1:20 centroid = kmeans(Train_data,num_of_cluster,'distance','sqeuclid'); s = silhouette(Train_data,centroid,'sqeuclid'); Result = [ Result; num_of_cluster mean(s)]; end plot( Result(:,1),Result(:,2),'r*-.');` Ortaya çıkan arsa, küme sayısı …

4
Verilerin iki eğilimi vardır; bağımsız trend çizgileri nasıl çıkarılır?
Belirli bir şekilde sıralanmamış bir veri kümesine sahibim, ancak açıkça çizildiğinde iki farklı eğilime sahiptir. İki seri arasındaki net ayrım nedeniyle basit bir doğrusal regresyon burada yeterli olmaz. İki bağımsız doğrusal trend çizgisini elde etmenin basit bir yolu var mı? Kayıt için Python kullanıyorum ve makine öğrenimi de dahil olmak …


4
X ve Y arasında korelasyon yoktur, ancak X çoklu regresyonda Y'nin önemli bir prediktörüdür. Bunun anlamı ne?
X ve Y arasında korelasyon yoktur (-.01); Bununla birlikte, X'i Y'yi öngören çoklu bir regresyona yerleştirdiğimde, üç (A, B, C) diğer (ilişkili) değişkenlerin yanı sıra, X ve diğer iki değişken (A, B) Y'nin önemli belirleyicileridir. A, B) değişkenleri, regresyon dışındaki Y ile anlamlı şekilde ilişkilidir. Bu bulguları nasıl yorumlamalıyım? X, …


3
Neden t-SNE kümeleme veya sınıflandırma için bir boyutluluk azaltma tekniği olarak kullanılmıyor?
Yakın zamanda yapılan bir atamada, boyutları 64'ten (8 x 8 görüntüler) 2'ye düşürmek için MNIST rakamlarında PCA kullanmamız söylendi. Daha sonra rakamları bir Gauss Karışım Modeli kullanarak kümelemek zorunda kaldık. Yalnızca 2 ana bileşen kullanan PCA, farklı kümeler vermez ve sonuç olarak, model yararlı gruplar oluşturamaz. Bununla birlikte, 2 bileşenli …

3
Rastgele Orman modellerinde Doğrulukta Ortalama Düşüş ve GINI'de Ortalama Düşüş Nasıl Yorumlanır?
Rastgele Orman paketinden değişken önem taşıyan çıktıları nasıl yorumlayacağımı anlamakta güçlük çekiyorum. Doğruluktaki ortalama düşüş genellikle "her bir özellikteki değerlere izin verilmesinden model doğruluğunda azalma" olarak tanımlanır. Bu, özellik hakkında bir bütün olarak mı yoksa özellik içindeki belirli değerler hakkında mı? Her iki durumda da, Doğruluktaki Ortalama Düşüş söz konusu …



3
Neden bir lojistik regresyonun% 95 güven aralığında manuel olarak hesaplanması ile R'deki confint () fonksiyonunun kullanılması arasında bir fark var?
Sevgili millet - Açıklayamayacağım tuhaf bir şey fark ettim, ya sen? Özetle: bir lojistik regresyon modelinde bir güven aralığı hesaplamaya yönelik manuel yaklaşım ve R işlevi confint()farklı sonuçlar verir. Hosmer ve Lemeshow'un Applied Logistic Regresyon (2. Basım) bölümünden geçiyorum . 3. bölümde, oran oranını ve% 95 güven aralığını hesaplama örneği …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

5
CDF kullanarak beklenen değeri bulun
Bunun, kitaptan çıkan bir ev ödevi problemi olduğunu söyleyerek başlayacağım. Beklenen değerleri bulmak için birkaç saat harcadım ve hiçbir şey anlamadığımı belirledim. CDF'sine sahip olsun . Bul bu değerleri olan bulunmaktadır.XXXF(x)=1−x−α,x≥1F(x)=1−x−α,x≥1F(x) = 1 - x^{-\alpha}, x\ge1E(X)E(X)E(X)αα\alphaE(X)E(X)E(X) Buna nasıl başlayacağımı bile bilmiyorum. Hangi değerinin bulunduğunu nasıl belirleyebilirim ? Ayrıca CDF ile …



3
'Zayıf öğrenen' ile ne kastedilmektedir?
Biri bana 'zayıf öğrenen' ifadesinin ne anlama geldiğini söyleyebilir mi? Zayıf bir hipotez olması mı gerekiyor? Zayıf bir öğrenici ile zayıf bir sınıflandırıcı arasındaki ilişki konusunda kafam karıştı. İkisi de aynı mı yoksa bir fark var mı? Adaboost algoritmasında T=10,. Bununla ne kastedilmektedir? Neden seçiyoruz T=10?

3
(Derin) sinir ağlarının açıkça başka yöntemlerden daha iyi performans gösteremediği denetimli öğrenme sorunu var mı?
İnsanların SVM ve Çekirdekler üzerine çok çaba sarf ettiğini ve Makine Öğreniminde bir başlangıç ​​olarak oldukça ilginç göründüğünü gördüm. Ancak, (her zaman) (Yapay Sinir Ağı) açısından neredeyse her zaman daha iyi bir çözüm bulmamızı beklersek, bu dönemde başka yöntemler denemenin anlamı nedir? İşte bu konudaki kısıtlarım. Sadece Denetimli Öğrenmeyi düşünüyoruz; …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.