İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap


8
Histogramda en uygun kutu sayısını hesaplama
Histogramda kaç tane kutu kullanmam gerektiğini belirlemek için bulabildiğim en iyi yöntemi bulmakla ilgileniyorum. Verilerim en fazla 30 ila 350 nesne arasında olmalı ve özellikle daha az yayılması gereken ve daha fazla yayılması gereken "iyi" nesnelerin ayrıldığı "eşleştirme" uygulamasına çalışıyorum Kötü "nesneler, değeri daha yoğun olmalıdır. Somut bir değer, her …

9
Gerçek hayattaki tek bir gelecekteki olayın olasılığı: “Hillary'nin% 75 kazanma şansı var” derken ne demek istiyorsun?
Seçim tek seferlik bir etkinlik olduğundan, tekrarlanabilecek bir deney değildir. Öyleyse teknik olarak "Hillary kazanma şansının% 75'i kazanıyor" ifadesi tam olarak ne anlama geliyor? Sezgisel veya kavramsal olmayan, istatistiksel olarak doğru bir tanım arıyorum. Ben bir tartışmada ortaya çıkan bu soruya cevap vermeye çalışan amatör bir istatistik fanatiğiyim. Bunun için …

2
İki tek değişkenli Gauss arasındaki KL ayrımı
İki Gauss'lu arasındaki KL ayrılığını belirlemeliyim. Sonuçlarımı bunlarla karşılaştırıyorum , ancak sonuçlarını çoğaltamıyorum. Sonucum açıkça yanlıştır, çünkü KL, KL için 0 değildir (p, p). Nerede hata yaptığımı merak ediyorum ve kimsenin tespit edip edemediğini soruyorum. Let p(x)=N(μ1,σ1)p(x)=N(μ1,σ1)p(x) = N(\mu_1, \sigma_1) ve q(x)=N(μ2,σ2)q(x)=N(μ2,σ2)q(x) = N(\mu_2, \sigma_2) . Piskopos'un PRML’sinden bunu biliyorum. …

7
Neden Judea Pearl'ün Kitabı: Neden istatistiklere dayanıyor?
Judea Pearl'ün Neden Kitabı'nı okuyorum ve derimin altına giriyor 1 . Özellikle, bana istatistiklerin nedensel ilişkileri hiçbir zaman, asla nedensel ilişkileri araştıramadığını, nedensel ilişkilerle hiç ilgilenmediğini ve bu istatistiklerin “bir model haline gelmediğini” söyleyerek tartışmaya açık bir şekilde “klasik” istatistiklere dayandığını söylüyor. veri toplama işletmesi ". İstatistikler kitabında çirkin bir …
79 causality 

5
Politika dışı ve politika dışı öğrenme arasındaki fark nedir?
Yapay zeka web sitesi politika dışı ve politika dışı öğrenmeyi şu şekilde tanımlamaktadır: "Politika dışı bir öğrenci, aracı kurumun eylemlerinden bağımsız olarak en uygun politikanın değerini öğrenir. Q-öğrenme, politika dışı bir öğrencidir. Politikaya dayalı bir öğrenci, araştırma adımları dahil olmak üzere, aracı tarafından yürütülen politikanın değerini öğrenir ." Bu konudaki …

6
Verilerin kümelenme algoritmalarının anlamlı sonuçlar üretmesi için yeterince “kümelenmiş” olup olmadığını nasıl anlarım?
(Yüksek boyutlu) verilerinizin, kmean'lardan veya diğer kümelenme algoritmasından elde edilen sonuçların gerçekten anlamlı olması için yeterli kümelenme gösterip göstermediğini nasıl bilebilirdiniz? Özellikle k-aracı algoritması için kümelenme varyansındaki düşüşün ne kadarının gerçek kümelenme sonuçlarının anlamlı (ve sahte olmayan) olması gerekir? Kümelenme, verilerin boyutsal olarak azaltılmış bir şekli çizildiğinde ortaya çıkmalı mı …


5
Eğri Altındaki Alan (AUC) veya c-istatistiği elle nasıl hesaplanır?
İkili bir lojistik regresyon modeli için eğri altındaki alanı (AUC) veya c-istatistiğini elle hesaplamak istiyorum. Örneğin, doğrulama veri setinde, bağımlı değişken için gerçek değere sahibim, tutulum (1 = tutuldu; 0 = tutulmadı) ve regresyon analizim tarafından oluşturulan her gözlem için öngörülen tutma durumu için öngörülen tutma durumu Eğitim seti kullanılarak …

7
Sürekli bir tahmin değişkeninden ayrılmanın faydası nedir?
Bir modelde kullanmadan önce, sürekli bir yordayıcı değişkenini almanın ve onu parçalara ayırmanın (örn. Quintiles) ne olduğunu merak ediyorum. Bana öyle geliyor ki değişkeni binerek bilgiyi kaybediyoruz. Bu sadece doğrusal olmayan etkileri modelleyebilmemiz için mi? Değişkeni sürekli tutsak ve gerçekten düz bir doğrusal ilişki olmasaydı verilere en iyi şekilde uyacak …

6
T-SNE çıkışında kümeleme
Kümelerin içindeki alt grup etkilerini aramadan önce gürültülü bir veri kümesini kümelemenin kullanışlı olacağı bir uygulama buldum. İlk önce PCA'ya baktım, ancak değişkenliğin% 90'ını elde etmek ~ 30 bileşen alıyor, bu nedenle yalnızca birkaç PC'ye kümelemek çok fazla bilgiyi atıyor. Daha sonra t-SNE'yi denedim (ilk defa), bu bana k-araçlarıyla kümelemeye …


3
Bir örnek: ikili sonuç için glmnet kullanarak LASSO regresyonu
Ben kullanımı ile serpmek başlıyorum glmnetile LASSO Regresyon ilgi benim sonuç dikotom olduğunu. Aşağıda küçük bir sahte veri çerçevesi oluşturdum: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
K-ortalama küme analizi sonuçlarının güzel bir grafiği nasıl oluşturulur?
K-kümeleme yapmak için R kullanıyorum. K-means'i çalıştırmak için 14 değişken kullanıyorum K-araçlarının sonuçlarını çizmenin güzel bir yolu nedir? Herhangi bir uygulama var mı? 14 değişkene sahip olmak sonuçları çizmeyi zorlaştırıyor mu? GGcluster adında havalı görünen bir şey buldum ama hala gelişme aşamasında. Ayrıca, sammon haritalama hakkında bir şeyler okudum, ama …

3
R kare ne zaman negatif olur?
Anladığım kadarıyla , karesi olduğu için negatif olamaz. Ancak, tek bir bağımsız değişken ve bağımlı değişken olan SPSS'de basit bir doğrusal regresyon yaptım. SPSS çıkışım bana için negatif bir değer verir . Bunu R'den elle hesaplamak isteseydim, pozitif olurdu. Bunu negatif olarak hesaplamak için SPSS ne yaptı?R2R2R^2R2R2R^2R2R2R^2 R=-.395 R squared …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.