İstatistikler ve Büyük Veri

8

Amaç fonksiyonu, maliyet fonksiyonu, kayıp fonksiyonu: aynı şey midir?

Makine öğreniminde insanlar nesnel işlev, maliyet işlevi, kayıp işlevi hakkında konuşurlar. Onlar sadece aynı şeyin farklı isimleri mi? Onları ne zaman kullanmalı? Her zaman aynı şeyi ifade etmiyorlarsa, farklar nelerdir?

80 machine-learning terminology artificial-intelligence

8

Histogramda en uygun kutu sayısını hesaplama

Histogramda kaç tane kutu kullanmam gerektiğini belirlemek için bulabildiğim en iyi yöntemi bulmakla ilgileniyorum. Verilerim en fazla 30 ila 350 nesne arasında olmalı ve özellikle daha az yayılması gereken ve daha fazla yayılması gereken "iyi" nesnelerin ayrıldığı "eşleştirme" uygulamasına çalışıyorum Kötü "nesneler, değeri daha yoğun olmalıdır. Somut bir değer, her …

80 rule-of-thumb histogram

9

Gerçek hayattaki tek bir gelecekteki olayın olasılığı: “Hillary'nin% 75 kazanma şansı var” derken ne demek istiyorsun?

Seçim tek seferlik bir etkinlik olduğundan, tekrarlanabilecek bir deney değildir. Öyleyse teknik olarak "Hillary kazanma şansının% 75'i kazanıyor" ifadesi tam olarak ne anlama geliyor? Sezgisel veya kavramsal olmayan, istatistiksel olarak doğru bir tanım arıyorum. Ben bir tartışmada ortaya çıkan bu soruya cevap vermeye çalışan amatör bir istatistik fanatiğiyim. Bunun için …

79 probability prediction politics

2

İki tek değişkenli Gauss arasındaki KL ayrımı

İki Gauss'lu arasındaki KL ayrılığını belirlemeliyim. Sonuçlarımı bunlarla karşılaştırıyorum , ancak sonuçlarını çoğaltamıyorum. Sonucum açıkça yanlıştır, çünkü KL, KL için 0 değildir (p, p). Nerede hata yaptığımı merak ediyorum ve kimsenin tespit edip edemediğini soruyorum. Let p(x)=N(μ1,σ1)p(x)=N(μ1,σ1)p(x) = N(\mu_1, \sigma_1) ve q(x)=N(μ2,σ2)q(x)=N(μ2,σ2)q(x) = N(\mu_2, \sigma_2) . Piskopos'un PRML’sinden bunu biliyorum. …

79 normal-distribution kullback-leibler

7

Neden Judea Pearl'ün Kitabı: Neden istatistiklere dayanıyor?

Judea Pearl'ün Neden Kitabı'nı okuyorum ve derimin altına giriyor 1 . Özellikle, bana istatistiklerin nedensel ilişkileri hiçbir zaman, asla nedensel ilişkileri araştıramadığını, nedensel ilişkilerle hiç ilgilenmediğini ve bu istatistiklerin “bir model haline gelmediğini” söyleyerek tartışmaya açık bir şekilde “klasik” istatistiklere dayandığını söylüyor. veri toplama işletmesi ". İstatistikler kitabında çirkin bir …

79 causality

5

Politika dışı ve politika dışı öğrenme arasındaki fark nedir?

Yapay zeka web sitesi politika dışı ve politika dışı öğrenmeyi şu şekilde tanımlamaktadır: "Politika dışı bir öğrenci, aracı kurumun eylemlerinden bağımsız olarak en uygun politikanın değerini öğrenir. Q-öğrenme, politika dışı bir öğrencidir. Politikaya dayalı bir öğrenci, araştırma adımları dahil olmak üzere, aracı tarafından yürütülen politikanın değerini öğrenir ." Bu konudaki …

78 machine-learning reinforcement-learning artificial-intelligence

6

Verilerin kümelenme algoritmalarının anlamlı sonuçlar üretmesi için yeterince “kümelenmiş” olup olmadığını nasıl anlarım?

(Yüksek boyutlu) verilerinizin, kmean'lardan veya diğer kümelenme algoritmasından elde edilen sonuçların gerçekten anlamlı olması için yeterli kümelenme gösterip göstermediğini nasıl bilebilirdiniz? Özellikle k-aracı algoritması için kümelenme varyansındaki düşüşün ne kadarının gerçek kümelenme sonuçlarının anlamlı (ve sahte olmayan) olması gerekir? Kümelenme, verilerin boyutsal olarak azaltılmış bir şekli çizildiğinde ortaya çıkmalı mı …

78 clustering k-means

21

R öğrenmek için ücretsiz kaynaklar

Ben ucuza R öğrenmekle ilgileniyorum . R öğrenmek için en iyi ücretsiz kaynak / kitap / öğretici nedir?

78 r references

5

Eğri Altındaki Alan (AUC) veya c-istatistiği elle nasıl hesaplanır?

İkili bir lojistik regresyon modeli için eğri altındaki alanı (AUC) veya c-istatistiğini elle hesaplamak istiyorum. Örneğin, doğrulama veri setinde, bağımlı değişken için gerçek değere sahibim, tutulum (1 = tutuldu; 0 = tutulmadı) ve regresyon analizim tarafından oluşturulan her gözlem için öngörülen tutma durumu için öngörülen tutma durumu Eğitim seti kullanılarak …

78 regression logistic classification roc auc

7

Sürekli bir tahmin değişkeninden ayrılmanın faydası nedir?

Bir modelde kullanmadan önce, sürekli bir yordayıcı değişkenini almanın ve onu parçalara ayırmanın (örn. Quintiles) ne olduğunu merak ediyorum. Bana öyle geliyor ki değişkeni binerek bilgiyi kaybediyoruz. Bu sadece doğrusal olmayan etkileri modelleyebilmemiz için mi? Değişkeni sürekli tutsak ve gerçekten düz bir doğrusal ilişki olmasaydı verilere en iyi şekilde uyacak …

78 regression modeling continuous-data binning regression-strategies

6

T-SNE çıkışında kümeleme

Kümelerin içindeki alt grup etkilerini aramadan önce gürültülü bir veri kümesini kümelemenin kullanışlı olacağı bir uygulama buldum. İlk önce PCA'ya baktım, ancak değişkenliğin% 90'ını elde etmek ~ 30 bileşen alıyor, bu nedenle yalnızca birkaç PC'ye kümelemek çok fazla bilgiyi atıyor. Daha sonra t-SNE'yi denedim (ilk defa), bu bana k-araçlarıyla kümelemeye …

78 clustering interpretation k-means tsne

1

Nominal (IV) ve sürekli (DV) değişken arasındaki korelasyon

Nominal bir değişkene (değişik konuşma konularına, konu 0 = 0 vb. Olarak kodlanmış) ve bir konuşmanın uzunluğu gibi bir dizi ölçek değişkenine (DV) sahibim. Nominal ve ölçek değişkenler arasındaki korelasyonu nasıl türetebilirim?

77 correlation continuous-data categorical-data

3

Bir örnek: ikili sonuç için glmnet kullanarak LASSO regresyonu

Ben kullanımı ile serpmek başlıyorum glmnetile LASSO Regresyon ilgi benim sonuç dikotom olduğunu. Aşağıda küçük bir sahte veri çerçevesi oluşturdum: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

3

K-ortalama küme analizi sonuçlarının güzel bir grafiği nasıl oluşturulur?

K-kümeleme yapmak için R kullanıyorum. K-means'i çalıştırmak için 14 değişken kullanıyorum K-araçlarının sonuçlarını çizmenin güzel bir yolu nedir? Herhangi bir uygulama var mı? 14 değişkene sahip olmak sonuçları çizmeyi zorlaştırıyor mu? GGcluster adında havalı görünen bir şey buldum ama hala gelişme aşamasında. Ayrıca, sammon haritalama hakkında bir şeyler okudum, ama …

77 data-visualization classification k-means unsupervised-learning

3

R kare ne zaman negatif olur?

Anladığım kadarıyla , karesi olduğu için negatif olamaz. Ancak, tek bir bağımsız değişken ve bağımlı değişken olan SPSS'de basit bir doğrusal regresyon yaptım. SPSS çıkışım bana için negatif bir değer verir . Bunu R'den elle hesaplamak isteseydim, pozitif olurdu. Bunu negatif olarak hesaplamak için SPSS ne yaptı?R2R2R^2R2R2R^2R2R2R^2 R=-.395 R squared …

77 regression spss r-squared