İstatistikler ve Büyük Veri

3

Glmer çıktımdaki 'sabit etkilerin korelasyonunu' nasıl yorumlayabilirim?

Aşağıdaki çıktı var: Generalized linear mixed model fit by the Laplace approximation Formula: aph.remain ~ sMFS2 +sAG2 +sSHDI2 +sbare +season +crop +(1|landscape) AIC BIC logLik deviance 4062 4093 -2022 4044 Random effects: Groups Name Variance Std.Dev. landscape (Intercept) 0.82453 0.90804 Number of obs: 239, groups: landscape, 45 Fixed effects: Estimate …

26 mixed-model poisson-distribution lme4-nlme

1

İki Gauss'lu Arasındaki Earth Mover's Distance (EMD)

İçin bir kapalı-formlu bir formül (veya bağlı bir tür) arasında EMD var x1∼N(μ1,Σ1)x1∼N(μ1,Σ1)x_1\sim N(\mu_1, \Sigma_1) ve x2∼N(μ2,Σ2)x2∼N(μ2,Σ2)x_2 \sim N(\mu_2, \Sigma_2) ?

26 normal-distribution distance

2

Diskriminant analizinin üç versiyonu: farklılıklar ve nasıl kullanılacağı

Herhangi biri farklılıkları açıklayabilir ve bu üç analizin nasıl kullanılacağına özel örnekler verebilir mi? LDA - Doğrusal Ayrımcı Analizi FDA - Fisher'in Diskriminant Analizi QDA - Kuadratik Diskriminant Analizi Her yeri aradım, ancak bu analizlerin nasıl kullanıldığını ve verilerin nasıl hesaplandığını görmek için gerçek değerlere sahip gerçek örnekler bulamadım, gerçek …

26 classification discriminant-analysis

2

Büyük seyrek bir matrisin SVD'si nasıl hesaplanır?

Verilerin son derece seyrek olduğu çok büyük bir pozitif matrisin (65M x 3.4M) tekil değer ayrışmasını (SVD) hesaplamanın en iyi yolu nedir? Matrisin% 0.1'inden daha azı sıfır değildir. Bir yola ihtiyacım var: belleğe sığacak (çevrimiçi yöntemlerin olduğunu biliyorum) Makul bir sürede hesaplanacak: 3,4 gün Yeterince doğru olacağım ancak doğruluk benim …

26 svd numerics

3

Gaussian proses modellerine neden parametrik olmayan denir?

Kafam biraz karıştı. Gauss süreçlerine neden parametrik olmayan modeller deniyor? İşlevsel değerlerin veya bunların bir alt kümesinin, ortalama 0 olan bir Gauss değerine ve çekirdek işlevi olarak verilen kovaryans işlevine sahip olduğunu varsayıyorlar. Bu çekirdek fonksiyonlarının kendileri bazı parametrelere sahiptir (yani, hiperparametreler). Peki neden parametrik olmayan modeller denir?

26 nonparametric gaussian-process

2

R de çoklu regresyon için değişkenleri dönüştürme

İçinde çoklu bir regresyon gerçekleştirmeye çalışıyorum R. Bununla birlikte, bağımlı değişkenim aşağıdaki çizime sahiptir: İşte tüm değişkenlerime sahip bir scatterplot matrisi ( WARbağımlı değişkendir): Bu değişken üzerinde bir dönüşüm gerçekleştirmem gerektiğini biliyorum (ve muhtemelen bağımsız değişkenler?) Ancak gereken tam dönüşümden emin değilim. Birisi beni doğru yöne işaret edebilir mi? Bağımsız …

26 r regression multiple-regression data-transformation

2

“Çift Kement” yapmanın veya iki kez Kement yapmanın avantajları?

Bir keresinde Kement'i iki kez (bir çift kement gibi) kullanarak, orijinal değişken kümesinde kement kullandığınız bir yöntem duydum, S1 diyelim, S2 adı verilen seyrek bir küme elde ettikten sonra, K2 kümesinde S3 kümesini elde etmek için kement tekrar uygulayın. . Bunun için metodolojik bir terim var mı? Ayrıca, iki kez …

26 regression lasso regularization shrinkage lars

3

Konu modelleri ve kelime birlikte ortaya çıkma yöntemleri

LDA gibi popüler konu modelleri genellikle aynı konu (birlikte) içinde birlikte ortaya çıkma eğiliminde olan kelimeleri kümeler. Bu konu modelleri ve PMI gibi diğer basit eşzamanlılık tabanlı kümeleme yaklaşımları arasındaki temel fark nedir? (PMI, Pointwise Mutual Information anlamına gelir ve verilen bir kelimeyle birlikte gelen kelimeleri tanımlamak için kullanılır.)

26 machine-learning text-mining natural-language topic-models

1

Mantel testi asimetrik matrislere genişletilebilir mi?

Mantel testi genellikle simetrik uzaktan / fark matrisleri uygulanır. Anladığım kadarıyla, testin bir varsayımı, farklılıkları tanımlamak için kullanılan önlemin en azından yarı metrik olması gerektiğidir (bir metriğin standart gereksinimlerini karşılar ancak üçgen eşitsizliğini karşılar). Simetri varsayımı gevşetilebilir mi (ön ölçüm) Bu durumda permütasyon testini tam matris kullanarak uygulamak mümkün müdür?

26 statistical-significance assumptions distance

6

Verilere sinüzoidal bir terim takın

Okuduğum rağmen bu yazı, hala nasıl kendi veri ve birisi bana yardımcı olabilir umuduyla bu uygulamak için hiçbir fikrim yok. Aşağıdaki verilere sahibim: y <- c(11.622967, 12.006081, 11.760928, 12.246830, 12.052126, 12.346154, 12.039262, 12.362163, 12.009269, 11.260743, 10.950483, 10.522091, 9.346292, 7.014578, 6.981853, 7.197708, 7.035624, 6.785289, 7.134426, 8.338514, 8.723832, 10.276473, 10.602792, 11.031908, 11.364901, …

26 r regression fitting

7

Rastgele etki faktörü için önerilen minimum grup sayısı nedir?

Bazı tekrarlanan önlemler verilerini analiz etmek için R( lme4) 'de karma bir model kullanıyorum . Bir cevap değişkenim (dışkı elyaf içeriği) ve 3 sabit efektim (vücut kütlesi vb.) Var. Çalışmamda sadece 6 katılımcı var, her biri için 16 tekrarlı ölçüm var (ancak ikisinde sadece 12 tekrar var). Denekler, farklı 'tedavilerde' …

26 mixed-model sample-size

1

Doğrusal regresyonda katsayılı standart hatalar nasıl yorumlanır?

R'de görüntüleme işlevini kullanırken bir regresyonun katsayılı standart hatalarını nasıl yorumlayacağımı merak ediyorum. Örneğin aşağıdaki çıktıda: lm(formula = y ~ x1 + x2, data = sub.pyth) coef.est coef.se (Intercept) 1.32 0.39 x1 0.51 0.05 x2 0.81 0.02 n = 40, k = 3 residual sd = 0.90, R-Squared = 0.97 …

26 r regression interpretation

2

Eşleştirilmemiş t-testi yerine Wilcoxon sıralama testi ne zaman kullanılır?

Bu, Frank Harrell'ın burada ne yazdığına dair bir takip sorusu : Tecrübelerime göre t dağılımının doğru olması için gereken örneklem büyüklüğü eldeki örnek büyüklüğünden daha büyüktür. Wilcoxon işaretli sıralama testi dediğiniz gibi son derece verimli ve sağlam, bu yüzden neredeyse her zaman t testi tercih ediyorum Doğru anladıysam - iki …

26 t-test wilcoxon-mann-whitney

2

Cezalanmış lineer regresyonun geometrik yorumu

Doğrusal regresyonun "tüm noktalara dikey olarak en yakın olan çizgi" olarak düşünülebileceğini biliyorum : Ancak, sütun alanını “katsayı matrisinin sütunlarının kapsadığı alana yansıtma” olarak görerek, onu görmenin başka bir yolu var : Sorum şu: Bu iki yorumda, regüle edilmiş regresyon ve LASSO gibi, penaltılaşmış lineer regresyon kullandığımız zaman ne olur …

26 regression intuition geometry

6

Lojistik regresyon için örneklem büyüklüğü?

Anket verilerimden lojistik bir model yapmak istiyorum. Sadece 154 katılımcıyla görüşülen dört konut kolonisinden oluşan küçük bir ankettir. Bağımlı değişkenim "işe tatmin edici bir geçiş". Araştırmaya katılan 154 kişiden 73'ünün, işe geri kalanının yapmadıkça işe tatmin edici bir şekilde geçtiklerini söyledi. Dolayısıyla bağımlı değişken doğada ikilidir ve lojistik regresyon kullanmaya …

26 logistic sample-size assumptions power unbalanced-classes