İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap



2
Diskriminant analizinin üç versiyonu: farklılıklar ve nasıl kullanılacağı
Herhangi biri farklılıkları açıklayabilir ve bu üç analizin nasıl kullanılacağına özel örnekler verebilir mi? LDA - Doğrusal Ayrımcı Analizi FDA - Fisher'in Diskriminant Analizi QDA - Kuadratik Diskriminant Analizi Her yeri aradım, ancak bu analizlerin nasıl kullanıldığını ve verilerin nasıl hesaplandığını görmek için gerçek değerlere sahip gerçek örnekler bulamadım, gerçek …

2
Büyük seyrek bir matrisin SVD'si nasıl hesaplanır?
Verilerin son derece seyrek olduğu çok büyük bir pozitif matrisin (65M x 3.4M) tekil değer ayrışmasını (SVD) hesaplamanın en iyi yolu nedir? Matrisin% 0.1'inden daha azı sıfır değildir. Bir yola ihtiyacım var: belleğe sığacak (çevrimiçi yöntemlerin olduğunu biliyorum) Makul bir sürede hesaplanacak: 3,4 gün Yeterince doğru olacağım ancak doğruluk benim …
26 svd  numerics 

3
Gaussian proses modellerine neden parametrik olmayan denir?
Kafam biraz karıştı. Gauss süreçlerine neden parametrik olmayan modeller deniyor? İşlevsel değerlerin veya bunların bir alt kümesinin, ortalama 0 olan bir Gauss değerine ve çekirdek işlevi olarak verilen kovaryans işlevine sahip olduğunu varsayıyorlar. Bu çekirdek fonksiyonlarının kendileri bazı parametrelere sahiptir (yani, hiperparametreler). Peki neden parametrik olmayan modeller denir?

2
R de çoklu regresyon için değişkenleri dönüştürme
İçinde çoklu bir regresyon gerçekleştirmeye çalışıyorum R. Bununla birlikte, bağımlı değişkenim aşağıdaki çizime sahiptir: İşte tüm değişkenlerime sahip bir scatterplot matrisi ( WARbağımlı değişkendir): Bu değişken üzerinde bir dönüşüm gerçekleştirmem gerektiğini biliyorum (ve muhtemelen bağımsız değişkenler?) Ancak gereken tam dönüşümden emin değilim. Birisi beni doğru yöne işaret edebilir mi? Bağımsız …


3
Konu modelleri ve kelime birlikte ortaya çıkma yöntemleri
LDA gibi popüler konu modelleri genellikle aynı konu (birlikte) içinde birlikte ortaya çıkma eğiliminde olan kelimeleri kümeler. Bu konu modelleri ve PMI gibi diğer basit eşzamanlılık tabanlı kümeleme yaklaşımları arasındaki temel fark nedir? (PMI, Pointwise Mutual Information anlamına gelir ve verilen bir kelimeyle birlikte gelen kelimeleri tanımlamak için kullanılır.)

1
Mantel testi asimetrik matrislere genişletilebilir mi?
Mantel testi genellikle simetrik uzaktan / fark matrisleri uygulanır. Anladığım kadarıyla, testin bir varsayımı, farklılıkları tanımlamak için kullanılan önlemin en azından yarı metrik olması gerektiğidir (bir metriğin standart gereksinimlerini karşılar ancak üçgen eşitsizliğini karşılar). Simetri varsayımı gevşetilebilir mi (ön ölçüm) Bu durumda permütasyon testini tam matris kullanarak uygulamak mümkün müdür?

6
Verilere sinüzoidal bir terim takın
Okuduğum rağmen bu yazı, hala nasıl kendi veri ve birisi bana yardımcı olabilir umuduyla bu uygulamak için hiçbir fikrim yok. Aşağıdaki verilere sahibim: y <- c(11.622967, 12.006081, 11.760928, 12.246830, 12.052126, 12.346154, 12.039262, 12.362163, 12.009269, 11.260743, 10.950483, 10.522091, 9.346292, 7.014578, 6.981853, 7.197708, 7.035624, 6.785289, 7.134426, 8.338514, 8.723832, 10.276473, 10.602792, 11.031908, 11.364901, …
26 r  regression  fitting 

7
Rastgele etki faktörü için önerilen minimum grup sayısı nedir?
Bazı tekrarlanan önlemler verilerini analiz etmek için R( lme4) 'de karma bir model kullanıyorum . Bir cevap değişkenim (dışkı elyaf içeriği) ve 3 sabit efektim (vücut kütlesi vb.) Var. Çalışmamda sadece 6 katılımcı var, her biri için 16 tekrarlı ölçüm var (ancak ikisinde sadece 12 tekrar var). Denekler, farklı 'tedavilerde' …


2
Eşleştirilmemiş t-testi yerine Wilcoxon sıralama testi ne zaman kullanılır?
Bu, Frank Harrell'ın burada ne yazdığına dair bir takip sorusu : Tecrübelerime göre t dağılımının doğru olması için gereken örneklem büyüklüğü eldeki örnek büyüklüğünden daha büyüktür. Wilcoxon işaretli sıralama testi dediğiniz gibi son derece verimli ve sağlam, bu yüzden neredeyse her zaman t testi tercih ediyorum Doğru anladıysam - iki …

2
Cezalanmış lineer regresyonun geometrik yorumu
Doğrusal regresyonun "tüm noktalara dikey olarak en yakın olan çizgi" olarak düşünülebileceğini biliyorum : Ancak, sütun alanını “katsayı matrisinin sütunlarının kapsadığı alana yansıtma” olarak görerek, onu görmenin başka bir yolu var : Sorum şu: Bu iki yorumda, regüle edilmiş regresyon ve LASSO gibi, penaltılaşmış lineer regresyon kullandığımız zaman ne olur …

6
Lojistik regresyon için örneklem büyüklüğü?
Anket verilerimden lojistik bir model yapmak istiyorum. Sadece 154 katılımcıyla görüşülen dört konut kolonisinden oluşan küçük bir ankettir. Bağımlı değişkenim "işe tatmin edici bir geçiş". Araştırmaya katılan 154 kişiden 73'ünün, işe geri kalanının yapmadıkça işe tatmin edici bir şekilde geçtiklerini söyledi. Dolayısıyla bağımlı değişken doğada ikilidir ve lojistik regresyon kullanmaya …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.