İstatistikler ve Büyük Veri

3

Değişkenler, bir model oluşturmadan önce sık sık ayarlanır (örneğin standartlaştırılmıştır) - bu ne zaman iyi bir fikirdir ve ne zaman kötüdür?

Hangi durumlarda, model uydurmadan önce bir değişkeni ölçeklendirmek veya standardize etmek istersiniz? Ve bir değişkeni ölçeklendirmenin avantajları / dezavantajları nelerdir?

56 modeling predictive-models feature-selection theory standardization

6

Verilerdeki mevsimsellik tespitinde hangi yöntem kullanılabilir?

Aldığım verilerde mevsimsellik tespit etmek istiyorum. Mevsimsel deniz altı arsaları ve otokorelasyon arsaları gibi bulduğum bazı yöntemler var, ama işin grafiği nasıl okuyacağımı anlamıyorum, herkes yardım edebilir mi? Diğeri ise, mevsimsellik tespit etmek için grafikte nihai sonuç olsun ya da olmasın başka yöntemler var mı?

56 time-series seasonality

13

Son 15 yılın İstatistiklerinde atılımlar nelerdir?

Friedman-Hastie-Tibshirani tarafından Güçlendirmeye İlişkin Annals İstatistik raporunu ve diğer yazarların (Freund ve Schapire dahil) aynı konularda yaptığı yorumları hala hatırlıyorum. O zaman, açıkça Boostting birçok açıdan bir atılım olarak görülüyordu: hesaplama açısından uygulanabilir, mükemmel ama gizemli bir performansa sahip bir topluluk yöntemi. Aynı zaman zarfında SVM, sağlam teori ve bol …

56 mathematical-statistics history

8

Neden hipotez testlerini öğretmeye ve kullanmaya devam ediyorsunuz (güven aralıklarında)?

Aralık tahmincisi (güven, önyükleme, güvenilirlik ya da her neyse) olan problemler için neden hipotez testlerini (tüm zor kavramlarıyla ve en istatistiksel günahların arasında olan) öğretmeye ve kullanmaya devam ediyorsunuz? Öğrencilere verilecek en iyi açıklama (varsa) nedir? Sadece gelenek? Görüşler çok hoş olacak.

56 hypothesis-testing confidence-interval teaching

12

Grafikteki verileri kazımak için gereken yazılım [kapalı]

Kartezyen koordinatlarda (standart, günlük bir çizimde) çizilen verilerin görüntüsünü alacak ve grafikte çizilen noktaların koordinatlarını çıkaracak herhangi bir yazılımı (tercihen ücretsiz, tercihen açık kaynaklı) deneyime sahip olan var mı? Temel olarak, bu bir veri madenciliği problemi ve ters bir veri görselleştirme problemidir.

56 data-visualization data-mining software

4

Bir dizi rasgele değişken minimumunun dağılımı nasıldır?

Eğer aynı şekilde dağıtılmış bağımsız değişkenlerse, genel olarak dağılımı hakkında ne söylenebilir ?X1,...,XnX1,...,XnX_1, ..., X_nmin(X1,...,Xn)min(X1,...,Xn)\min(X_1, ..., X_n)

56 distributions random-variable minimum

2

Kısmi olabilirlik, profil olabilirliği ve marjinal olabilirlik arasındaki fark nedir?

Bu terimlerin kullanıldığını görüyorum ve bunları karıştırmaya devam ediyorum. Aralarındaki farkların basit bir açıklaması var mı?

56 estimation maximum-likelihood

6

R'de, hangi testlerin t-testleri yerine kullanılması gerektiğini (eşleştirilmiş ve eşleştirilmemiş)?

T testleri kullanarak analiz ettiğim bir deneyden veri aldım. Bağımlı değişken aralık ölçeğindedir ve veriler eşleştirilmemiş (yani 2 grup) veya eşleştirilmiş (yani deneklerin içinde). Örneğin (konular içinde): x1 <- c(99, 99.5, 65, 100, 99, 99.5, 99, 99.5, 99.5, 57, 100, 99.5, 99.5, 99, 99, 99.5, 89.5, 99.5, 100, 99.5) y1 …

56 r t-test nonparametric permutation-test

5

Ekonometride “rastgele etki modeli”, ekonometri dışındaki karma modellerle tam olarak nasıl ilişkilidir?

Ekonometride "rastgele etki modelinin" ekonometri dışında "rastgele engelli karma bir model" e karşılık geldiğini düşünmüştüm, ama şimdi emin değilim. Yapar? Ekonometri, "sabit efektler" ve "rastgele efektler" gibi terimleri karma modellerle ilgili literatürden biraz farklı kullanır ve bu kötü bir kafa karışıklığına neden olur. Bize basit bir durum düşünelim doğrusal bağlıdır …

56 mixed-model econometrics panel-data lme4-nlme plm

8

Özel ortalama ve standart sapma gibi belirli kısıtlamaları sağlayan veriler nasıl simüle edilir?

Bu soru meta-analiz konusundaki sorumum tarafından motive edildi . Ancak, mevcut bir yayınlanmış veri setini tam olarak yansıtan bir veri seti oluşturmak istediğiniz bağlamları öğretmede de faydalı olacağını hayal ediyorum. Belirli bir dağıtımdan rasgele veri üretmeyi biliyorum. Örneğin, bir çalışmanın sonuçlarını okuduysanız: 102 ortalama, 5.2 standart bir sapma ve 72 …

56 r dataset simulation random-generation

2

Değişken seçimin daha kesin bir tartışması

Arka fon Tıpta klinik araştırma yapıyorum ve birkaç istatistik dersi aldım. Doğrusal / lojistik regresyon kullanarak bir makale yayınlamamıştım ve değişken seçimini doğru yapmak istiyorum. Yorumlanabilirlik önemlidir, bu nedenle fantezi makine öğrenme teknikleri yoktur. Değişken seçim anlayışımı özetledim - birileri herhangi bir yanılgıya ışık tutabilir mi? Buna iki (1) benzer …

55 regression feature-selection model-selection

2

Büzülme neden işe yarıyor?

Model seçimindeki problemleri çözmek için, bir dizi yöntem (LASSO, ridge regresyon, vb.) Yordayıcı değişkenlerinin katsayılarını sıfıra çekecektir. Bunun neden tahmin edilebilirliği geliştirdiğine dair sezgisel bir açıklama arıyorum. Değişkenin gerçek etkisi aslında çok büyükse, neden parametreyi küçültmek daha kötü bir tahminle sonuçlanmıyor?

55 lasso regularization ridge-regression intuition shrinkage

10

İstatistiklerde bazı anakronistik uygulama örnekleri nelerdir?

Ben onların varlığını sürdüren uygulamalara atıfta bulunuyorum, ancak başa çıkmak için tasarladıkları problemler (genellikle hesaplamalı) çoğunlukla çözülmüş olsa da. Örneğin, Yates’in sürekliliği düzeltmesi, Fisher’ın tam testini testiyle yaklaşık olarak gerçekleştirmek için icat edildi , ancak yazılım artık büyük testlerde bile Fisher testini idare edebileceğinden artık pratik değil. Varlık ", çünkü …

55 references philosophical

1

Lojistik regresyon için Wald testi

Anladığım kadarıyla Wald testi, lojistik regresyon bağlamında, belirli bir tahmin değişkeninin anlamlı olup olmadığını belirlemek için kullanılır . Karşılık gelen katsayının boş hipotezini sıfır olduğu için reddeder.XXX Test, katsayı değerinin standart hata değerine bölünmesinden oluşur .σσ\sigma Kafam karıştı, Z-skoru olarak da bilinir ve verilen bir gözlemin normal dağılımdan (ortalama sıfır …

55 logistic z-statistic

4

Bir log-dönüştürülmüş cevap değişkeni için LM ve GLM arasında seçim yapma

Genelleştirilmiş Doğrusal Model (GLM) ile Doğrusal Model (LM) kullanmanın ardındaki felsefeyi anlamaya çalışıyorum. Aşağıda örnek bir veri seti oluşturdum. kütük( y) = x + εlog⁡(y)=x+ε\log(y) = x + \varepsilon Örnek, büyüklüğünün bir işlevi olarak hatasını içermez , bu nedenle log-dönüştürülmüş y'nin doğrusal bir modelinin en iyi olacağını varsayardım. Aşağıdaki örnekte, …

55 r generalized-linear-model linear-model gamma-distribution link-function