İstatistikler ve Büyük Veri

5

Ağırlıklı bir standart sapmayı nasıl hesaplarım? Excel'de?

Dolayısıyla, şöyle bir yüzdelik veri kümesine sahibim: 100 / 10000 = 1% (0.01) 2 / 5 = 40% (0.4) 4 / 3 = 133% (1.3) 1000 / 2000 = 50% (0.5) Yüzdelerin standart sapmasını bulmak istiyorum, ancak bunların veri hacmi için ağırlıklandırdım. yani, ilk ve son veri noktaları hesaplamaya hükmetmelidir. …

29 standard-deviation excel weighted-mean

4

2x2'den büyük acil durum tablolarında Fisher'in Kesin Testi

Sadece Fisher'in Kesin Testini 2x2 olan beklenmedik durum tablolarında uygulamam öğretildi. Sorular: Fisher, bu testin 2x2'den daha büyük tablolarda kullanılmasını hiç öngördü mü ( Yaşlı bir kadının süte sütün eklenmesi veya çayın eklenip eklenmediğini söyleyip söylemediğini tahmin etmeye çalışırken testi tasarlamasının öyküsünün farkındayım ). Stata, Fisher'ın kesin testini herhangi bir …

29 spss stata contingency-tables fishers-exact

3

PCA ile ortogonal regresyon (toplam en küçük kareler) nasıl yapılır?

Her zaman lm()R'de üzerindeki lineer regresyonunu yapmak için kullanırım . Bu işlev , bir katsayısı döndürürx β y = β x .yyyxxxββ\betay=βx.y=βx.y = \beta x. Bugün toplam en küçük kareleri öğrendim ve bu princomp()işlevi (temel bileşen analizi, PCA) gerçekleştirmek için kullanılabiliyor. Benim için iyi olmalı (daha doğru). princomp()Gibi bazı testler …

29 r pca least-squares deming-regression total-least-squares

3

Kolmogorov-Smirnov testi kesikli dağılımlarda geçerli midir?

Bir örneği karşılaştırıp bazı, ayrık, dağılım olarak dağıtıp dağıtmadığını kontrol ediyorum. Ancak, Kolmogorov-Smirnov'un uygulandığından emin değilim. Vikipedi öyle olmadığı anlamına geliyor. Olmazsa, numunenin dağılımını nasıl test edebilirim?

29 hypothesis-testing discrete-data kolmogorov-smirnov

11

İstatistiksel podcast'ler

İstatistiksel analiz ile ilgili bazı podcast'ler nelerdir? ITunes U'da kolej derslerinin bazı kayıtlarını buldum, ancak istatistiksel podcast'lerin farkında değilim. Bildiğim en yakın şey, bir araştırma araştırması podcast The Better of Science . İstatistiksel konulara değiniyor, ancak özellikle istatistiksel bir gösteri değil.

29 references

6

İkili sınıflandırma için değişken seçim prosedürü

Ne tercih ettiğiniz değişken / özellik seçimi çok daha fazla değişken olduğunda öğrenme kümesindeki gözlemler daha / ikili sınıflandırma için özellik? Buradaki amaç, sınıflandırma hatasını en iyi azaltan özellik seçim prosedürünün ne olduğunu tartışmaktır. Biz yapabilirsiniz gösterimler düzeltmek tutarlılık için: için , let olmak gözlemlerin öğrenme seti grubundan . Yani …

29 machine-learning classification multiple-comparisons multivariate-analysis feature-selection

6

Sonlu varyans testi?

Bir örnek verilen rastgele değişkenin varyansının doğruluğunu (veya varlığını) test etmek mümkün müdür? Boş değer olarak, {varyans var ve sonludur} veya {varyans yoktur / sonsuzdur} kabul edilebilir. Felsefi olarak (ve hesaplamalı olarak), bu çok garip görünüyor çünkü sonlu değişkenliği olmayan bir popülasyon arasında bir fark olmamalı ve çok çok büyük …

29 hypothesis-testing variance central-limit-theorem

6

Bir d20'nin adaletini nasıl test edebilirim?

Yirmi yüzlü bir kalıbın dürüstlüğünü nasıl test edebilirim (d20)? Açıkçası, değerlerin dağılımını tek tip bir dağılıma karşı karşılaştırıyor olacağım. Üniversitede Ki-kare testi kullandığını belli belirsiz hatırlıyorum. Bir ölünün adil olup olmadığını görmek için bunu nasıl uygulayabilirim?

29 hypothesis-testing chi-squared goodness-of-fit uniform dice

1

Ortalama Mutlak Yüzde Hatası (MAPE) eksiklikleri nelerdir?

Ortalama Mutlak Yüzde Hata ( mape ), zaman serisi veya diğer tahminler için ortak bir doğruluk veya hata ölçüsüdür MAPE=100n∑t=1n|At−Ft|At%,MAPE=100n∑t=1n|At−Ft|At%, \text{MAPE} = \frac{100}{n}\sum_{t=1}^n\frac{|A_t-F_t|}{A_t}\%, buradaki , ve tahminlere veya tahminlere karşılık gelir.AtAtA_tFtFtF_t MAPE bir yüzdedir, bu yüzden seriyi kolayca karşılaştırabiliriz ve insanlar yüzdeleri kolayca anlayabilir ve yorumlayabilir. Ancak MAPE'nin sakıncaları olduğunu …

29 accuracy mape

1

Önyükleme tahmini aralığı

Örneğin doğrusal regresyondan veya diğer regresyon yönteminden (k-en yakın komşu, regresyon ağaçları vb.) Elde edilen nokta tahminleri için tahmin aralıklarını hesaplamak için mevcut herhangi bir önyükleme tekniği var mı? Her nasılsa, bazen kestirilen nokta tahminini sadece ön plana çıkarmak için önerilen yolun (bakınız örn. KNN regresyonunun öngörülen aralık aralıkları) bir …

29 bootstrap prediction-interval

3

Scikit-learn kullanarak polinom regresyon

Scikit-learn'ı polinom regresyonu için kullanmaya çalışıyorum. Okuduğum kadarıyla polinom regresyonu özel bir lineer regresyon vakasıdır. Belki de bir scikit'in genelleştirilmiş doğrusal modellerinden birinin daha yüksek dereceli polinomlara uyması için parametreleştirilebileceğini ümit ediyordum ama bunun için bir seçenek göremiyorum. Poli çekirdekli bir Support Vector Regressor kullanmayı başardım. Bu, verilerimin bir alt …

29 regression machine-learning large-data polynomial scikit-learn

4

McFadden'ın Sözde-R2 Yorumlanması

McFadden'in takma adı 0.192 olan ve R1 karesinin ödemeli denilen bağımlı değişkenli (1 = ödeme ve 0 = ödeme yok) olan ikili bir lojistik regresyon modeline sahibim. Bu sözde R-kare'nin yorumlanması nedir? Yuvalanmış modeller için göreceli bir karşılaştırma mı (örn. 6 değişkenli bir modelde, McFadden'ın 0.192 karesi olan R-karesi var, …

29 regression self-study logistic

1

Poisson modellerinin çapraz doğrulanması için hata ölçümleri

Sayımı tahmin etmeye çalışan bir modeli çapraz onaylıyorum. Bu ikili bir sınıflandırma problemi olsaydı, katlanma dışı AUC'yi hesaplardım ve bu bir regresyon sorunu olsaydı, katlanma dışı RMSE ya da MAE'yi hesaplardım. Poisson modelinde, örnek dışı tahminlerin "doğruluğunu" değerlendirmek için hangi hata ölçümlerini kullanabilirim? Tahminlerin gerçek değerleri ne kadar iyi sipariş …

29 cross-validation poisson-distribution count-data deviance scoring-rules

4

Nasıl RMSLE (Kök Ortalama Kareli Logaritmik Hata) yorumlayabilirsiniz?

Bir ekipman kategorisinin satış fiyatını tahmin eden performansı değerlendirmek için RMSLE (Ortalama Ortalama Karesel Logaritmik Hatası) kullandıkları bir makine öğrenme yarışması yapıyorum. Sorun nihai sonucumun başarısını nasıl yorumlayacağımdan emin değilim. Örneğin, bir RMSLE'ye , üstel gücü yükseltip rmse gibi yorumlayabilir miyim? (yani, )1.0521.0521.052eeee1.052=2.863=RMSEe1.052=2.863=RMSEe^{1.052}=2.863=RMSE Tahminlerimin , gerçek fiyatlardan ortalama olarak olduğunu …

29 regression machine-learning interpretation measurement-error theory

2

Makine öğrenmesi sınıflandırıcılarının performansını istatistiksel olarak nasıl karşılaştırabilirim?

Tahmini sınıflandırma doğruluğuna dayanarak, bir sınıflandırıcının başka bir sınıflandırıcıya göre ayarlanan bir temelde istatistiksel olarak daha iyi olup olmadığını test etmek istiyorum. Her sınıflandırıcı için, temel setten rastgele bir eğitim ve test örneği seçiyorum, modeli eğitiyorum ve modeli test ediyorum. Bunu her sınıflandırıcı için on kez yapıyorum. Bu nedenle her …

29 machine-learning classification t-test