İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap


4
2x2'den büyük acil durum tablolarında Fisher'in Kesin Testi
Sadece Fisher'in Kesin Testini 2x2 olan beklenmedik durum tablolarında uygulamam öğretildi. Sorular: Fisher, bu testin 2x2'den daha büyük tablolarda kullanılmasını hiç öngördü mü ( Yaşlı bir kadının süte sütün eklenmesi veya çayın eklenip eklenmediğini söyleyip söylemediğini tahmin etmeye çalışırken testi tasarlamasının öyküsünün farkındayım ). Stata, Fisher'ın kesin testini herhangi bir …

3
PCA ile ortogonal regresyon (toplam en küçük kareler) nasıl yapılır?
Her zaman lm()R'de üzerindeki lineer regresyonunu yapmak için kullanırım . Bu işlev , bir katsayısı döndürürx β y = β x .yyyxxxββ\betay=βx.y=βx.y = \beta x. Bugün toplam en küçük kareleri öğrendim ve bu princomp()işlevi (temel bileşen analizi, PCA) gerçekleştirmek için kullanılabiliyor. Benim için iyi olmalı (daha doğru). princomp()Gibi bazı testler …


11
İstatistiksel podcast'ler
İstatistiksel analiz ile ilgili bazı podcast'ler nelerdir? ITunes U'da kolej derslerinin bazı kayıtlarını buldum, ancak istatistiksel podcast'lerin farkında değilim. Bildiğim en yakın şey, bir araştırma araştırması podcast The Better of Science . İstatistiksel konulara değiniyor, ancak özellikle istatistiksel bir gösteri değil.
29 references 

6
İkili sınıflandırma için değişken seçim prosedürü
Ne tercih ettiğiniz değişken / özellik seçimi çok daha fazla değişken olduğunda öğrenme kümesindeki gözlemler daha / ikili sınıflandırma için özellik? Buradaki amaç, sınıflandırma hatasını en iyi azaltan özellik seçim prosedürünün ne olduğunu tartışmaktır. Biz yapabilirsiniz gösterimler düzeltmek tutarlılık için: için , let olmak gözlemlerin öğrenme seti grubundan . Yani …

6
Sonlu varyans testi?
Bir örnek verilen rastgele değişkenin varyansının doğruluğunu (veya varlığını) test etmek mümkün müdür? Boş değer olarak, {varyans var ve sonludur} veya {varyans yoktur / sonsuzdur} kabul edilebilir. Felsefi olarak (ve hesaplamalı olarak), bu çok garip görünüyor çünkü sonlu değişkenliği olmayan bir popülasyon arasında bir fark olmamalı ve çok çok büyük …


1
Ortalama Mutlak Yüzde Hatası (MAPE) eksiklikleri nelerdir?
Ortalama Mutlak Yüzde Hata ( mape ), zaman serisi veya diğer tahminler için ortak bir doğruluk veya hata ölçüsüdür MAPE=100n∑t=1n|At−Ft|At%,MAPE=100n∑t=1n|At−Ft|At%, \text{MAPE} = \frac{100}{n}\sum_{t=1}^n\frac{|A_t-F_t|}{A_t}\%, buradaki , ve tahminlere veya tahminlere karşılık gelir.AtAtA_tFtFtF_t MAPE bir yüzdedir, bu yüzden seriyi kolayca karşılaştırabiliriz ve insanlar yüzdeleri kolayca anlayabilir ve yorumlayabilir. Ancak MAPE'nin sakıncaları olduğunu …
29 accuracy  mape 

1
Önyükleme tahmini aralığı
Örneğin doğrusal regresyondan veya diğer regresyon yönteminden (k-en yakın komşu, regresyon ağaçları vb.) Elde edilen nokta tahminleri için tahmin aralıklarını hesaplamak için mevcut herhangi bir önyükleme tekniği var mı? Her nasılsa, bazen kestirilen nokta tahminini sadece ön plana çıkarmak için önerilen yolun (bakınız örn. KNN regresyonunun öngörülen aralık aralıkları) bir …

3
Scikit-learn kullanarak polinom regresyon
Scikit-learn'ı polinom regresyonu için kullanmaya çalışıyorum. Okuduğum kadarıyla polinom regresyonu özel bir lineer regresyon vakasıdır. Belki de bir scikit'in genelleştirilmiş doğrusal modellerinden birinin daha yüksek dereceli polinomlara uyması için parametreleştirilebileceğini ümit ediyordum ama bunun için bir seçenek göremiyorum. Poli çekirdekli bir Support Vector Regressor kullanmayı başardım. Bu, verilerimin bir alt …

4
McFadden'ın Sözde-R2 Yorumlanması
McFadden'in takma adı 0.192 olan ve R1 karesinin ödemeli denilen bağımlı değişkenli (1 = ödeme ve 0 = ödeme yok) olan ikili bir lojistik regresyon modeline sahibim. Bu sözde R-kare'nin yorumlanması nedir? Yuvalanmış modeller için göreceli bir karşılaştırma mı (örn. 6 değişkenli bir modelde, McFadden'ın 0.192 karesi olan R-karesi var, …

1
Poisson modellerinin çapraz doğrulanması için hata ölçümleri
Sayımı tahmin etmeye çalışan bir modeli çapraz onaylıyorum. Bu ikili bir sınıflandırma problemi olsaydı, katlanma dışı AUC'yi hesaplardım ve bu bir regresyon sorunu olsaydı, katlanma dışı RMSE ya da MAE'yi hesaplardım. Poisson modelinde, örnek dışı tahminlerin "doğruluğunu" değerlendirmek için hangi hata ölçümlerini kullanabilirim? Tahminlerin gerçek değerleri ne kadar iyi sipariş …

4
Nasıl RMSLE (Kök Ortalama Kareli Logaritmik Hata) yorumlayabilirsiniz?
Bir ekipman kategorisinin satış fiyatını tahmin eden performansı değerlendirmek için RMSLE (Ortalama Ortalama Karesel Logaritmik Hatası) kullandıkları bir makine öğrenme yarışması yapıyorum. Sorun nihai sonucumun başarısını nasıl yorumlayacağımdan emin değilim. Örneğin, bir RMSLE'ye , üstel gücü yükseltip rmse gibi yorumlayabilir miyim? (yani, )1.0521.0521.052eeee1.052=2.863=RMSEe1.052=2.863=RMSEe^{1.052}=2.863=RMSE Tahminlerimin , gerçek fiyatlardan ortalama olarak olduğunu …

2
Makine öğrenmesi sınıflandırıcılarının performansını istatistiksel olarak nasıl karşılaştırabilirim?
Tahmini sınıflandırma doğruluğuna dayanarak, bir sınıflandırıcının başka bir sınıflandırıcıya göre ayarlanan bir temelde istatistiksel olarak daha iyi olup olmadığını test etmek istiyorum. Her sınıflandırıcı için, temel setten rastgele bir eğitim ve test örneği seçiyorum, modeli eğitiyorum ve modeli test ediyorum. Bunu her sınıflandırıcı için on kez yapıyorum. Bu nedenle her …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.