İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

8
Örnekleme 'büyük veri' zamanında önemli midir?
Ya da daha fazla "olacak" mı? Büyük Veri , istatistikleri ve ilgili bilgileri daha da önemli hale getirir ancak Örnekleme Teorisinin altını çizer. Bu yutturmaca 'Büyük Veri' etrafında gördüm ve "neden" her şeyi analiz etmek isteyeyim merak ediyorum yardımcı olamaz ? "Örnekleme Teorisi" nin tasarlanması / uygulanması / icat edilmesi …

10
Doğru küme sayısına nasıl karar verilir?
Küme merkezlerini bulur ve çok iyi bilinen bir algoritma olan ve neredeyse net ağdaki her makine öğrenme paketinde bulunan k-ortalama kümelemesinde k farklı küme kutularına puanlar atarız . Ancak bence eksik ve en önemli kısım, doğru bir k seçimidir. Bunun için en iyi değer nedir? Ve en iyisi ile ne …

9
İstatistiklere uygulanan doğrusal cebir için referans kitabı?
Bir süredir R'de çalışıyorum ve PCA, SVD, QR ayrışımları ve bunun gibi birçok lineer cebir sonuçlarıyla (ağırlıklı gerilemeleri tahmin ederken teftiş ederken) bir şey hakkında bir tavsiyede bulunup bulunmadığını bilmek istedim. Çok teorik olmayan fakat matematiksel olarak titiz olan ve tüm bu konuları kapsayan kapsamlı doğrusal cebir kitabı.

2
Post-hoc testlerinden önce global bir teste ihtiyacımız var mı?
Bir ANOVA'dan sonra yapılan hoc sonrası testlerin yalnızca ANOVA'nın kendisi önemliyse kullanılabileceğini sıklıkla duyuyorum. Bununla birlikte, hoc sonrası testler global tip I hata oranını% 5'de tutmak için -değerlerini ayarlar , değil mi?ppp Öyleyse neden önce küresel teste ihtiyacımız var? Global bir teste ihtiyacımız yoksa, "post hoc" terminolojisi doğru mu? Yoksa …

5
Örnek medyanlar için merkezi limit teoremi
Aynı dağılımdan çizilen yeterince fazla sayıda gözlemin ortancasını hesaplarsam, merkezi limit teoremi medyanların dağılımının normal bir dağılıma yaklaşacağını belirtir mi? Anladığım kadarıyla, bu çok sayıda örneklem aracıyla doğru, ancak medyanlar için de doğru mu? Değilse, örnek medyanların altında yatan dağılım nedir?


5
Çoklu karşılaştırmalar için p değerlerini çoklu regresyonda ayarlamak iyi bir fikir midir?
Bir hizmet için talebin ilgili belirleyicilerini bulmaya çalışan bir sosyal bilim araştırmacısı / ekonometrikçi olduğunuzu varsayalım. Talebi tanımlayan 2 sonuca / bağımlı değişkene sahipsiniz (evet / hayır servisini ve durum sayısını kullanarak). Talebi teorik olarak açıklayabilecek 10 öngörücü / bağımsız değişkeniniz var (örneğin, yaş, cinsiyet, gelir, fiyat, ırk vb.). İki …

7
Çok sayıda özellik (> 10K) için en iyi PCA algoritması?
Bunu daha önce StackOverflow'ta sormuştum, ancak SO'da yanıt alamadığı için burada daha uygun olabilir gibi görünüyor. İstatistik ve programlama arasındaki kesişme noktasında. PCA (Asıl Bileşen Analizi) yapmak için bazı kodlar yazmam gerekiyor. Ben tanınmış algoritmalar aracılığıyla göz ve uyguladık bu bir bildiğim kadarıyla söyleyebilirim NIPALS algoritması eşdeğerdir. İlk 2-3 ana …

6
Matematikçiler için istatistiklere giriş
Olasılık konusunda zaten bilgili bir matematikçi için istatistiklere iyi bir giriş nedir? Sormak için iki farklı motivasyonum var, ki bunlar farklı önerilere yol açabilir: Olasılık uzmanları tarafından değerlendirilen birçok sorunun arkasındaki istatistik motivasyonunu daha iyi anlamak istiyorum. Bazen matematiksel varsayımlar oluşturmak için yaptığım Monte Carlo simülasyonlarının sonuçlarını nasıl daha iyi …
54 references 

19
Matematiksel İstatistikler Videolar
Matematiksel istatistik ders kitaplarında daha önce bir soru sorulmuştu. Matematiksel istatistiklerle ilgili iyi çevrimiçi video dersleri bilen var mı ? Bulduğum en yakın: Makine öğrenme Ekonometri GÜNCELLEME: Aşağıda belirtilen önerilerden bazıları iyi istatistik-101 tipi videodur. Ancak, özellikle istatistiklerin titiz bir matematiksel sunumunu sağlayan herhangi bir video olup olmadığını merak ediyorum. …


5
PCA'nın geometrik bir problemden (mesafeli) nasıl lineer cebir problemine (özvektörlerle) dönüştüğü konusunda sezgisel bir açıklama nedir?
Çeşitli öğreticiler ve (gibi soruların dahil PCA hakkında çok şey okudum bu bir , bu bir , bu bir ve bu bir ). PCA'nın optimize etmeye çalıştığı geometrik problem bana açıktır: PCA, yansıtılan verinin varyansını en üst düzeye çıkaran yeniden yapılandırma (projeksiyon) hatasını en aza indirerek ilk ana bileşeni bulmaya …

10
Bekletme doğrulama ve çapraz doğrulama
Bana göre, tutma onayının işe yaramaz olduğu görünüyor. Yani, orijinal veri setini iki bölüme ayırmak (eğitim ve test) ve test puanını genelleme ölçütü olarak kullanmak bir şekilde işe yaramaz. K-fold cross-validation, genelleme için daha iyi yaklaşımlar veriyor gibi görünüyor (her noktada eğitiyor ve test ediyor). Öyleyse neden standart bekletme onayını …

4
Kovaryans ve bağımsızlık?
Ders kitabımdan değerinin X ve Y'nin bağımsız olduğunu garanti etmediğini okudum . Fakat eğer bağımsızlarsa, kovaryansları 0 olmalıdır. Henüz herhangi bir uygun örnek düşünemedim; Biri bir tane sağlayabilir mi?cov ( X, Y) = 0cov(X,Y)=0\text{cov}(X,Y)=0

5
İstatistiki öğrenmede kimlik varsayımının önemi
İstatistiksel öğrenmede, dolaylı veya açık bir şekilde, kişi her zaman eğitim setinin giriş / yanıt dosyasından oluştuğunu varsayar. vardır , bağımsız bir şekilde, aynı ortak dağılım çekilen ileD={X,y}D={X,y}\mathcal{D} = \{ \bf {X}, \bf{y} \}NNNp ( X , Y )(Xi,yi)(Xi,yi)({\bf{X}}_i,y_i) P(X,y)P(X,y)\mathbb{P}({\bf{X}},y) p(X,y)=p(y|X)p(X)p(X,y)=p(y|X)p(X) p({\bf{X}},y) = p( y \vert {\bf{X}}) p({\bf{X}}) ve belirli …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.