İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

3
Tabakalı çapraz onaylamayı anlama
Tabakalı çapraz doğrulama ile çapraz doğrulama arasındaki fark nedir ? Wikipedia diyor ki: Gelen tabakalı k-kat çapraz doğrulama ortalama cevap değeri her kat içinde yaklaşık olarak eşit olduğu şekilde, katlar seçilir. İkili bir sınıflandırma söz konusu olduğunda, bu, her katlamanın kabaca iki sınıf etiket türünün aynı oranlarını içerdiği anlamına gelir. …


3
Veri API'leri / yayınları R’de paket olarak
EDIT: Web Teknolojileri ve Hizmetleri CRAN görev görünümü , R'de bulunan veri kaynaklarının ve API'lerin daha kapsamlı bir listesini içerir . Görev görünümüne bir paket eklemek istiyorsanız , github'dan bir çekme isteği gönderebilirsiniz . Zaten R'ye bağlı veya kurulumu kolay olan çeşitli veri yayınlarının bir listesini yapıyorum. İşte benim ilk …
53 r  references  dataset 

4
Korelasyonlu rasgele sayılar nasıl üretilir (verilen araçlar, varyanslar ve korelasyon derecesi)?
Bu çok basit görünüyorsa özür dilerim, ama sanırım burada anlayışı onaylamak istiyorum. Bunu iki adımda yapmak zorunda kalacağımı anladım ve korelasyon matrislerini kırmaya çalışmaya başladım, ancak gerçekten işe karışmış gibi görünmeye başladı. İlişkili rasgele sayılar oluşturmak için iyi ve ideal hızlı bir yolun (ideal olarak sahte kod çözümüne yönelik ipuçlarıyla) …

10
Python kullanarak Makine Öğrenmesi
Makine Öğrenimi deneylerimi yapmak için Python kütüphanelerini kullanmayı düşünüyorum. Şimdiye kadar WEKA'ya güveniyordum, ama genel olarak oldukça memnun kaldım. Bunun temel nedeni WEKA'nın o kadar iyi desteklenmediğini tespit etmem (çok az örnek, dokümantasyon seyrek ve topluluk desteği benim deneyimimden daha az isteniyor) ve kendimi yapışkan durumlarda kendime yardım etmeden bulmam. …

5
Ön tedavi sonrası kontrol tasarımlarını analiz ederken en iyi yöntem
Aşağıdaki ortak tasarımı düşünün: 100 katılımcı rastgele bir tedaviye veya kontrol grubuna atanır Bağımlı değişken sayısaldır ve tedavi öncesi ve sonrası ölçülmüştür. Bu tür verileri analiz etmek için üç açık seçenek şunlardır: Karma ANOVA'da grubu zaman etkileşimi etkisine göre test edin IV olarak koşullu bir ANCOVA yapın ve değişken olarak …

6
Verimli çevrimiçi doğrusal regresyon
Sıradan doğrusal regresyon yapmak istediğim bazı verileri analiz ediyorum, ancak sürekli veri girişi akışı (çevrimiçi olarak bellek için çok büyük olacak) ve ihtiyaç duyulan çevrimiçi bir ayar ile uğraşırken bu mümkün değil tüketilirken parametre tahminlerini güncellemek için. yani hepsini hafızaya yükleyemiyorum ve veri setinin tamamında doğrusal regresyon yapamıyorum. Basit bir …

9
Bir 2d ikili matrisin entropi / bilgi / kalıplarını ölçme
İki boyutlu bir ikili matrisin entropi / bilgi yoğunluğunu / kalıp benzerliğini ölçmek istiyorum. Açıklama için bazı resimler göstereyim: Bu ekran oldukça yüksek bir entropiye sahip olmalı: A) Bu orta entropiye sahip olmalı: B) Sonunda bu resimlerin hepsinin sıfıra yakın entropiye sahip olması gerekir: C) D) E) Entropiyi yakalayan bir …


5
Zaman serisi modellemesi için durum uzayı modellerinin ve Kalman Filtresinin dezavantajları nelerdir?
Durum-uzay modellerinin ve KF'nin tüm iyi özellikleri göz önüne alındığında, merak ediyorum - durum-uzay modellemesinin dezavantajları nelerdir ve Kalman Filtresi (veya EKF, UKF veya partikül filtresi) tahmini için kullanılır? Diyelim ki ARIMA, VAR veya geçici / sezgisel yöntemler gibi geleneksel metodolojiler diyelim. Kalibrasyonları zor mu? Bir modelin yapısındaki bir değişimin …

7
Genel bir zaman serisinin periyod tespiti
Bu gönderi, zaman serilerinde aykırı değer tespiti için genel bir yöntemle ilgili başka bir gönderinin devamıdır . Temel olarak, bu noktada, çok fazla gürültüden etkilenen jenerik bir zaman serisinin periyodikliğini / mevsimselliğini keşfetmek için güçlü bir yolla ilgileniyorum. Bir geliştirici bakış açısından, basit bir arayüz istiyorum: unsigned int discover_period(vector<double> v); …

5
Üstel çürüme ile Adam optimizer
Tensorflow kodlarının çoğunda, Adam Optimizer’ın sabit bir Öğrenme Hızı 1e-4(yani 0.0001) ile kullanıldığını gördüm . Kod genellikle aşağıdakilere bakar: ...build the model... # Add the optimizer train_op = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) # Add the ops to initialize variables. These will include # the optimizer slots added by AdamOptimizer(). init_op = tf.initialize_all_variables() # …

2
Doğrusal bir regresyon modelinde “sabit varyansa” sahip olmanın anlamı nedir?
Hata teriminde "sabit varyans" olması ne anlama geliyor? Gördüğüm gibi, bir bağımlı değişken ve bir bağımsız değişken içeren bir verimiz var. Sabit varyans, doğrusal regresyon varsayımlarından biridir. Eşcinselliğin ne anlama geldiğini merak ediyorum. 500 satırım olsa bile, açıkça sabit olan tek bir varyans değerim olacaktı. Varyansı hangi değişkenle karşılaştırmalıyım?

3
Zorunlu olmadıkça neden normal regresyonda dağıtılan hata terimlerini (ve homoskedasticity) neden bu kadar önemsiyoruz?
Sanırım birisinin artıkların ve / veya heteroskedastikliğin normal dışı olmasının OLS varsayımlarını ihlal ettiğini söylediğini duyduğumda sinirleniyorum. Bir OLS modelindeki parametreleri tahmin etmek için , bu varsayımların hiçbiri Gauss-Markov teoremi tarafından gerekli değildir. Bunun OLS modeli için Hipotez Testinde nasıl önemli olduğunu görüyorum , çünkü bu şeylerin bize t-testleri, F-testleri …

3
Model doğrulamasından önce veya içinde özellik normalizasyonu yapılıyor mu?
Makine Öğreniminde yaygın olarak kullanılan iyi bir uygulama, yordayıcı değişkenlerinin normalleştirilmesi veya veri standardizasyonu yapmaktır, işte bu, ortalamayı veren veriyi ortalamak ve varyansa (veya standart sapma ile) bölerek normalleştirmektir. Kendini kapsama ve anlamam için bunu iki ana şeyi başarmak için yapıyoruz: Sayısal stabilite amacıyla ekstra küçük model ağırlıklarından kaçının. Örneğin, …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.