İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

3
Negatif olasılıklar / olasılık genlikleri kuantum mekaniğinin dışında uygulamalara sahip midir?
Kuantum Mekaniği, olasılık teorisini negatif / hayali sayılara, çoğunlukla girişim kalıplarını, dalga / parçacık dualitesini ve genel olarak bunun gibi garip şeyleri açıklamak için genelleştirmiştir. Bununla birlikte, Bayesian olasılığın değişmeyen bir genellemesi (Terrence Tao'dan alıntı) olarak daha soyut görülebilir. Hiçbir şey bir uzman olmasa da, bu şeyleri merak ediyorum. Bunun …

9
Büyük veri kümeleriyle başa çıkmak için istatistik ve veri madenciliği yazılım araçları
Şu anda yaklaşık 20M kayıtları analiz etmeli ve tahmin modelleri oluşturmalıyım. Şimdiye kadar Statistica, SPSS, RapidMiner ve R'yi denedim. Bu Statistica arasında veri madenciliği ile uğraşmak en uygun gibi görünüyor ve RapidMiner kullanıcı arayüzü de çok kullanışlı, ancak Statistica, RapidMiner ve SPSS'in sadece daha küçük veri setleri için uygun olduğu …

2
R kullanarak zaman serilerinin STL trendi
Ben R ve zaman serileri analizinde yeniyim. Uzun (40 yıl) bir günlük sıcaklık süresi serisinin eğilimini bulmaya çalışıyorum ve farklı yaklaşımlar denedim. Birincisi sadece basit bir doğrusal regresyon ve ikincisi Loess'ın Time Serisinin Mevsimsel Ayrışması. İkincisi, mevsimsel bileşen eğiliminden daha büyük olduğu görülmektedir. Fakat trendi nasıl ölçebilirim? Bu trendin ne …
27 r  time-series  trend 

2
Korelasyon verilerin durağanlığını varsayıyor mu?
Piyasalar arası analiz, farklı pazarlar arasındaki ilişkileri bulmak yoluyla piyasa davranışını modelleme yöntemidir. Çoğu zaman, S&P 500 ve 30 Yıllık ABD hazineleri, iki pazar arasında bir korelasyon hesaplanır. Bu hesaplamalar, sabit zaman serisi tanımına uymadığı herkes için açık olan fiyat verilerine dayanmaktan çok daha sıktır. Olası çözümler bir yana (bunun …

6
Binom ve Beta dağılımları arasındaki ilişki
Bir istatistikçiden çok bir programcıyım, bu yüzden umarım bu soru çok saf değildir. Rastgele zamanlarda örnekleme program uygulamalarında olur. Programın durumunun N = 10 rasgele zamanlı örneğini alırsam, Foo işlevinin yürütülmekte olduğunu görebiliyordum, örneğin bu örneklerden I = 3. Bana, Foo'nun uygulandığı F zamanının gerçek kesirinden bahseden şeyle ilgileniyorum. Binom …

5
İstatistiksel bir bakış açısıyla, gözlemsel bir çalışma ile eğilim puanları kullanarak bir nedensellik çıkarımı olabilir mi?
Soru: İstatistikçi (veya bir uygulayıcı) açısından bakıldığında, gözlemsel bir çalışma ile eğilim puanları kullanarak ( bir deney değil ) nedensellik ortaya çıkabilir mi? Lütfen, bir alev savaşı veya fanatik bir tartışma başlatmak istemeyin. Amaç: Stat doktora programımızda sadece çalışma grupları ve birkaç konu oturumuyla nedensel çıkarımlara dokunduk. Bununla birlikte, diğer …


4
Scrabble'da bir harf kutusundan bir kelime çizememe olasılığı
Her birinin üzerinde bir harf bulunan taşlı bir çantanız olduğunu varsayalım . Orada 'A' harfi ile fayans 'B' ile, vb, ve 'joker' karolar (Elimizdeki ). Sonlu sözcüklerden oluşan bir sözlüğünüz olduğunu varsayalım. Torbadan değiştirmeden karoları seçersiniz . Seçilen döşemeleri verilen sözlükten sıfır sözcük oluşturma olasılığını nasıl hesaplarsınız (veya tahmin edersiniz) …

4
Doğrulama kaybının artması, doğrulama doğruluğunun da artması nasıl mümkün olabilir?
CIFAR10 veri setinde basit bir sinir ağı eğitimi alıyorum. Bir süre sonra doğrulama kaybı artmaya başlarken doğrulama doğruluğu da artmaktadır. Test kaybı ve test doğruluğu gelişmeye devam ediyor. Bu nasıl mümkün olabilir? Validasyon kaybının artması durumunda doğruluğun azalması gerektiği görülmektedir. Not: Birkaç benzer soru var, ama kimse orada neler olduğunu …


2
Hassas Geri Çağırma Eğrisi (PR eğrisinin AUC'si) ve Ortalama Hassasiyet (AP) altındaki alan
Ortalama Hassasiyet (AP), Hassas Geri Çağırma Eğrisi altındaki Alan mı (PR eğrisi AUC'si)? DÜZENLE: PR AUC ve AP'deki farklılıklar hakkında bazı yorumlar. AUC, hassasiyetin yamuk enterpolasyonuyla elde edilir. Alternatif ve genellikle neredeyse eşdeğer bir ölçü, info.ap olarak döndürülen Ortalama Kesinliktir (AP). Bu, yeni bir pozitif örnek her çağrıldığında elde edilen …


4
Scikit-learn (veya başka herhangi bir python çerçevesini) kullanarak farklı tipte regresörlerin topluluğu
Regresyon görevini çözmeye çalışıyorum. 3 modelin farklı veri alt kümeleri için iyi çalıştığını öğrendim: LassoLARS, SVR ve Gradient Tree Boostting. Tüm bu 3 modeli kullanarak tahminlerde bulunduğumda ve sonra 'gerçek çıktı' tablosu yaptığımda ve 3 modelimin çıktılarını gördüğümde, modellerin en az birinin gerçekten gerçek çıktıya yakın olduğunu gördüm, ancak diğer …

1
predict () lmer Karışık Etki Modelleri için İşlev
Sorun: Diğer okuduğunuz mesajlarınpredict karışık etkiler için geçerli değildir lmer: [R] de {lme4} modelleri. Bu konuyu bir oyuncak veri seti ile keşfetmeye çalıştım ... Arka fon: Veri kümesi bu kaynaktan uyarlanır ve ... require(gsheet) data <- read.csv(text = gsheet2text('https://docs.google.com/spreadsheets/d/1QgtDcGJebyfW7TJsB8n6rAmsyAnlz1xkT3RuPFICTdk/edit?usp=sharing', format ='csv')) Bunlar ilk satırlar ve başlıklar: > head(data) Subject Auditorium …

6
Neden daha küçük ağırlıklar düzenli modellemede daha basit modellerle sonuçlanır?
Andrew Ng'nin Makine Öğrenimi kursunu bir yıl kadar önce tamamladım ve şimdi Lise Matematik araştırmamı Lojistik Regresyon çalışmalarına ve performansı optimize etmek için kullandığım tekniklere yazıyorum. Bu tekniklerden biri elbette düzenlileşmedir. Düzenlemenin amacı, maliyet fonksiyonunu model basitliği hedefini içerecek şekilde genişleterek fazladan takmayı önlemektir. Bunu, bazı düzenlileştirme paramaterleriyle çarpılan her …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.