İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

6
Olasılık dağılımı tekdüze olduğunda Entropi neden maksimize ediliyor?
Entropinin bir işlem / değişkenin rastgelelik ölçüsü olduğunu biliyorum ve şöyle tanımlanabilir. kümesindeki rastgele bir değişkeni için : - . MacKay'ın Entropi ve Enformasyon Teorisi kitabında, Ch2'deki bu açıklamayı sağlar.X∈X∈X \inbirAA'H( X) = ∑xben∈ A- p ( xben) günlük( p ( xben) )H(X)=∑xi∈A−p(xi)log⁡(p(xi))H(X)= \sum_{x_i \in A} -p(x_i) \log (p(x_i)) P …


1
CNN regresyon mimarileri?
Girişin bir görüntü olduğu ve etiketin 80 ile 350 arasında sürekli bir değer olduğu bir regresyon problemi üzerinde çalışıyorum. Bir reaksiyon gerçekleştikten sonra görüntüler bazı kimyasallara sahip. Ortaya çıkan renk, geride kalan başka bir kimyasal maddenin konsantrasyonunu gösterir ve modelin çıktısı budur - o kimyasal maddenin konsantrasyonu. Görüntüler döndürülebilir, çevrilebilir, …

5
LSTM birimlerini hücrelere karşı anlama
Bir süredir LSTM'leri inceliyorum. Her şeyin nasıl çalıştığını yüksek düzeyde anlıyorum. Ancak, onları Tensorflow kullanarak uygulayacağım BasicLSTMCell'in bir dizi birim (yani num_units) parametresi gerektirdiğini fark ettim . Gönderen bu LSTMs arasında çok kapsamlı bir açıklama, tek bir olduğunu topladık LSTM birimi aşağıdakilerden biridir ki bu aslında bir GRU birimidir. Bunun …


1
Ortak güven aralıklarını hesaplamak için Gauss korelasyon eşitsizliğinin sonuçları
Quanta Dergisi'ndeki bu çok ilginç makaleye göre: "Uzun Aranan, Bulunan ve Neredeyse Kayıp Olan Bir Kanıt" , - çok değişkenli bir vektör verildiği kanıtlanmıştır. Gauss dağılımı ve verilen aralıklarla mukabil bileşenlerinin araçlarının etrafında sonra,x=(x1,…,xn)x=(x1,…,xn)\mathbf{x}=(x_1,\dots,x_n)I1,…,InI1,…,InI_1,\dots,I_n xx\mathbf{x} p(x1∈I1,…,xn∈In)≥∏i=1np(xi∈Ii)p(x1∈I1,…,xn∈In)≥∏i=1np(xi∈Ii)p(x_1\in I_1, \dots, x_n\in I_n)\geq \prod_{i=1}^n p(x_i\in I_i) (Gauss korelasyon eşitsizliği veya GCI; daha genel …

2
Verileri görselleştirdikten sonra istatistiksel bir test yapmak - veri tarama?
Bu soruyu bir örnekle önereceğim. Sürekli ve kategorik değişkenlerim olan Boston'daki konut fiyat veri seti gibi bir veri setimin olduğunu varsayalım. Burada, 1-10 arasında bir "kalite" değişkeni ve satış fiyatı var. Verileri "düşük", "orta" ve "yüksek" kaliteli evlere (keyfi) kalite için kesikler oluşturarak ayırabilirim. Ardından, bu grupları kullanarak satış fiyatlarının …

4
Sınav sonucu binom midir?
İşte bana basit bir istatistik sorusu verildi. Gerçekten anladığımdan emin değilim. X = bir sınavda kazanılan puanların sayısı (çoktan seçmeli ve doğru cevap bir puandır). X binom dağıtılmış mı? Profesörün cevabı şuydu: Evet, çünkü sadece doğru ya da yanlış cevaplar var. Cevabım: Hayır, çünkü her sorunun farklı bir "başarı olasılığı" …

2
Lojistik Regresyon: Scikit Learn - Statsmodels'i öğrenin
Bu iki kütüphanenin lojistik regresyonundan elde edilen çıkışın neden farklı sonuçlar verdiğini anlamaya çalışıyorum. Veri setini UCLA idre öğreticisinden kullanıyorum , ve admitdayanarak tahmin ediyorum . kategorik değişken olarak kabul edilir, bu nedenle ilk önce bırakılan kukla değişkene dönüştürülür . Bir engelleme sütunu da eklenir.gregparankrankrank_1 df = pd.read_csv("https://stats.idre.ucla.edu/stat/data/binary.csv") y, X …

6
Parsimony hala altın standart mı olmalı?
Sadece bir düşünce: Parsimonif modeller, model seçiminde her zaman varsayılan hedef olmuştur, ancak bu yaklaşım ne derece eskidir? Parlamentoya olan eğilimimizin bir abaki ve slayt kuralları (ya da daha ciddi olarak modern olmayan bilgisayarlar) zamanının bir kalıntısı olduğunu merak ediyorum. Günümüzün bilgi işlem gücü, giderek daha fazla tahminde bulunma yeteneği …

2
OLS doğrusal regresyonunda maliyet fonksiyonu
Andrew Ng tarafından Coursera'da makine öğrenmesi hakkında verilen lineer regresyon dersiyle biraz kafam karıştı. Orada, karelerin toplamını en aza indiren bir maliyet işlevi verdi: 12m∑i=1m(hθ(X(i))−Y(i))212m∑i=1m(hθ(X(i))−Y(i))2 \frac{1}{2m} \sum _{i=1}^m \left(h_\theta(X^{(i)})-Y^{(i)}\right)^2 nereden geldiğini anlıyorum . Bence öyle yaptı ki, kare teriminde türev gerçekleştirdiğinde, kare terimdeki 2, yarı ile iptal edecektir. Ama nereden …

3
Uzun bir dizge listesinin (sözcüklerin) benzerlik gruplarında kümelenmesi
Elimde şu problem var: Çok uzun bir kelime listem var, muhtemelen isimler, soyadlar, vs. Bu kelime listesini kümelemeliyim, öyle ki benzer kelimeler, örneğin benzer düzenleme (Levenshtein) mesafeli kelimeler Aynı küme Örneğin, "algoritma" ve "alogrithm" aynı kümede görünmek için yüksek şansa sahip olmalıdır. Örüntü Tanıma literatüründe K-ortalama kümeleme, EM kümeleme gibi …

3
PCA'yı aşmak için Tensorflow'ta bir otomatik kodlayıcı oluşturma
Sinir Ağları ile Verilerin Boyutlarını Azaltan Hinton ve Salakhutdinov , Science 2006 , derin bir otomatik kodlayıcı kullanarak doğrusal olmayan bir PCA önerdi. Birkaç defa Tensorflowlu bir PCA otomatik kodlayıcı oluşturmaya ve eğitmeye çalıştım, ancak doğrusal PCA'dan daha iyi bir sonuç elde edemedim. Bir otomatik kodlayıcıyı nasıl verimli bir şekilde …

4
Winsorizing vs Trimming verilerinin göreceli faydaları nelerdir?
Winsorizing verileri , her bir uçtan belli bir yüzde değerine sahip bir veri kümesinin aşırı değerlerini değiştirmek anlamına gelirken, Kırpma veya Kesme, bu aşırı değerlerin kaldırılmasını içerir . Ortalama veya standart sapma gibi istatistikleri hesaplarken aykırı değerlerin etkisini azaltmak için her iki yöntemin de tartışmalı bir seçenek olduğunu her zaman …

5
Güven aralıkları hassasiyet hakkında ne söyler (eğer varsa)?
Morey ve arkadaşları (2015), güven aralıklarının yanıltıcı olduğunu ve bunların anlaşılmasıyla ilgili birçok önyargı bulunduğunu savunmaktadır. Diğerleri arasında, hassasiyet yanlışlıklarını aşağıdaki gibi tarif ederler: Kesinlik yanlışlığı Bir güven aralığı genişliğinin parametre hakkındaki bilgimizin kesinliğini gösterir. Dar güven aralıkları kesin bilgi gösterirken, geniş güven hataları kesin olmayan bilgileri gösterir. Bir tahminin …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.