İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

2
Olasılık eşitsizlikleri
Sınırsız rasgele değişkenlerin toplamı için bazı olasılık eşitsizlikleri arıyorum. Biri bana bazı düşünceler verebilir eğer gerçekten çok sevinirim. Benim sorunum gerçekte iki iri Gaussian'ın çarpımı olan sınırsız iid rasgele değişkenlerinin toplamının bazı belirli bir değeri aşması olasılığı üzerine üssel bir üst bulmaktır, yani, , ki burada , ve , dan …


3
Makine öğrenim yöntemlerinin StackExchange web sitelerinde uygulanması
Bir var Makine Öğrenimi ders bu dönem ve profesör bir bulmamızı istedi gerçek dünya problemi gibi, sınıfta tanıtılan makine öğrenme yöntemlerden biriyle bunu çözmek: Karar ağaçları Yapay Sinir Ağları Vektör makineleri desteklemek Örnek Tabanlı Öğrenme ( kNN , LWL ) Bayesian Ağları Takviye öğrenme Ben hayranları biriyim stackoverflow ve Stack …

5
Karakteristik fonksiyonların amacı nedir?
Bir kişinin yatmadan önce karakteristik bir fonksiyonun ne olduğunu ve pratikte nasıl kullanıldığını açıklayabileceğini umuyorum. Bunun pdf'in Fourier dönüşümü olduğunu okudum, bu yüzden sanırım ne olduğunu biliyorum , ancak hala amacını anlamıyorum. Birisi amacının sezgisel bir tarifini ve belki de tipik olarak nasıl kullanıldığına dair bir örnek verebilirse, bu harika …

2
Doğrusal regresyonda standartlaştırılmış açıklayıcı değişkenlerin ne zaman ve nasıl kullanılacağı
Doğrusal regresyon ile ilgili 2 basit sorum var: Açıklayıcı değişkenleri ne zaman standart hale getirmeniz önerilir? Tahmin, standartlaştırılmış değerlerle yapıldıktan sonra, yeni değerlerle nasıl tahmin edilebilir (yeni değerleri nasıl standartlaştırmalı)? Bazı referanslar yardımcı olabilir.


5
Çalışan istatistikçiler, frekansçı ve Bayesci çıkarımlar arasındaki farkı önemsiyor mu?
Bir yabancı olarak, birinin istatistiksel çıkarım yapması gerektiğine dair iki rakip görüş olduğu ortaya çıkmıştır. Her ikisi de çalışan istatistikçiler tarafından geçerli kabul edilen iki farklı yöntem midir? Birini seçmek daha çok felsefi bir soru olarak mı kabul edilir? Yoksa mevcut durum sorunlu olarak kabul ediliyor mu ve farklı yaklaşımları …

11
Açık Kaynak istatistiksel ders kitapları?
Ücretsiz istatistiksel ders kitapları sorusu gibi istatistiksel ders kitapları hakkında birkaç soru var . Ancak, örneğin Creative Commons lisansına sahip Açık Kaynak olan ders kitapları arıyorum . Bunun nedeni, diğer alanlardaki ders materyalinde hala temel istatistikler hakkında bir metin eklemek istemenizdir. Bu durumda, bu materyali yeniden yazmak yerine mevcut materyali …

7
Çapraz doğrulama nedensel çıkarım için kullanılabilir mi?
Tüm bağlamlarda çapraz onaylamaya aşinayım, yalnızca öngörücü doğruluğu artırmak amacıyla kullanılır. Değişkenler arasındaki tarafsız ilişkilerin tahmininde çapraz doğrulama mantığı geliştirilebilir mi? İken bu Richard Berk tarafından kağıt "nihai" regresyon modelinde parametre seçimi için numunenin dışarı beklemeye kullanımını gösterir (ve adım adım parametre seçimi iyi bir fikir değildir neden gösteriyor), hala …

7
Düzenleme neden Derin Sinir Ağlarını veri açlığına dönüştürmüyor?
Genel olarak Sinir Ağları ve özellikle de Derin Sinir Ağları bağlamında sıkça gündeme getirdiğim bir sorun, onların "aç veri" olduğudur - büyük bir veri setimiz olmadığı sürece iyi performans göstermiyorlar. hangi ağı eğitmek için. Anladığım kadarıyla, bunun NNets'in, özellikle Deep NNets'in çok fazla serbestlik derecesine sahip olmasından kaynaklanıyor olmasıdır. Dolayısıyla, …

1
P-değerlerim lojistik regresyon çıktısı, ki-kare testi ve OR için güven aralığı arasında neden farklılıklar gösteriyor?
Tedavi değişkenini ( Curevs. No Cure) aldıktan sonra sonuç değişkeninin iyileştirildiği lojistik bir regresyon oluşturdum . Bu çalışmada tüm hastalar tedavi gördü. Diyabetin bu sonuçla ilişkili olup olmadığını görmekle ilgileniyorum. R'de lojistik regresyon çıktım şöyle gözüküyor: Call: glm(formula = Cure ~ Diabetes, family = binomial(link = "logit"), data = All_patients) …

2
T-SNE ne zaman yanıltıcıdır?
Yazarlardan birinden alıntı: t-Dağıtılmış Stokastik Komşu Gömme (t-SNE), boyutsallığın azaltılması için yüksek boyutlu veri kümelerinin görselleştirilmesi için özellikle uygun bir ( ödüllü ) tekniktir. Bu yüzden kulağa çok hoş geliyor, ama Yazar konuşuyor. Yazardan bir başka alıntı (yeniden: yukarıda belirtilen rekabet): Bu yarışmadan ne aldın? Tahmin edicileri veriler üzerinde çalışmaya …

3
PCA veya FA'deki puanların veya yüklerin işaretinin bir anlamı var mı? İşareti tersine çevirebilir miyim?
İki farklı fonksiyon ( prcompve princomp) kullanarak R ile temel bileşen analizi (PCA) yaptım ve PCA puanlarının işaret olarak farklı olduğunu gözlemledim. Nasıl olabilir? Bunu düşün: set.seed(999) prcomp(data.frame(1:10,rnorm(10)))$x PC1 PC2 [1,] -4.508620 -0.2567655 [2,] -3.373772 -1.1369417 [3,] -2.679669 1.0903445 [4,] -1.615837 0.7108631 [5,] -0.548879 0.3093389 [6,] 0.481756 0.1639112 [7,] 1.656178 …
37 r  pca  factor-analysis 

3
R [rasgele] olarak rasgele sayı-Set.seed (N)
Bu sorunun zaten burada bir cevabı var: Rasgele sayı üretecindeki bir tohum tam olarak nedir? 3 cevaplar Birinin set.seed()R'de sahte rastgele sayı üretimi için kullandığını fark ediyorum . Ayrıca aynı sayıyı kullanarak, set.seed(123)sonuçları yeniden üretebileceğiniz sigortaları da anlıyorum . Ama anlamadığım, değerlerin kendileri ne anlama geldiğidir. Birkaç fonksiyonla oynuyorum ve …

3
Basit doğrusal regresyonda regresyon katsayısının varyansını elde etmek
Basit doğrusal regresyonda, , burada . Tahminciyi : burada ve , ve örnek aracıdır .y=β0+β1x+uy=β0+β1x+uy = \beta_0 + \beta_1 x + uu∼iidN(0,σ2)u∼iidN(0,σ2)u \sim iid\;\mathcal N(0,\sigma^2)β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 ,β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 , \hat{\beta_1} = \frac{\sum_i (x_i - \bar{x})(y_i - \bar{y})}{\sum_i (x_i - \bar{x})^2}\ , x¯x¯\bar{x}y¯y¯\bar{y}xxxyyy Şimdi varyansını bulmak istiyorum . gibi bir şey : β^1β^1\hat\beta_1Var(β1^)=σ2(1−1n)∑i(xi−x¯)2 …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.