İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

4
Sınıflandırma olasılığı eşiği
Genel olarak sınıflandırma ile ilgili bir sorum var. F bazı verilerle verilen bir olasılık kümesi ortaya çıkaran bir sınıflandırıcı olsun. D Normalde biri şöyle der: p: p (c | D)> 0.5 ise 1. sınıfa, aksi takdirde 0 atarız (bunun bir ikili olmasına izin verin). sınıflama). Benim sorum şu, ne öğrenirsem, …


2
Kişi farklı örneklem büyüklüklerinden ortalamaların karşılaştırmasını nasıl yorumlamalıdır?
Bir web sitesinde kitap puanları örneğini alın. A kitabı, ortalama 4.25 puanla 10.000 kişi ve varyansı ile değerlendirilmektedir . Benzer şekilde, B Kitabı 100 kişi tarafından derecelendirilmiştir ve ile 4.5 .σ=0.5σ=0.5\sigma = 0.5σ=0.25σ=0.25\sigma = 0.25 Şimdi Kitap A'nın büyük örneklem büyüklüğü nedeniyle, "ortalama 4.25'e sabitlendi". Şimdi 100 kişi için, eğer …


1
Önyükleme vs jackknife
Hem önyükleme hem de jackknife yöntemleri yanlılığı ve standart bir tahminin hatasını tahmin etmek için kullanılabilir ve her iki yeniden örnekleme yönteminin mekanizmaları çok da farklı değildir: değiştirme ile örnekleme ve her seferinde bir gözlem yapma. Ancak, jackknife araştırma ve uygulamada bootstrap kadar popüler değildir. Jackknife kullanmak yerine bootstrap kullanmanın …

4
Neden X ve XY rastgele değişkenleri arasındaki korelasyon katsayısı 0.7 olma eğilimindedir?
Alındığı Tıbbi Araştırma Pratik İstatistik Douglas Altman sayfa 285 yazıyor: ... herhangi iki miktar X ve Y için, X, XY ile ilişkilendirilecektir. Gerçekten, X ve Y, rastgele sayılardan oluşan örnekler olsa bile, X ve XY arasındaki korelasyonun 0.7 olmasını beklerdik. Bunu R'de denedim ve durum böyle görünüyor: x <- rnorm(1000000, …

6
Amazon'un “ortalama puanı” yanıltıcı mıdır?
Doğru anlarsam, 1-5 arası kitap derecelendirme Likert puanlarıdır. Yani, benim için bir 3 mutlaka bir başkası için bir 3 olmayabilir. Sıralı bir ölçek IMO. Kişi gerçekten sıralı skalaları ortalamamalı, ancak kesinlikle mod, ortanca ve yüzdelik harfleri alabilir. Bu yüzden hiç 'Tamam' olduğunu kuralları esnetmeye nüfusun büyük bir kısmı anlar beri …

3
Lojistik regresyon neden doğrusal bir sınıflandırıcıdır?
Girdilin doğrusal bir kombinasyonunu doğrusal olmayan bir çıktıya dönüştürmek için lojistik işlevini kullandığımızdan, lojistik regresyon nasıl doğrusal bir sınıflandırıcı olarak değerlendirilebilir? Doğrusal regresyon, gizli katmanı olmayan bir sinir ağı gibidir; peki neden sinir ağları doğrusal olmayan sınıflandırıcılar olarak kabul edilir ve lojistik regresyon neden doğrusaldır?


2
Rasgele etkiler, sabit etkiler ve marjinal model arasındaki fark nedir?
İstatistik bilgilerimi genişletmeye çalışıyorum. OLS regresyon - Ben fiziksel testler geçmişinden istatistiksel teste “tarife dayalı” bir yaklaşımla geliyorum , sürekli olduğunu söylüyoruz , normal dağılmış - OLS regresyon . Okuduğumda şu terimlerle karşılaştım: rastgele etki modeli, sabit etki modeli, marjinal model. Benim sorularım: Çok basit bir ifadeyle, bunlar nedir? Aralarındaki …

6
Hassasiyet, özgüllük, kesinlik, kesinlik ve hatırlama arasındaki farkı hatırlamanın en iyi yolu nedir?
Bu şartları 502847894789 kez görmüş olmama rağmen, yaşamım boyunca hassasiyet, özgüllük, kesinlik, kesinlik ve hatırlama arasındaki farkı hatırlayamıyorum. Oldukça basit kavramlar, ancak isimler benim için son derece sezgisel değil, bu yüzden birbirleriyle karıştırılmaya devam ediyorum. Bu kavramları düşünmenin iyi bir yolu nedir, böylece isimler anlamlı olmaya başlar? Başka bir deyişle, …

4
Korelasyon = 0,2, “5 kişiden sadece birinde” dernek olduğu anlamına mı geliyor?
In Idiot Beyin: Bir Neuroscientist Your Head Gerçekten Kadar nedir açıklar Dean Burnett yazdı Yükseklik ve zeka arasındaki ilişki genellikle yaklaşık olarak çağırılır , yükseklik ve istihbarat sadece ilişkili görünmektedir anlam içinde kişilik.0.20.20.2111555 Bana göre, bu yanlış ses: Ben, o kişi hakkında bildiğimiz tek şey diğer ölçü ise (burada yükseklik), …

3
Sürekli vs Özyinelemeli Yapay Sinir Ağları: NLP için hangisi daha iyi?
Tekrarlayan Sinir Ağları ve Özyinelemeli Sinir Ağları vardır. Her ikisi de genellikle aynı kısaltma ile gösterilir: RNN. Wikipedia'ya göre , Recurrent NN aslında Recursive NN'dir, ancak açıklamayı gerçekten anlamıyorum. Dahası, Doğal Dil İşleme için hangisinin daha iyi olduğunu (örneklerle ya da öylesine) bulmuyorum. Gerçek şu ki, Socher öğreticisinde NLP için …


7
Ki-kare her zaman tek taraflı bir test midir?
Yayınlanan bir makale ( pdf ) bu 2 cümleyi içermektedir: Ayrıca, yanlış raporlama yanlış kuralların uygulanmasından veya istatistiksel testin bilgisi eksikliğinden kaynaklanabilir. Örneğin, bir ANOVA'daki toplam df, bir testinin rapor edilmesinde df hatası olarak alınabilir veya araştırmacı, elde etmek için , bir veya testinin bildirilen p değerini ikiye bölebilir bir …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.