İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap


2
-kat çapraz onaylamada optimum kıvrım sayısı : bir-bir-dışa CV bırakma her zaman en iyi seçenek midir?
Hesaplama gücü hususları bir yana, çapraz onaylamada katlanma sayısının arttırılmasının daha iyi model seçimi / onaylamaya yol açtığına inanmak için herhangi bir sebep var mı (yani kat sayısı arttıkça daha iyi)? Tartışmayı aşırı uç noktaya götürmek, dışarıda bırakmayı bırakma çapraz doğrulama mutlaka -katlı çapraz doğrulamadan daha iyi modellere yol açar …

5
QQplot'u Yorumlama - Normallik için karar vermek için herhangi bir kural var mı?
QQplot'un diğer normal testlerden daha bilgilendirici olabileceğini anlamak için QQplot'lar hakkında yeterince konu okudum. Ancak, QQplotları yorumlama konusunda deneyimsizim. Ben çok googled; Normal olmayan QQplot'ların birçok grafiğini buldum, ancak bunların nasıl yorumlanacağına dair net bir kural yoktu, bildiğiniz dağılımlar ve "içgüdü hissi" ile karşılaştırılması gibi. Normal olmama konusunda karar vermenize …


2
Eğri çizgiler verinin üzerinde duruyor mu?
Sorunum : Kısa süre önce, spline'ların yalnızca verileri araştırmak için yararlı olduğunu ve fazladan incelemeye maruz kaldığını, bu nedenle öngörmede fayda sağlamadığını bildiren bir istatistikçiyle tanıştım. Basit polinomlarla keşif yapmayı tercih etti ... Spline'ların büyük bir hayranı olduğum için ve bu sezgime aykırı olduğu için, bu argümanların ne kadar geçerli …

4
Beklenti neden aritmetik ortalama olarak aynı?
Bugün Matematiksel Beklenti adlı yeni bir konu ile karşılaştım. Takip ettiğim kitapta beklenti, herhangi bir olasılık dağılımından gelen rastgele değişkenin aritmetik ortalamasıdır. Ancak, beklentiyi, bazı verilerin ürününün toplamı ve bunun olasılığı olarak tanımlar. Bu ikisi (ortalama ve beklenti) nasıl aynı olabilir? Olasılık sürelerinin toplamı verilerin tüm dağılımın ortalaması nasıl olabilir?


4
Lojistik regresyon altkümesi seçimi nasıl yapılır?
R'ye binom bir aile glm yerleştiriyorum ve açıklayıcı değişkenler grubum var ve en iyisini bulmam gerekiyor (ölçü olarak R kare). Açıklayıcı değişkenlerin rastgele farklı kombinasyonları arasında dolaşmak için bir senaryo yazmak ve ardından en iyisini yapan kayıt yapmak için ne yapacağımı bilemiyorum. Ve leapspaket dan işlev sıçramalar lojistik regresyon yapmak …
47 r  logistic 

6
Bayes istatistik öğreticisi
Bayesian İstatistiklerinde hız kazanmaya çalışıyorum. Biraz istatistik arka planım var (STAT 101) ama fazla değil - Sanırım daha önce, posterior ve olasılıkları anlayabiliyorum: D. Henüz bir Bayesian ders kitabı okumak istemiyorum. Beni hızlı bir şekilde hızlandıracak bir kaynaktan (web sitesi tercih edilir) okumayı tercih ederim. Gibi bir şey bu , …

5
Kendi paketini yazmaya hazırlanmak için ilk R paketleri kaynak kodu
R paketleri yazmaya başlamayı planlıyorum. Paket inşaat sözleşmelerini öğrenmek için mevcut paketlerin kaynak kodunu incelemenin iyi olacağını düşündüm. İyi paketlerin çalışması için kriterlerim: Basit istatistiksel / teknik fikirler : Amaç, paket inşasının mekaniği hakkında bilgi edinmektir. Paketin anlaşılması, paketin asıl konusu hakkında ayrıntılı yüksek etki alanına özgü bilgiler gerektirmemelidir. Basit …
47 r 

15
En kafa karıştırıcı istatistiksel terimler
Biz istatistikçiler, pek çok kelimeyi, başkalarının kullandıklarından biraz farklı şekillerde kullanıyoruz. Bu ne yaptığımızı öğrettiğimiz veya açıkladığımız zaman birçok soruna neden olur. Bir liste başlayacağım (ve şimdi yorum başına bazı tanımlar ekleyeceğim): Güç, yanlış bir boş hipotezi doğru bir şekilde reddetme yeteneğidir. Genellikle, bu doğru "bir şeyler oluyor" demek anlamına …

3
Eğri şekline göre zaman serileri kümelemesi yapılabilir mi?
Bir dizi satış noktası için satış verilerim var ve bunları zaman içindeki eğrilerinin şekline göre kategorize etmek istiyorum. Veriler kabaca bu gibi gözüküyor (ancak açıkça rastgele değil ve bazı eksik veriler var): n.quarters <- 100 n.stores <- 20 if (exists("test.data")){ rm(test.data) } for (i in 1:n.stores){ interval <- runif(1, 1, …


14
Güven aralıklarını yorumlama konusunda açıklama mı?
"Güven seviyesi " güven aralığı ile güven aralığı nosyonu hakkındaki şu anki anlayışım , güven aralığını birçok kez (yeni bir örnekle her seferinde) hesaplamaya kalkıştığımızda, doğru parametrenin değerini içermesidir . saati.1 - α1 - α1−α1 - \alpha1 - α1−α1 - \alpha Bunun "gerçek parametrenin bu aralıkta yatma olasılığı" ile aynı …

3
Pearson korelasyonunun zaman serileri ile doğru kullanımı
Ne kadar korelasyon gösterdiklerini görmek için çapraz korelasyon kurmak istediğim 2 zaman serisine (her ikisi de pürüzsüz) sahibim. Pearson korelasyon katsayısını kullanmak niyetindeyim. Bu uygun mu? İkinci sorum ise istediğim gibi 2 zaman serisini örneklemeyi seçebildiğim. yani kaç tane veri noktasını seçeceğimizi seçebiliyorum. Bu çıktı olan korelasyon katsayısını etkiler mi? …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.