İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

2
GAM'da bir etkileşim terimi nasıl dahil edilir?
Aşağıdaki kod, iki zaman serisi arasındaki benzerliği değerlendirir: set.seed(10) RandData <- rnorm(8760*2) America <- rep(c('NewYork','Miami'),each=8760) Date = seq(from=as.POSIXct("1991-01-01 00:00"), to=as.POSIXct("1991-12-31 23:00"), length=8760) DatNew <- data.frame(Loc = America, Doy = as.numeric(format(Date,format = "%j")), Tod = as.numeric(format(Date,format = "%H")), Temp = RandData, DecTime = rep(seq(1, length(RandData)/2) / (length(RandData)/2), 2)) require(mgcv) mod1 <- …

4
Matematiksel istatistik ile istatistik arasındaki fark nedir?
Matematiksel istatistik ile istatistik arasındaki fark nedir? Okuduğum ettik bu : İstatistik, verilerin toplanması, organizasyonu, analizi ve yorumlanması çalışmasıdır. Anketlerin ve deneylerin tasarımı açısından veri toplama planlaması dahil, bunun tüm yönleriyle ilgilenir. Ve bu : Matematiksel istatistik, olasılık teorisi ve doğrusal cebir ve analiz gibi diğer matematik dallarını kullanarak, matematiksel …

1
Muazzam bir seyreklik durum tablosu nasıl görselleştirilir?
İki değişkenim var: Uyuşturucu Adı (DN) ve çoktan çoğa ilişkide olan karşılık gelen Advers Olaylar (AE). 33.556 ilaç ismi ve 9.516 advers olay var. Örneklem büyüklüğü yaklaşık 5.8 milyon gözlemdir. DN ile AE arasındaki ilişkiyi / ilişkiyi incelemek ve anlamak istiyorum. Resimlere bakmak daha iyi olduğundan, bu seti R'de görselleştirmenin …

1
K-kat çapraz onaylamayı kim icat etti?
K-fold cross-validation'ın tanıtıldığı makaleye bir referans arıyorum (sadece konu için iyi bir akademik referans değil). Belki de ilk makaleyi açıkça tanımlamak için zamanın çok gerisindedir, bu nedenle fikrin kullanıldığı herhangi bir erken makale ilgi çekici olurdu. Bildiğim en erken PA Lachenbruch ve MR Mickey, “Diskriminant analizinde hata oranlarının tahmini”, Technometrics, …


3
İki zaman serisi arasındaki korelasyon
Tam olarak aynı büyüklükteki iki zaman serisi arasındaki korelasyonu hesaplamanın en kolay yolu / yöntemi nedir? ve ( y [ t ] - μ y ) ile çarpmayı ve çarpmayı eklemeyi düşündüm . Yani eğer bu tek sayı pozitifse, bu iki dizinin birbiriyle korele olduğunu söyleyebilir miyiz? Ancak bazı örnekler …

3
Sonuç fraksiyonel olduğunda R'de lojistik regresyon nasıl yapılır (iki sayım oranı)?
Aşağıdaki biyolojik deneylere sahip bir makaleyi gözden geçiriyorum. Hücreleri değişen miktarlarda sıvı kayma stresine maruz bırakmak için bir cihaz kullanılır. Hücrelere daha büyük kayma gerilimi uygulandıkça, bunların çoğu substrattan ayrılmaya başlar. Kayma gerilmesinin her seviyesinde, bağlı kalan hücreleri sayarlar ve başlangıçta eklenmiş olan toplam hücre sayısını bildikleri için, kesirli bir …


4
Bu analiz teknikleri hakkında küresel bir vizyonunuz var mı?
Şu anda, çıktısının girdisiyle nasıl ilişkili olduğunu anlamak için, hepimizin yaptığı gibi, temelde ihtiyacım olan bir . Buradaki özellik, verilerin bana her seferinde bir parça verilmiş olması, böylece her yeni aldığımda analizimi güncellemek istiyorum . Gerekli olan tüm verilere sahip olduğunuz ve tüm verilerinizi aynı anda kullanarak hesaplamalarınızı yaptığınız "toplu …

3
Akıl sağlığı kontrolü: Bir p değeri ne kadar düşük olabilir?
Ben iki örneğin (ortancasını karşılaştırmak için bir ranksum testi kullanıyorum ) ve birlikte önemli ölçüde farklı olduğunu bulduk: . Ben böyle küçük şüpheli olmalı -değeri ya da ben çok büyük bir örnek olması ile ilişkili yüksek istatistiksel güce mi vermeliyiz? Şüpheli düşük diye bir şey var mıdır -değeri?n = 120000n=120000n=120000p …

2
Lme ve aov, R'de ANOVA'nın tekrarlanan ölçümleri için neden farklı sonuçlar veriyor?
ANOVA ezpaketini kullanarak lmetekrarlanan önlemlere geçmeye çalışıyorum (umarım ile özel kontrastları kullanabileceğimi umuyorum lme). Bu blog yazısından gelen tavsiyelerin ardından, aynı modeli hem aov( ezistendiğinde olduğu gibi) hem de kullanarak aynı modeli kurmayı başardım lme. Ancak, oysa verilen örnekte söz konusu yayında F -değerleri mükemmel arasına katılıyorum aovve lme(bunu kontrol …


3
Haberdeki denklemler: Çok seviyeli bir modeli genel izleyiciye çevirmek
New York Times, New York City eğitimcilerine geri bildirim vermek için kullanılan 'katma değerli' öğretmen değerlendirme sistemi hakkında uzun bir yorum yaptı. Lede skorları hesaplamak için kullanılan bir denklemdir - bağlamsız olarak sunulur. Retorik stratejinin matematik yoluyla korkutucu göründüğü görülüyor: Makalenin tam metni şu adreste bulunabilir: http://www.nytimes.com/2011/03/07/education/07winerip.html Yazar, Michael Winerip, …

4
Bu, intihar sayım verilerinde mevsimsel etkileri test etmek için uygun bir yöntem midir?
ABD’deki bir devlet için intihar ölümleriyle ilgili 17 yıl (1995 - 2011) ölüm belgesi verim var. Orada, intiharlar, aylar / mevsimler, çoğu çelişkili ve literatür hakkında birçok mitoloji var. incelendiğimde, kullanılan yöntemlerden net bir anlam alamıyorum ya da sonuçlara güven duymuyorum. Bu yüzden, veri setim dahilinde herhangi bir ayda intiharların …

4
Weibull dağılımı için EM maksimum olabilirlik tahmini
Not: Teknik nedenlerden dolayı kendi başlarına gönderemediğim eski bir öğrenciden bir soru gönderiyorum. Bir örnek verilmişse, , pdf ile bir Weibull dağılımından için faydalı bir değişken gösterimi ve dolayısıyla basit kullanım yerine MLE'sini bulmak için kullanılabilecek bir ilişkili EM (beklenti-maksimizasyon) algoritması sayısal optimizasyon?f k ( x ) = k x …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.