İstatistikler ve Büyük Veri r

2

Gürültülü veri veya aykırı değerlerle kümeleme

Böyle iki değişkenli gürültülü bir veri var. x1 <- rep(seq(0,1, 0.1), each = 3000) set.seed(123) y1 <- rep (c(0.2, 0.8, 0.3, 0.9, 0.65, 0.35,0.7,0.1,0.25, 0.3, 0.95), each = 3000) set.seed(1234) e1 = rnorm(length(x1), 0.07,0.07) set.seed(1223) e2 = rnorm(length(x1), 0.07,0.07) set.seed(1334) yn <- rnorm(20000, 0.5,0.9) set.seed(2344) xn <- rnorm(20000, 0.5,0.9) y …

9 r machine-learning clustering

1

LSI bağlamında Tekil Değer Ayrışmasını Anlama

Sorum genellikle Tekil Değer Ayrışması (SVD) ve özellikle Gizli Semantik İndeksleme (LSI) ile ilgili. Diyelim, 7 belge için 5 kelimelik sıklıklar içeren var.Aword×documentAword×document A_{word \times document} A = matrix(data=c(2,0,8,6,0,3,1, 1,6,0,1,7,0,1, 5,0,7,4,0,5,6, 7,0,8,5,0,8,5, 0,10,0,0,7,0,0), ncol=7, byrow=TRUE) rownames(A) <- c('doctor','car','nurse','hospital','wheel') I matris çarpanlara elde SVD kullanılarak: .AAAA=U⋅D⋅VTA=U⋅D⋅VTA = U \cdot D \cdot …

9 r svd natural-language latent-semantic-indexing

2

Poisson regresyonunu kullanarak ikili verilerde düzeltilmiş risk oranlarını tahmin etme

Lojistik regresyon kullanarak birinin ayarlanmış bir oran oranını nasıl tahmin ettiğine benzer şekilde ayarlanmış bir risk oranını tahmin etmekle ilgileniyorum. Bazı literatür (ör. Bu ), Huber-White standart hatalarıyla Poisson regresyonunun kullanılmasının bunu yapmak için model tabanlı bir yol olduğunu göstermektedir Sürekli ortak değişkenler için ayarlamanın bunu nasıl etkilediğine dair literatür …

9 r references biostatistics poisson-regression relative-risk

3

R kullanarak sırt regresyonu için K katlama veya tutma çapraz doğrulaması

Verilerimin tahmininin 200 denek ve 1000 değişken ile çapraz doğrulanması üzerinde çalışıyorum. Değişken sayısı (kullanmak istiyorum) örnek sayısından daha büyük olduğu için ridge regresyonuyla ilgileniyorum. Bu yüzden büzülme tahmin edicileri kullanmak istiyorum. Aşağıdaki örnek veriler oluşur: #random population of 200 subjects with 1000 variables M <- matrix(rep(0,200*100),200,1000) for (i in …

9 r cross-validation prediction ridge-regression

1

GLMM için anova tip III testi

R paketine bir glmermodel lme4takıyorum. Burada gösterilen p değeri olan bir anova tablosu arıyorum, ama ona uyan herhangi bir paket bulamıyorum. R ile yapmak mümkün mü? Uyduğum model şu şekildedir: model1<-glmer(dmn~period*teethTreated+(1|fullName), family="poisson", data=subset(dataset, group=='Four times a year'), control=glmerControl(optimizer="bobyqa"))

9 r anova lme4-nlme mixed-model

5

Büyük Verilerde Lojistik Regresyon

5000 civarında veri setim var. Bu veriler için ilk önce özellik seçimi için Chi Square testini kullandım; Bundan sonra, cevap değişkeni ile anlamlılık ilişkisi gösteren yaklaşık 1500 değişkenim oldu. Şimdi bunun üzerine lojistik gerilemeye uymalıyım. R için glmulti paket kullanıyorum (glmulti paket vlm için verimli alt küme seçimi sağlar) ancak …

9 r logistic generalized-linear-model modeling regression-strategies

2

Genelleştirilmiş doğrusal modellerle parametre tahmini

Varsayılan olarak glm, R'de bir işlev kullandığımızda , parametrelerin maksimum olasılık tahminini bulmak için yinelemeli olarak yeniden ağırlıklandırılmış en küçük kareler (IWLS) yöntemini kullanır. Şimdi iki sorum var. IWLS tahminleri olabilirlik fonksiyonunun küresel maksimumunu garanti ediyor mu? Bu sunumdaki son slayda dayanarak, öyle olmadığını düşünüyorum! Sadece bundan emin olmak istedim. …

9 r estimation generalized-linear-model maximum-likelihood optimization

4

Çok değişkenli makine öğrenimi nasıl yapılır? (çoklu bağımlı değişkenleri tahmin etme)

Birisinin satın alacağı eşya gruplarını tahmin ediyorum ... yani, birden fazla, doğrusal doğrusal bağımlı değişkenim var. Birinin 7 maddenin her birini satın alma olasılığını tahmin etmek için 7 veya daha fazla bağımsız model oluşturmak ve ardından sonuçları birleştirmek yerine, 7 ilgili bağımlı değişken arasındaki ilişkileri açıklayan bir modele sahip olmak …

9 r machine-learning multivariate-analysis

2

Acil tabloların Bayes analizi: Etki büyüklüğü nasıl tanımlanır?

Kruschke's Doing Bayesian Veri Analizi , özellikle de Poisson üstel ANOVA örnekleri üzerinden çalışıyorum . 22, ki bu sıklık tabloları için sık sık ki-kare bağımsızlık testlerine bir alternatif olarak sunmaktadır. Değişkenler bağımsız olsaydı (HDI sıfırı hariç tuttuğunda) beklenenden daha fazla veya daha az gerçekleşen etkileşimler hakkında nasıl bilgi aldığımızı görebilirim. …

9 r bayesian effect-size contingency-tables

2

R, zaman serilerinin artan / azalan trendini tespit eder

Periyotlu birçok zaman dizim var: gün, hafta veya ay. İle stl()veya fonksiyonu ile loess(x ~ y)ben nasıl görebilirim belirli zaman serisi görünüm eğilimler. Zaman serilerinin eğiliminin arttığını veya azaldığını tespit etmem gerekiyor. Bunu nasıl yönetebilirim? Doğrusal regresyon katsayılarını hesaplayıp lm(x ~ y)eğim katsayısı ile oynamaya çalıştım . ( If |slope|>2 …

9 r time-series trend

1

Zamanla değişen katsayı DLM takma

Zamana göre değişen katsayılara sahip bir DLM, yani normal doğrusal regresyonun bir uzantısı olan, yt=θ1+θ2x2yt=θ1+θ2x2y_t = \theta_1 + \theta_2x_2. Bir tahmin edicim var (x2x2x_2) ve bir yanıt değişkeni (ytyty_t), 1950-2011 yılları arasında sırasıyla deniz ve iç yıllık balık avları. DLM regresyon modelinin takip etmesini istiyorum, yt=θt , 1+θt , 2xtyt=θt,1+θt,2xty_t …

9 r regression time-series dlm dynamic-regression

1

Excel vs R'de ki kare hesaplamanın garip yolu

Ben hesaplıyor iddia iddia bir excel sayfası bakıyorum , ama bunu yapmanın bu şekilde tanımıyorum ve bir şey eksik olup olmadığını merak ediyordum.χ2χ2\chi^2 İşte analiz ettiği veriler: +------------------+----------+----------+ | Total Population | Observed | Expected | +------------------+----------+----------+ | 2000 | 42 | 32.5 | | 2000 | 42 | 32.5 …

9 r chi-squared excel

3

Doğrusal regresyon neden basit bir deterministik dizinin sonucunu tahmin edemiyor?

Bir meslektaşım bana bu problemi internette tur attı: If $3 = 18, 4 = 32, 5 = 50, 6 = 72, 7 = 98$, Then, $10 =$ ? Cevap 200 gibi görünüyor. 3*6 4*8 5*10 6*12 7*14 8*16 9*18 10*20=200 R doğrusal bir regresyon yaptığımda: data <- data.frame(a=c(3,4,5,6,7), b=c(18,32,50,72,98)) lm1 …

9 r regression lm

1

R: Anova ve Doğrusal Regresyon

İstatistiklerde yeniyim ve ANOVA ile doğrusal regresyon arasındaki farkı anlamaya çalışıyorum. Bunu keşfetmek için R kullanıyorum. ANOVA ve regresyonun neden farklı ama yine de aynı olduğu ve nasıl görselleştirilebileceği vb. İle ilgili çeşitli makaleler okudum. Bence güzelim ama bir parça hala eksik. ANOVA'nın test edilen gruplardan herhangi biri arasında fark …

9 r regression anova

3

Bir normallik testinin gücünü değerlendirme (R'de)

R'deki farklı örnek büyüklüklerine göre normallik testlerinin doğruluğunu değerlendirmek istiyorum (normallik testlerinin yanıltıcı olabileceğinin farkındayım ). Örneğin, Shapiro-Wilk testine bakmak için, aşağıdaki simülasyonu yapıyorum (sonuçları çizerken) ve örnek boyutu arttıkça boş değerlerin reddedilme olasılığının azaldığını umuyorum: n <- 1000 pvalue_mat <- matrix(NA, ncol = 1, nrow = n) for(i in …

9 r simulation power-analysis normality-assumption

«r» etiketlenmiş sorular