İstatistikler ve Büyük Veri multivariate-analysis

5

Büyük ölçekli istatistiksel analizler yapmak için hangi beceriler gereklidir?

Birçok istatistiksel iş büyük ölçekli verilerle tecrübe ister. Büyük veri setleriyle çalışmak için ihtiyaç duyacağınız istatistiksel ve hesaplamalı beceriler nelerdir? Örneğin, 10 milyon örnekle veri seti verilen regresyon modellerini oluşturmaya ne dersiniz?

107 regression machine-learning multivariate-analysis large-data

13

Çok değişkenli verilerde aykırı değerleri belirlemenin en iyi yolu nedir?

En az üç değişkenli çok değişkenli büyük bir veri setim olduğunu varsayalım. Aykırı olanları nasıl bulabilirim? İkili saçılım grafikleri, 2 boyutlu alt alanların herhangi birinde bir ana hat olmayan bir boyutta bir 3 boyutlu varlığın mümkün olması nedeniyle çalışmaz. Bir regresyon problemini değil, gerçek çok değişkenli verileri düşünüyorum. Dolayısıyla, güçlü …

94 multivariate-analysis outliers

3

Eklem dağılımının Gauss olmayan olmadığı bir çift Gauss rastgele değişkeni olması mümkün mü?

Biri bana bu soruyu bir iş görüşmesinde sordu ve ortak dağıtımlarının her zaman Gauss olduğunu söyledi. Ben her zaman bir iki değişkenli Gaussian'ı araçları, varyansları ve kovaryanslarıyla yazabileceğimi düşündüm. İki Gaussian'ın ortak ihtimalinin Gauss olmadığı bir durum olup olmadığını merak ediyorum.

91 normal-distribution multivariate-analysis copula bivariate

3

Bir örnek: ikili sonuç için glmnet kullanarak LASSO regresyonu

Ben kullanımı ile serpmek başlıyorum glmnetile LASSO Regresyon ilgi benim sonuç dikotom olduğunu. Aşağıda küçük bir sahte veri çerçevesi oluşturdum: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

2

R de çok değişkenli çoklu regresyon

Her biri 7 bağımsız değişken grubundan etkilenebilecek 2 bağımlı değişkene (DV) sahibim. DV'ler süreklidir, IV'ler ise sürekli ve ikili kodlanmış değişkenlerin bir karışımından oluşur. (Aşağıdaki kodda sürekli değişkenler büyük harflerle ve ikili değişkenler küçük harflerle yazılmıştır.) Çalışmanın amacı, bu DV'lerin IV değişkenleri tarafından nasıl etkilendiğini ortaya çıkarmaktır. Aşağıdaki çok değişkenli …

68 r multivariate-analysis manova multiple-regression multivariate-regression

2

Bağımsız bileşen analizi ile faktör analizi arasındaki ilişki nedir?

Bağımsız Bileşen Analizi (ICA) konusunda yeniyim ve yöntem hakkında basit bir anlayışa sahibim. Bana göre ICA, bir istisna dışında Faktör Analizi'ne (FA) benzer: ICA, gözlemlenen rastgele değişkenlerin, Gauss olmayan bağımsız bileşenlerin / faktörlerin doğrusal bir birleşimi olduğunu varsayar; korelasyonlu, gauss bileşenlerinin / faktörlerinin doğrusal bir birleşimidir. Yukarıdaki doğru mu?

67 multivariate-analysis factor-analysis ica

5

Çoklu karşılaştırmalar için p değerlerini çoklu regresyonda ayarlamak iyi bir fikir midir?

Bir hizmet için talebin ilgili belirleyicilerini bulmaya çalışan bir sosyal bilim araştırmacısı / ekonometrikçi olduğunuzu varsayalım. Talebi tanımlayan 2 sonuca / bağımlı değişkene sahipsiniz (evet / hayır servisini ve durum sayısını kullanarak). Talebi teorik olarak açıklayabilecek 10 öngörücü / bağımsız değişkeniniz var (örneğin, yaş, cinsiyet, gelir, fiyat, ırk vb.). İki …

54 regression multivariate-analysis predictive-models multiple-regression multiple-comparisons

3

Koşullu Gauss dağılımlarının ardındaki sezgi nedir?

Diyelim ki . Daha sonra, normalde ortalama olarak dağıtıldığı çok değişkenli olduğu göz önüne alındığında , koşullu dağılımı:X∼N2(μ,Σ)X∼N2(μ,Σ)\mathbf{X} \sim N_{2}(\mathbf{\mu}, \mathbf{\Sigma})X1X1X_1X2=x2X2=x2X_2 = x_2 E[P(X1|X2=x2)]=μ1+σ12σ22(x2−μ2)E[P(X1|X2=x2)]=μ1+σ12σ22(x2−μ2) E[P(X_1 | X_2 = x_2)] = \mu_1+\frac{\sigma_{12}}{\sigma_{22}}(x_2-\mu_2) ve varyans:Var[P(X1|X2=x2)]=σ11−σ212σ22Var[P(X1|X2=x2)]=σ11−σ122σ22{\rm Var}[P(X_1 | X_2 = x_2)] = \sigma_{11}-\frac{\sigma_{12}^{2}}{\sigma_{22}} Daha fazla bilgiye sahip olduğumuz için varyansın azalacağı mantıklı. Fakat …

46 normal-distribution multivariate-analysis intuition

3

Kütle dönüştürülmüş yordayıcının ve / veya tepkinin yorumlanması

Merak ediyorum, yorumlamada sadece bağımlı, bağımsız veya bağımsız değişkenlerin mi yoksa sadece bağımsız değişkenlerin log dönüşümünde mi olduğunu fark eder mi? Durumunu düşünün log(DV) = Intercept + B1*IV + Error IV'ü yüzde artış olarak değerlendirebilirim, ancak sahip olduğumda bu nasıl değişir? log(DV) = Intercept + B1*log(IV) + Error veya sahipken …

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

5

Eğilim puanları bir regresyonda kovaryantlar eklemekten ne kadar farklıdır ve ikincisi ne zaman tercih edilir?

Eğilim puanları ve nedensel analizler için nispeten yeni olduğumu kabul ediyorum. Yeni gelen biri olarak benim için açık olmayan bir şey, eğilim puanlarını kullanarak “dengelemenin” bir regresyonda eş değişkenler eklediğimizde olanlardan matematiksel olarak nasıl farklı olduğu? Operasyonda farklı olan nedir ve neden regresyona alt popülasyon eş değişkenleri eklemekten daha iyidir? …

41 regression multivariate-analysis causality propensity-scores

1

Biplot ile İlişkili PCA ve Yazışma Analizi

Biplot, genellikle temel bileşen analizi (ve ilgili tekniklerin) sonuçlarını görüntülemek için kullanılır . Bileşen yüklerini ve bileşen puanlarını aynı anda gösteren ikili veya üst üste bir dağılım grafiğidir . Onun bir benim yorumun kalkan bir cevap verdiğini @amoeba bugün tarafından bilgi verildi soruya Biplot koordinatları nasıl üretildiği / ölçekli sorar; …

38 pca multivariate-analysis svd correspondence-analysis biplot

3

Neden bir lojistik regresyonun% 95 güven aralığında manuel olarak hesaplanması ile R'deki confint () fonksiyonunun kullanılması arasında bir fark var?

Sevgili millet - Açıklayamayacağım tuhaf bir şey fark ettim, ya sen? Özetle: bir lojistik regresyon modelinde bir güven aralığı hesaplamaya yönelik manuel yaklaşım ve R işlevi confint()farklı sonuçlar verir. Hosmer ve Lemeshow'un Applied Logistic Regresyon (2. Basım) bölümünden geçiyorum . 3. bölümde, oran oranını ve% 95 güven aralığını hesaplama örneği …

34 r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

7

Düzlemdeki bir numunenin medyanı için kabul edilmiş bir tanım var mı yoksa daha yüksek sıralı alanlar var mı?

Öyleyse ne olmuş? Değilse neden olmasın? Çizgideki bir örnek için, medyan toplam mutlak sapmayı en aza indirir. Tanımı R2'ye vb. Yaymak doğal görünebilir, ancak daha önce hiç görmedim. Ama sonra uzun zamandır sol alandayım.

33 multivariate-analysis spatial median

5

Makine öğrenmesinde hiyerarşik / iç içe geçmiş verilerle nasıl baş edilir

Sorunumu bir örnekle açıklayacağım. Bazı nitelikler verilen bir bireyin gelirini tahmin etmek istediğinizi varsayalım: {Yaş, Cinsiyet, Ülke, Bölge, Şehir}. Bunun gibi bir eğitim veri setine sahipsiniz train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

1

Korelasyonlu matrisin SVD'si ilave olmalı, fakat görünmüyor

Sadece , Gen İfade Verilerinden İlişkili Biclusters Bulma adlı aşağıdaki makalede yapılan bir talebi kopyalamaya çalışıyorum : Önerme 4. Eğer . o zaman biz var:XIJ=RICTJXIJ=RICJTX_{IJ}=R_{I}C^{T}_{J} ben. Eğer ek model ile mükemmel bir bicluster ise, sütunlar üzerinde korelasyon ile mükemmel bir bicluster; ii. Eğer ilave model ile mükemmel bir bicluster ise, …

29 correlation multivariate-analysis svd

«multivariate-analysis» etiketlenmiş sorular