«eda» etiketlenmiş sorular

EDA "Keşifsel veri analizi" anlamına gelir. Tukey tarafından Doğrulayıcı Veri Analizi veya CDA (hipotezlerin resmi testi) ile kontrast oluşturmak için geliştirilmiştir. EDA tipik olarak verilerin anlaşılmasını kolaylaştırmak ve yeni bilgiler vermek için verileri sayısal ve grafiksel olarak tanımlamakla ilgilenir.

5
Sadece eğitim veri kümesinde keşifsel veri analizi yapmak daha mı iyi?
Veri kümesinde keşifsel veri analizi (EDA) yapıyorum. Sonra bağımlı bir değişkeni tahmin etmek için bazı özellikleri seçeceğim. Soru şu: EDA'yı sadece eğitim veri setimde yapmalı mıyım? Ya da eğitim ve test veri setlerine birlikte katılmalı mıyım, sonra da ikisi üzerinde EDA mı yapmalı ve bu analize dayalı özellikleri mi seçmeliyim?

2
EDA'ya Bayesçi ve sık sık yaklaşımlarda farklılıklar var mı?
Çok basit bir ifadeyle: Keşifsel Veri Analizine Bayesci ve Sıkça Yaklaşımlarda herhangi bir fark var mı? Histogram, histogram, dağılım grafiği dağılım grafiği vb. . Sonunda, uygulanan her şeyin hakemi olan CRAN'a baktım: Bayesci bir yaklaşıma uygun paketler bulamadım. Bununla birlikte, CV'nin buna ışık tutabilecek birkaç insanı olabileceğini düşündüm. Neden farklılıklar …

3
Doğru analiz tekniğinin ve testinin seçilmesine yardımcı olan akış şemaları
İstatistiksel bilgiye ihtiyaç duyan ancak resmi olarak eğitilmiş bir istatistikçi olmayan biri olarak, belirli bir sorunu çözmek için doğru yaklaşımı seçmeme yardımcı olacak bir akış şemasına (veya bir tür karar ağacına) sahip olmayı yararlı bulurdum (örn. " buna ihtiyaç duyar ve bunu ve bunu normal olarak dağıtılacağını düşünür mü? X …


4
Verileri toplama ve analiz etmenin en iyi yolları
Kısa süre önce kendime öğretmeye başladım Makine Öğrenimi ve Veri Analizi Kendimi büyük veri kümeleri oluşturma ve sorgulama ihtiyacı üzerine bir tuğla duvara çarptım. Mesleki ve kişisel hayatımda topladığım verileri almak ve analiz etmek istiyorum, ancak aşağıdakileri yapmanın en iyi yolundan emin değilim: Bu verileri nasıl saklamalıyım? Excel? SQL? ?? …

2
Yapı bağımsızlığını belirlemede açımlayıcı ve doğrulayıcı faktör analizi arasındaki fark
Araştırmacılar genellikle çok benzer öğelere sahip iki ölçü kullanırlar ve farklı şeyleri ölçtüklerini iddia ederler (örneğin, "Arabaların etrafındayken daima endişeleniyorum"; "Arabalardan korkuyorum"). Otomobillerden Korku Ölçüsü ve Kaygı Ölçeği varsayımsal önlemlerini çağıralım. Gerçekten farklı gizli yapıları değerlendiriyorlarsa veya aynı şeyi ölçüyorlarsa ampirik olarak test etmekle ilgileniyorum. Bunu yapmanın en iyi iki …

2
Histogramım çan şeklinde bir eğri gösteriyorsa verilerimin normal olarak dağıtıldığını söyleyebilir miyim?
Yanıtlayan Yaş için bir histogram oluşturdum ve çok güzel bir çan şekilli eğri elde etmeyi başardım, bu da dağılımın normal olduğu sonucuna vardım. Sonra SPSS'de normallik testini n = 169 ile çalıştırdım . Kolmogorov-Smirnov testinin p- değeri (Sig.) 0.05'ten düşüktür ve bu nedenle veriler normallik varsayımını ihlal etmiştir. Test neden …

1
Çentikli kutu grafikleri nasıl yorumlanır
Bazı EDA yaparken bir faktörün iki seviyesi arasındaki farkı göstermek için bir kutu grafik kullanmaya karar verdim. Yolu ggplot kutu arsa hale tatmin edici, ama (aşağıdaki ilk arsa) biraz basit oldu. Kutu grafiklerinin özelliklerini araştırırken çentiklerle denemeye başladım. Çentiklerin CI'yi medyan etrafında görüntülediğini ve iki kutunun çentiklerinin örtüşmemesi durumunda -% …

2
“Verilerin kendisi için konuşmasına izin ver” neyi amaçlıyor?
Aşağıdaki makaleyi okurken, aşağıdaki ifadeyle karşılaştım: Belirtildiği gibi, Benzecri'nin [1973] “verinin kendisi için konuşmasına izin verme” fikri doğrultusunda olasılıklı modellere atıfta bulunulmadan sunulur. (alıntı JP Benzécri'den alınmıştır. L'analyse des données. Tome II: L'analyse des correspondances. Dunod, 1973.) Bu makaleyi nasıl okuduğumdan, "verinin kendisi için konuşmasına izin ver" ifadesi , bir …
10 eda  quotation 

3
Veri kümesine ilk hızlı bakış
Lütfen cehaletimi affedin, ama ... Kendimi bulmayı başardığım bir sürü yeni veriyle karşı karşıya olduğum bir durumda bulmaya devam ediyorum. Bu veriler genellikle şöyle görünür: Date Number1 Number2 Category1 Category2 20120125 11 101 Dog Brown 20120126 21 90 Cat Black 20120126 31 134 Cat Brown (...) Genellikle ilk bakışta burada …

4
İstatistiksel modellemeye başlamak için ipuçları ve püf noktaları?
Veri madenciliği alanında çalışıyorum ve istatistik konusunda çok az resmi eğitim aldım. Son zamanlarda çok ilginç bulduğum öğrenme ve madencilik için Bayesci paradigmalara odaklanan çok fazla iş okuyorum. Benim sorum (birkaç kısımda), bir problem göz önüne alındığında, istatistiksel bir model oluşturmanın mümkün olduğu genel bir çerçeve var mı? Temel süreci …

4
Neden 1 medyanın başka bir medyandan daha düşük olması, grup 1'deki çoğun grup 2'deki çoğundan daha az olduğu anlamına gelmiyor?
Aşağıdaki kutuların "çoğu erkek çoğu kadından daha hızlı" olarak yorumlanabileceğine inanıyordum (bu veri kümesinde), çünkü medyan erkeklerin zamanı medyan kadınların zamanından daha az olduğu için. Ama R ve istatistik yarışmasında EdX kursu bana bunun yanlış olduğunu söyledi. Lütfen sezgilerimin neden yanlış olduğunu anlamama yardımcı olun. İşte soru: 2002'de New York …

2
Karışık modeller için parametrik, yarı parametrik ve parametrik olmayan önyükleme
Bu makaleden aşağıdaki greftler alınmıştır . Ben bootstrap için acemi ve R bootpaket ile doğrusal karışık model için parametrik, yarı parametrik ve parametrik olmayan bootstrapping bootstrapping uygulamaya çalışıyorum . R Kodu İşte benim Rkod: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

3
Verilerdeki yeni bilgileri keşfetme yönergeleri
Kendime veya başka birine bir şey ifade etmek için bir şey çiziyorum. Genellikle, bir soru bu süreci başlatır ve genellikle belirli bir cevap için umut isteyen kişi. Verilerle ilgili ilginç şeyleri daha az taraflı bir şekilde nasıl öğrenebilirim? Şu anda bu yöntemi kabaca takip ediyorum: Özet istatistikler. Şerit grafiği. Dağılım …
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.