«categorical-data» etiketlenmiş sorular

Kategorik (nominal olarak da adlandırılır) veriler, kategoriler olarak adlandırılan sınırlı sayıda olası değeri alabilir. Kategorik değerler "etiket", onlar "ölçmek" değildir. Ayrık ancak sıralı veri türleri için lütfen [ordinal-data] etiketini kullanın.


3
kukla değişkenleri merkezleme ve ölçeklendirme
Hem kategorik değişkenleri hem de sürekli değişkenleri içeren bir veri setim var. Kategorik değişkenleri her seviye için ikili değişkenler olarak dönüştürmem önerildi (yani, A_level1: {0,1}, A_level2: {0,1}) - Bence bazıları buna "kukla değişkenler" adını verdiler. Bununla birlikte, tüm veri kümesini yeni değişkenlerle ortalamak ve ölçeklendirmek yanıltıcı olur mu? Değişkenlerin "açık …

6
Rasgele orman: Test setinde yeni faktör seviyeleri nasıl ele alınır?
R'de rastgele bir orman modeli kullanarak tahminler yapmaya çalışıyorum. Ancak bazı faktörlerin test setinde eğitim setinden farklı değerlere sahip olduğundan hata alıyorum. Örneğin, bir faktörün test setinde egzersiz setinde görünmeyen Cat_2değerler 34, 68, 76vb. Vardır. Ne yazık ki, Test seti üzerinde kontrolüm yok ... Onu olduğu gibi kullanmalıyım. Benim tek …


4
Kategorik veriler nasıl özetlenir?
Aşağıdaki sorunla mücadele ediyorum, umarım istatistikçiler için kolay bir sorundur (istatistiklere biraz maruz kalan bir programcıyım). Bir ankete verilen yanıtları özetlemem gerekiyor (yönetim için). Anketin farklı alanlarda gruplandırılmış 100'den fazla sorusu vardır (alan başına yaklaşık 5 ila 10 soru). Tüm cevaplar kategoriktir (sıralı bir ölçekte, "hiç değil", "nadiren" ... "günlük …

2
Günlük veriler için çoklu regresyonda mevsimsellik yakalamak
Oldukça mevsimsel bir ürün için günlük satış verilerim var. Regresyon modelinde mevsimsellik yakalamak istiyorum. Üç aylık veya aylık verileriniz varsa, bu durumda sırasıyla 3 ve 11 kukla değişken oluşturabileceğinizi okudum - ancak günlük verilerle ilgilenebilir miyim? Üç yıllık günlük verilerim var. Bağımsız değişkenler fiyat noktası, promosyon bayrağı (evet / hayır) …

2
GLM'de kukla (manuel veya otomatik) değişken oluşturmayı anlama
Glm formülünde bir faktör değişkeni (örn. M ve F seviyeli cinsiyet) kullanılırsa, kukla değişkenler oluşturulur ve glm modeli özetinde ilişkili katsayılarıyla (örn. Cinsiyet C) bulunabilir. Faktörü bu şekilde bölmek için R'ye güvenmek yerine, faktör bir dizi sayısal 0/1 değişkeni (örneğin, cinsiyetM (M için 1, F için 0), cinsiyetF (F için …

2
Nominal (dikotomatik olmayan) nominal değişken ile sayısal (aralık) veya sıralı değişken arasındaki korelasyon katsayısı
Sorunumun cevabını bulmaya çalışırken bu sitedeki tüm sayfaları zaten okudum ama kimse bana doğru olan gibi görünmüyor ... Öncelikle size birlikte çalıştığım veri türlerini açıklıyorum ... 300 kullanıcının her biri için bir tane olmak üzere çeşitli şehir adlarına sahip bir dizi vektörüm olduğunu varsayalım. Ayrıca her kullanıcının anketine veya her …

2
Karar Ağaçları için kategorik özellikleri kodlamak için en iyi uygulamalar?
Doğrusal regresyon için kategorik özellikleri kodlarken, bir kural vardır: aptal sayısı toplam düzey sayısından daha az olmalıdır (eşzamanlılığı önlemek için). Karar Ağaçları için benzer bir kural var mı (torbalanmış, güçlendirilmiş)? Bunu soruyorum çünkü Python'daki standart bir uygulama, nseviyeleri benim için yetersiz görünen nmankenlere (sklearns ' OneHotEncoderveya Pandas' pd.get_dummies) genişletmek gibi …

1
Python'da sıradan lojistik regresyon
Python'da sıralı bir lojistik regresyon yapmak istiyorum - üç seviyeli ve birkaç açıklayıcı faktörlü bir cevap değişkeni için. statsmodelsPaket ikili logit ve Çok terimli logit (MNLogit) modellerini değil, sipariş edilen logit destekler. Temel matematik o kadar farklı olmadığından, bunları kullanarak kolayca uygulanıp uygulanamayacağını merak ediyorum. (Alternatif olarak, çalışan diğer Python …

3
Sadece marjinal sayımlar göz önüne alındığında, ortak dağılımın maksimum olabilirlik tahmincisi
Let px , ypx,yp_{x,y} , iki Kategorik değişkenler ortak bir dağıtım olması X, YX,YX,Y ile, x,y∈ { 1 , …,K}x,y∈{1,...,K}x,y\in\{1,\ldots,K\} . Diyelim ki bu dağılımdan nnn örnek alındı, ama sadece için marjinal sayımlar verildi j=1,…,Kj=1,...,Kj=1,\ldots,K: Sj=∑i=1nδ(Xi=l),Tj=∑i=1nδ(Yi=j),Sj=Σben=1nδ(Xben=l),Tj=Σben=1nδ(Yben=j), S_j = \sum_{i=1}^{n}{\delta(X_i=l)}, T_j = \sum_{i=1}^{n}{\delta(Y_i=j)}, S j , T j için verilen için …

5
Çok sayıda veri noktasındaki değerlerin gösterimi nasıl yapılır?
Çok büyük bir veri setim var ve yaklaşık% 5 rasgele değerler eksik. Bu değişkenler birbiriyle ilişkilidir. Aşağıdaki örnek R veri kümesi sadece yapay korelasyonlu verilere sahip bir oyuncak örneğidir. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
Berry inversiyonu
ABD'de şarap satışlarına ilişkin büyük bir toplam pazar verilerim var ve bazı yüksek kaliteli şaraplara olan talebi tahmin etmek istiyorum. Bu pazar payları temel olarak X'in gözlemlendiği dahil olduğu biçiminde rastgele bir yarar modelinden türetilmiştir. ürün özellikleri, p ürün fiyatlarını gösterir, ξUijt=X′jtβ−αpjt+ξjt+ϵijt≡δjt+ϵjtUijt=Xjt′β−αpjt+ξjt+ϵijt≡δjt+ϵjtU_{ijt} = X’_{jt}\beta - \alpha p_{jt} + \xi_{jt} + …

3
Mundlak sabit etkiler prosedürü mankenlerle lojistik regresyon için uygulanabilir mi?
8000 küme ve 4 milyon gözlem içeren bir veri setim var. Ne yazık ki istatistiksel yazılımım Stata, lojistik regresyon için panel veri işlevini kullanırken oldukça yavaş çalışıyor: xtlogit% 10 alt örnekle bile. Ancak, panel dışı logitişlevi kullanıldığında sonuçlar çok daha erken görünür. Bu nedenle logit, sabit etkileri açıklayan değiştirilmiş verilerden …

1
R - serbestlik derecesinde PROC Mixed ve lme / lmer arasındaki farklar
Not: önceki sorumun yasal nedenlerle silinmesi gerektiğinden, bu soru bir gönderidir. Fonksiyonlu SAS PROC MIXED karşılaştırarak birlikte lmegelen nlmeR paketin, bazı çok kafa farklılıklar tökezledi. Daha spesifik olarak, farklı testlerdeki özgürlük dereceleri ve arasında farklılık gösterir PROC MIXEDve lmenedenini merak ettim. Aşağıdaki veri kümesinden başlayın (R kodu aşağıda verilmiştir): ind: …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.