«categorical-data» etiketlenmiş sorular

Kategorik (nominal olarak da adlandırılır) veriler, kategoriler olarak adlandırılan sınırlı sayıda olası değeri alabilir. Kategorik değerler "etiket", onlar "ölçmek" değildir. Ayrık ancak sıralı veri türleri için lütfen [ordinal-data] etiketini kullanın.

2
R kullanarak “paralel kümeler” grafiği oluşturmak mümkün müdür?
Kilitli . Bu soru ve cevapları kilitlidir çünkü soru konu dışıdır, ancak tarihsel önemi vardır. Şu anda yeni yanıtları veya etkileşimleri kabul etmiyor. Tormod sorusu ( burada yayınlanan ) sayesinde Paralel Kümeler grafiğine rastladım . İşte nasıl göründüğüne bir örnek: (Titanik veri kümesinin bir görselleştirmesidir. Örneğin, hayatta kalamayan kadınların çoğunun …

1
Sıfır hipotezi altında değiştirilebilir örneklerin ardındaki sezgi nedir?
Permütasyon testleri (randomizasyon testi, yeniden randomizasyon testi veya kesin test olarak da adlandırılır) çok faydalıdır ve örneğin normal dağıtım varsayımı t-testkarşılanmadığında ve değerlerin parametrik olmayan test Mann-Whitney-U-test, daha fazla bilginin kaybolmasına neden olur. Bununla birlikte, bu tür bir test kullanılırken bir ve sadece bir varsayım göz ardı edilmemelidir, örneklerin sıfır …
16 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

4
Degrade artırıcı makine doğruluğu, yineleme sayısı arttıkça azalır
Gradyan arttırıcı makine algoritmasını caretR'deki paket üzerinden deniyorum. Küçük bir kolej veri kümesi kullanarak, aşağıdaki kodu koştu: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

2
Nominal / kategorik veriler için “gösterge değişkeni” ile “gösterge değişkeni”
"Kukla değişken" ve "gösterge değişkeni" , 0/1 kodlamalı bir kategoriye üyeliği tanımlamak için sık kullanılan terimlerdir; genellikle 0: Kategoriye üye değil, 1: Kategoriye üye. 26.11.2014 tarihinde scholar.google.com'da (tırnak işaretleri dahilinde) yapılan hızlı bir arama, yaklaşık 318.000 makalede "kukla değişken" ve yaklaşık 112.000 makalede "gösterge değişkeni" olduğunu gösterir. "Kukla değişken" terimi …

2
Sürekli ve ikili verileri doğrusal SVM ile mi karıştırıyorsunuz?
Bu yüzden SVM'lerle oynuyorum ve bunun iyi bir şey olup olmadığını merak ediyorum: Ben sürekli özellikleri (0-1) bir dizi ve ben kukla değişkenlere dönüştürdü kategorik özellikleri bir dizi var. Bu özel durumda, kukla değişkente ölçüm tarihini kodlarım: Veri aldığım 3 dönem var ve onlar için 3 özellik numarası ayırdım: 20: …

2
R'de kukla kodlama yerine efekt kodlaması ile regresyon nasıl yapılır?
Şu anda bağımsız değişkenler olarak sadece kategorik / faktör değişkenlerine sahip olduğum bir regresyon modeli üzerinde çalışıyorum. Bağımlı değişkenim logit dönüşümü oranıdır. R, "faktör" türünden hemen sonra aptalları nasıl kodlayacağını otomatik olarak bildiğinden, R'de normal bir regresyon çalıştırmak oldukça kolaydır. Bununla birlikte, bu tip kodlama, her bir değişkenten bir kategorinin …

1
Glmnet lojistik regresyonu, kukla değişkenlere ihtiyaç duymadan faktör (kategorik) değişkenleri doğrudan işleyebilir mi? [kapalı]
Kapalı. Bu soru konu dışı . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek ister misiniz? Sorunuzu güncelleyin o yüzden -konu üzerinde Çapraz doğrulanmış için. 3 yıl önce kapalı . Ben işlevlerle LASSO yöntemi kullanarak R lojistik regresyon inşa ediyorum cv.glmnetseçilmesi için lambdave glmnetnihai model için. Otomatik model seçimiyle ilgili …


2
Sürekli verilerden kategorilere geçiş her zaman yanlış mıdır?
Verilerinizi nasıl ayarlayacağımı okuduğumda, sık sık karşılaştığım bir şey, bazı sürekli verileri kategorik verilere dönüştürmenin iyi bir fikir olmadığıdır, çünkü eşikler kötü bir şekilde belirlenirse çok iyi bir sonuç çıkarabilirsiniz. Bununla birlikte, şu anda bazı verilerim var (prostat kanseri hastaları için PSA değerleri), burada ortak fikir birliği 4'ün altındaysanız muhtemelen …

3
Değişkenlerden biri kategorik olduğunda korelasyon neden çok yararlı değildir?
Bu biraz bağırsak kontrolü, lütfen bu kavramı yanlış anlayıp anlamadığımı görmem için bana yardım et. İşlevsel bir korelasyon anlayışım var ama bu fonksiyonel anlayışın arkasındaki ilkeleri gerçekten güvenle açıklamak için pipetleri biraz kavramış hissediyorum. Anladığım kadarıyla, istatistiksel korelasyon (terimin daha genel kullanımının aksine), iki sürekli değişkeni ve bunların nasıl yükselme …


1
Kategorik değişkenler (R cinsinden) için mevcut olan farklı kodlama türleri nelerdir ve bunları ne zaman kullanırsınız?
Doğrusal bir model veya karışık bir model takarsanız, kategorik veya nominal bir değişkenin, kukla koşullandırma (R varsayılanı) ve efekt kodlaması gibi paramaterlerin tahmin edildiği bir dizi değişkene dönüştürülmesi için farklı kodlama türleri vardır. Etkileşimleriniz olduğunda efekt kodlamanın (bazen sapma veya kontrast kodlama olarak adlandırılır) tercih edildiğini duydum, ancak olası kontrastlar …

2
Sıralı veya nominal verilerde kategorileri birleştirme / azaltma yöntemleri?
Nominal veya sıralı verilerdeki kategori sayısını azaltmak için bir yöntem bulmakta zorlanıyorum. Örneğin, bir dizi nominal ve sıralı faktöre sahip bir veri kümesi üzerinde bir regresyon modeli oluşturmak istediğimi varsayalım. Bu adımla ilgili hiçbir sorunum olmasa da, genellikle nominal bir özelliğin eğitim setinde gözlemsiz olduğu, ancak daha sonra doğrulama veri …


3
Lojistik Regresyonda Değişkenlerin WoE (Kanıt Ağırlığı) ile Değiştirilmesi
Bu, bazı meslektaşlarım tarafından takip edilen bir uygulama veya yöntemle ilgili bir sorudur. Lojistik regresyon modeli yaparken, insanların kategorik değişkenleri (veya ikili değişkenleri) kendi Kanıt Ağırlıkları (WoE) ile değiştirdiklerini gördüm. Bu, regresör ve bağımlı değişken arasında monotonik bir ilişki kurmak için yapılır . Şimdi anladığım kadarıyla, model yapıldıktan sonra, denklemdeki …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.