«many-categories» etiketlenmiş sorular

Çok sayıda seviyeye sahip kategorik değişkenler ve bu tür değişkenlerle çalışmak için istatistiksel yöntemler (örnek: kaynaşmış kement).

6
Kategorik değişkenleri birçok seviyede çökertmenin ilkeli yolu?
İstatistiki bir modelde bir girdi (öngörücü) olarak kullanmak amacıyla birçok kategoriyi bir kaçına çökertmek (veya birleştirmek) için hangi teknikler mevcuttur? Üniversite öğrencisi büyük (bir lisans öğrencisi tarafından seçilen disiplin) gibi bir değişken düşünün . Sırasız ve kategoriktir, ancak potansiyel olarak onlarca farklı seviyeye sahip olabilir. Diyelim ki regresyon modelinde majör …

6
Birçok kategorik değişkenle sınıflandırmayı iyileştirin
200.000'den fazla örnek ve bir örnek başına yaklaşık 50 özellik içeren bir veri kümesi üzerinde çalışıyorum: 10 sürekli değişken ve diğerleri ~ 40 kategorik değişkenlerdir (ülkeler, diller, bilimsel alanlar vb.). Bu kategorik değişkenler için, örneğin 150 farklı ülke, 50 dil, 50 bilimsel alan vb. Var. Şimdiye kadar benim yaklaşımım: Mümkün …

6
Pasta grafiklerle ilgili sorunlar
Pasta grafikleri hakkında artan tartışmalar var gibi görünüyor. Buna karşı ana argümanlar şöyle görünüyor: Alan uzunluktan daha az güçle algılanır. Pasta grafiklerde veri noktası-piksel oranı çok düşük Ancak, oranlarını resmederken bir şekilde faydalı olabileceğini düşünüyorum. Çoğu durumda masa kullanmayı kabul ediyorum, ancak bir iş raporu yazarken ve neden yüzlerce tablo …

7
Coğrafya veya posta kodunu makine öğrenme modelinde veya öneri sisteminde nasıl temsil edilir?
Bir model yapıyorum ve coğrafi konumumun hedef değişkenimi tahmin etmede çok iyi olacağını düşünüyorum. Kullanıcılarımın her birinin posta kodunu aldım. Yine de, modelimde posta kodunu tahmin özelliği olarak eklemenin en iyi yolu hakkında tam olarak emin değilim. Posta kodu bir sayı olmasına rağmen, sayı yukarı ya da aşağı giderse bir …

5
R's randomForest 32'den fazla seviyeyi kaldıramaz. Geçici çözüm nedir?
R'nin randomForest paketi, 32'den fazla seviye ile faktörü kaldıramaz. 32'den fazla seviye verildiğinde bir hata mesajı verir: 32'den fazla kategoriye sahip kategorik öngörücüleri işleyemez. Ancak sahip olduğum verilerin birkaç faktörü var. Bazılarında 1000+, bazılarında 100+ var. Hatta 52 olan birleşik devletlerin “devletine” sahiptir. İşte benim sorum. Neden böyle bir sınırlama …

4
Degrade artırıcı makine doğruluğu, yineleme sayısı arttıkça azalır
Gradyan arttırıcı makine algoritmasını caretR'deki paket üzerinden deniyorum. Küçük bir kolej veri kümesi kullanarak, aşağıdaki kodu koştu: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

4
Tüm olasılıklar karışık efektler modeline dahil edildiğinde, rastgele efekt ve rastgele efekt karşılaştırıldı
Karışık etkiler modelinde, tüm olası seviyeler dahil edildiğinde (örneğin hem erkekler hem de kadınlar) bir parametreyi tahmin etmek için sabit bir etki kullanılması önerilir. Ayrıca, dahil edilen seviyeler bir popülasyondan sadece rastgele bir örnekse (olası hastaların evreninden kayıtlı hastalar) ve araçlar yerine popülasyon ortalamasını ve varyansını tahmin etmek istiyorsanız, bir …

2
Kategorik özellikleri makine öğrenimi için sayılara kodlama
Yapay sinir ağları gibi birçok makine öğrenimi algoritması sayıları ele almayı beklemektedir. Yani, kategorik verileriniz olduğunda, dönüştürmeniz gerekir. Kategorik olarak, örneğin: Araba markaları: Audi, BMW, Chevrolet ... Kullanıcı kimlikleri: 1, 25, 26, 28 ... Kullanıcı kimlikleri sayı olsa da, bunlar yalnızca etiketlerdir ve yaş veya para toplamı gibi süreklilik açısından …

2
Sıralı veya nominal verilerde kategorileri birleştirme / azaltma yöntemleri?
Nominal veya sıralı verilerdeki kategori sayısını azaltmak için bir yöntem bulmakta zorlanıyorum. Örneğin, bir dizi nominal ve sıralı faktöre sahip bir veri kümesi üzerinde bir regresyon modeli oluşturmak istediğimi varsayalım. Bu adımla ilgili hiçbir sorunum olmasa da, genellikle nominal bir özelliğin eğitim setinde gözlemsiz olduğu, ancak daha sonra doğrulama veri …

1
R - serbestlik derecesinde PROC Mixed ve lme / lmer arasındaki farklar
Not: önceki sorumun yasal nedenlerle silinmesi gerektiğinden, bu soru bir gönderidir. Fonksiyonlu SAS PROC MIXED karşılaştırarak birlikte lmegelen nlmeR paketin, bazı çok kafa farklılıklar tökezledi. Daha spesifik olarak, farklı testlerdeki özgürlük dereceleri ve arasında farklılık gösterir PROC MIXEDve lmenedenini merak ettim. Aşağıdaki veri kümesinden başlayın (R kodu aşağıda verilmiştir): ind: …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

1
Sıralanmamış kategorik öngörücü değişkenin düzeylerinin azaltılması
Bir sınıflandırıcı, SVM veya rastgele orman veya başka bir sınıflandırıcı eğitmek istiyorum. Veri kümesindeki özelliklerden biri 1000 seviyeli kategorik bir değişkendir. Bu değişkenteki seviye sayısını azaltmanın en iyi yolu nedir? R'de combine.levels(), Hmisc paketinde nadir seviyeleri birleştiren bir fonksiyon var , ancak başka öneriler arıyordum.

3
Tek sıcak kodlama ile sahte kodlama arasındaki sorunlar
K seviyeli kategorik değişkenlerin kukla kodlamada k-1 değişkenleri ile kodlanması gerektiğinin farkındayım (benzer şekilde çok değerli kategorik değişkenler için). Çoğunlukla doğrusal regresyon, cezalandırılmış doğrusal regresyon (Kement, Ridge, Elastik Ağ), ağaç tabanlı (rastgele ormanlar) için farklı regresyon yöntemleri için kukla kodlama üzerinde bir sıcak kodlama (yani bunun yerine k değişkenlerini kullanarak) …

3
Veri madenciliği için faktör seviyelerini birleştiren R paketi?
Bir faktördeki tüm düzeylerin oranı bir eşiğin altında olan bir faktörün seviyelerini birleştirecek olan R'de bir paket / fonksiyon boyunca herkesin çalışıp çalışmadığını merak ediyor musunuz? Özellikle, veri hazırlamanın ilk adımlarından biri, toplamın en az% 2'sini oluşturmayan seyrek faktör düzeylerini ('Diğer' adı verilen bir seviyeye) birlikte çöktürmektir. Bu denetimsiz olarak …

1
Kategorik veriler için cezalandırılmış yöntemler: düzeyleri bir faktörde birleştirme
Cezalandırılmış modeller, parametre sayısının örnek boyutuna eşit veya daha büyük olduğu modelleri tahmin etmek için kullanılabilir. Bu durum, kategorik veya sayım verilerinin büyük seyrek tablolarının log-lineer modellerinde ortaya çıkabilir. Bu ayarlarda, bu seviyelerin diğer faktörlerle nasıl etkileşime girdiği açısından ayırt edilemediği bir faktörün seviyelerini birleştirerek tabloları daraltmak genellikle arzu edilir …
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.