«categorical-data» etiketlenmiş sorular

Kategorik (nominal olarak da adlandırılır) veriler, kategoriler olarak adlandırılan sınırlı sayıda olası değeri alabilir. Kategorik değerler "etiket", onlar "ölçmek" değildir. Ayrık ancak sıralı veri türleri için lütfen [ordinal-data] etiketini kullanın.

3
3 seviyeli acil durum tablosu ile başa çıkmak için uygun yol
Birkaç tür için sayım verileri, toplandıkları ev sahibi bitki ve bu koleksiyonun yağmurlu bir günde olup olmadığını içeren üç seviyeli bir beklenmedik durum tablosu var (bu gerçekten önemli!). R'yi kullanarak sahte veriler şu şekilde olabilir: count <- rpois(8, 10) species <- rep(c("a", "b"), 4) host <- rep(c("c","c", "d", "d"), 2) …


3
Hangi algoritmalar bir sıcak kodlama gerektirir?
Sıralı olmayan değişkenler için ne zaman bir sıcak kodlama kullanılacağından ve ne zaman kullanılacağından emin değilim Algoritma benzerliği hesaplamak için bir mesafe metriği kullandığında kullanırım. Ne tür algoritmaların sıralı olmayan kategorik özelliklerin tek-sıcak kodlu olmasını gerektireceği ve hangilerinin istemeyeceği konusunda genel bir kural verebilir mi?

2
R'nin çok seviyeli faktörlü bir modele uyması neden uzun sürüyor?
Bir çok faktöre sahip bir modele uyuyorum ve R'nin bu modele uyması gerçekten uzun sürüyor. Bu neden? Örneğin, oyuncuların maaşlarını tahmin etmek için bir gerileme uyarsam ve tüm oyuncuların milliyetleri için bir faktör öngörücüsü eklersem, oyuncuların maaşları için oyuncuların maaşları için bir model takmaktan daha uzun zaman alacaktır. yükseklikleri.

1
Nitelikler nominal olduğunda bireyler için en uygun mesafe işlevi nedir?
Nominal (sıralanmamış kategorik) özellikler durumunda bireyler arasında hangi mesafe işlevinin kullanılacağını bilmiyorum. Bazı ders kitapları okuyordum ve Basit Eşleştirme işlevini önerdiler, ancak bazı kitaplar nominal değerleri ikili özelliklere değiştirip Jaccard Katsayısı kullanmam gerektiğini gösteriyor . Ancak, nominal özelliğin değerleri 2 değilse ne olur? bu özellikte üç veya dört değer varsa …

2
glmnet: Çok terimli parametreleştirme nasıl anlaşılır?
Aşağıdaki sorun: glmnet () kullanarak bir (veya daha fazla) kategorik değişken ile kategorik bir yanıt değişkeni tahmin etmek istiyorum. Ancak glmnet'in bana verdiği çıktıyı anlamıyorum. Tamam, önce iki kategorik değişken oluşturalım: Veri Oluştur p <- 2 #number variables mu <- rep(0,p) sigma <- matrix(rep(0,p^2), ncol=p) sigma[1,2] <- .8 #some relationship …


2
Örneğin haftanın günlerine dayalı regresyon
Doğru yönde ilerlemek için biraz yardıma ihtiyacım var. Herhangi bir istatistik okuduğumdan beri uzun zaman oldu ve jargon değişmiş gibi görünüyor. Şunun gibi araba ile ilgili verilerim olduğunu düşünün: A şehrinden B şehrine yolculuk süresi A kasabasından B kasabasına uzaklık Motor boyutu Sürücü ayakkabısı boyutu Otomobil markası ve modeli Haftanın …

2
Kategorik değişkenler arasındaki eşdeğerlik
Sürekli öngörücülerle ilgili eşzamanlılık hakkında çok şey var, ancak kategorik öngörücülerde bulabileceğim kadar çok değil. Aşağıda gösterilen bu tip verilerim var. İlk faktör genetik bir değişkendir (alel sayısı), ikinci faktör bir hastalık kategorisidir. Açıkça, genler hastalıktan önce gelir ve teşhise yol açan semptomları gösteren bir faktördür. Bununla birlikte, SPSS ile …

2
Her topluluk için ayrı regresyonlar yapmalı mıyım yoksa topluluk, toplu bir modelde kontrol eden bir değişken olabilir mi?
DV olarak sürekli varlık endeksi değişkenli bir OLS modeli çalıştırıyorum. Verilerim, birbirine yakın coğrafi yakınlıkta üç benzer topluluktan toplanıyor. Buna rağmen, toplumu kontrol eden bir değişken olarak kullanmanın önemli olduğunu düşündüm. Anlaşıldığı üzere, topluluk% 1 düzeyinde anlamlıdır (t-skoru -4.52). Topluluk, 3 farklı topluluktan 1'i için 1,2,3 olarak kodlanan nominal / …

2
Hızlı bir şekilde sıralı kategorik veriler arasındaki korelasyonları (görsel olarak) R?
Bir anketteki farklı soruların cevapları arasındaki korelasyonları arıyorum ("umm, 11. soruya verilen cevapların 78. soruya cevap verip vermediğine bakalım") Tüm cevaplar kategoriktir (çoğu "çok mutsuz" ile "çok mutlu" arasındadır), ancak birkaçı farklı cevaplara sahiptir. Birçoğu sıra sayılabilir, bu yüzden bu durumu burada ele alalım. Ticari bir istatistik programına erişimim olmadığından, …

6
R'deki bir data.frame içindeki tüm benzersiz faktör kombinasyonları için özet istatistikler nasıl bulunur? [kapalı]
Kapalı. Bu soru konu dışı . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek ister misiniz? Sorunuzu güncelleyin o yüzden -konu üzerinde Çapraz doğrulanmış için. 2 yıl önce kapalı . Ben data.frame faktörlerin her benzersiz kombinasyonu için bir data.frame bir değişkenin bir özetini hesaplamak istiyorum. Bunu yapmak için plyr kullanmalı …

4
Çoklu Ki-Kare Testleri
2 x 2 x 6 tabloda çapraz sınıflandırılmış verilerim var. Let boyutlarını diyoruz response, Ave B. Model ile verilere lojistik regresyon uyduruyorum response ~ A * B. Bu modelin sapma analizi, hem terimlerin hem de etkileşimlerinin önemli olduğunu söylüyor. Bununla birlikte, verilerin oranlarına bakıldığında, Bbu önemli etkilerden sadece 2 veya …

1
R / mgcv: te () ve ti () tensör ürünleri neden farklı yüzeyler üretir?
mgcvİçin paket Rtensör ürün etkileşimleri uydurma için iki işlevi vardır: te()ve ti(). İkisi arasındaki temel işbölümünü anlıyorum (doğrusal olmayan bir etkileşime uymak ve bu etkileşimi ana etkilere ve etkileşime ayırmak). Anlamadığım şey neden te(x1, x2)ve ti(x1) + ti(x2) + ti(x1, x2)(biraz) farklı sonuçlar üretebilir. MWE (uyarlanmıştır ?ti): require(mgcv) test1 <- …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
Doğrusal regresyonda ikili / dikotom bağımsız öngörücüler için artık analiz nasıl yapılır?
Yönetilen fon getirilerini tahmin etmek için R'de aşağıdaki çoklu doğrusal regresyonu gerçekleştiriyorum. reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata) Burada sadece GRI ve MBA ikili / dikotom tahmincileridir; kalan öngörücüler süreklidir. İkili değişkenler için artık grafikler oluşturmak için bu kodu kullanıyorum. plot(rawdata$GRI, reg$residuals) abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line (y~x) plot(rawdata$MBA, reg$residuals) abline(lm(reg$residuals~rawdata$MBA, …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.