«categorical-data» etiketlenmiş sorular

Kategorik (nominal olarak da adlandırılır) veriler, kategoriler olarak adlandırılan sınırlı sayıda olası değeri alabilir. Kategorik değerler "etiket", onlar "ölçmek" değildir. Ayrık ancak sıralı veri türleri için lütfen [ordinal-data] etiketini kullanın.

3
Tek sıcak kodlama ile sahte kodlama arasındaki sorunlar
K seviyeli kategorik değişkenlerin kukla kodlamada k-1 değişkenleri ile kodlanması gerektiğinin farkındayım (benzer şekilde çok değerli kategorik değişkenler için). Çoğunlukla doğrusal regresyon, cezalandırılmış doğrusal regresyon (Kement, Ridge, Elastik Ağ), ağaç tabanlı (rastgele ormanlar) için farklı regresyon yöntemleri için kukla kodlama üzerinde bir sıcak kodlama (yani bunun yerine k değişkenlerini kullanarak) …

5
Binning her ne pahasına olursa olsun kaçınılmalıdır?
Bu yüzden binning neden her zaman kaçınılması gerektiği hakkında birkaç yazı okudum . Bu iddia için popüler bir referans bu bağlantıdır . Ana kaçamak, binleşme noktalarının (veya kesme noktalarının) ve sonuçta ortaya çıkan bilgi kaybının oldukça keyfi olması ve spline'ların tercih edilmesidir. Bununla birlikte, şu anda birçok özelliği için bir …

1
Faktör analizinde ikili değişkenler için Pearson korelasyonlarını (tetrashorik olanlardan ziyade) hesaplamanın tehlikeleri nelerdir?
Eğitsel oyunlar üzerine araştırma yapıyorum ve mevcut projelerimden bazıları , oyunların tasarım öğeleri arasındaki ilişkileri incelemek için BoardGameGeek (BGG) ve VideoGameGeek (VGG) verilerini kullanmayı içeriyor (yani "II. Dünya Savaşı'nda ayarlandı", "yuvarlanan zarları içeriyor") ) ve bu oyunların oyuncu puanları (10 üzerinden skorlar). Bu tasarım öğelerinin her biri, BGG veya VGG …

3
Lojistik regresyonda kategorik belirleyicilerin WOE dönüşümü neden yapılmalı?
Kategorik değişkenlerin kanıt ağırlığı (WOE) dönüşümü ne zaman yararlıdır? Örnek, WOE dönüşümünde görülebilir (Yani bir yanıt için , ve bir kategorik prediktörü k kategorileri ve y J üzerinden başarıları n j olan çalışmalarda j Bu belirleyicisi kategorisi inci için WOE j inci kategori olarak tanımlanmaktadıryyykkkyjyjy_jnjnjn_jjjjjjj günlükyjΣkjyjΣkj( nj- yj)nj- yjgünlük⁡yjΣjkyjΣjk(nj-yj)nj-yj\log \frac{y_j} …

4
Bu şema ne denir
Birisi bana bu tür bir diyagramın (varsa) adının ne olduğunu söyleyebilir mi? Ayrıca, herkes böyle basit bir diyagram çizmek için basit, ancak herhangi bir araç önerebilir?

2
Veri türleri (nominal / sıralı / aralık / oran) gerçekten değişken türleri olarak mı düşünülmeli?
Örneğin, standart ders kitaplarından aldığım tanımlar Değişken - popülasyonun veya örneğin karakteristiği. ex. Testteki hisse senedi veya kalitenin fiyatı Veri - gerçek gözlemlenen değerler İki sütunluk bir rapor için [Ad | Gelir] sütun adları değişkenler ve gerçek gözlemlenen değerler olacaktır {dave | 100K}, {jim | 200K} veri olurdu Yani [Ad] …


1
ARIMA modelimdeki gözlem 48'e yenilikçi bir aykırı değeri nasıl dahil edebilirim?
Bir veri kümesi üzerinde çalışıyorum. Bazı model tanımlama tekniklerini kullandıktan sonra bir ARIMA (0,2,1) modeliyle çıktım. Orijinal veri setimin 48. gözleminde yenilikçi bir aykırı değer (IO) tespit etmek için R'deki detectIOpaketteki işlevi kullandım .TSA Öngörme amacıyla kullanabilmem için bu aykırı değeri modelime nasıl dahil edebilirim? ARIMAX modelini kullanmak istemiyorum çünkü …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

3
Konsantrasyon parametreleri üzerinde hiperprior dağılımlı multinomial-Dirichlet modeli
Elimdeki sorunu olabildiğince genel olarak anlatmaya çalışacağım. Gözlemleri bir parametre olasılık vektör tetası ile kategorik dağılım olarak modelleniyorum . Sonra parametre vektör teta parametreleri ile bir Dirichlet önceki dağıtımını .α1, α2, … , Αkα1,α2,…,αk\alpha_1,\alpha_2,\ldots,\alpha_k Bu durumda parametreleri üzerine hiperprior dağılımı da uygulamak mümkün ? Kategorik ve dirichlet dağılımları gibi çok …

2
Çoklu doğrusallık kategorik değişkenlerde örtük mü?
Küçük ama fark edilir çoklu bağlantı etkisi vardı çok değişkenli regresyon modelini düzeltmeye ederken, varyans enflasyon faktörler tarafından ölçülen ben fark dahilinde (tabii referans kategorisini hariç sonra) bir kategorik değişkenin kategorilerine. Örneğin, sürekli değişkeni y olan bir veri setimiz ve karşılıklı olası münhasır değerleri k olan bir nominal kategorik x …

2
Dichotomous ve sürekli değişken arasındaki korelasyon
İkili ve sürekli değişken arasındaki ilişkiyi bulmaya çalışıyorum. Bu konudaki temel çalışmamdan bağımsız t-testi kullanmak zorunda olduğumu ve bunun için ön koşulun değişkenin dağılımının normal olması gerektiğine karar verdim. Normalliği test etmek için Kolmogorov-Smirnov testi yaptım ve sürekli değişkenin normal olmadığını ve eğri olduğunu gördüm (yaklaşık 4.000 veri noktası için). …

3
Lojistik regresyonda (SPSS) ikili olmayan kategorik değişkenlerle nasıl başa çıkılır?
Bir çok bağımsız değişkenle ikili lojistik regresyon yapmak zorundayım. Bunların çoğu ikili, ancak kategorik değişkenlerin birkaçı ikiden fazla seviyeye sahip. Bu değişkenlerle baş etmenin en iyi yolu nedir? Örneğin, üç olası değere sahip bir değişken için, iki yapay değişkenin oluşturulması gerektiğini düşünüyorum. Sonra, adım adım regresyon prosedüründe, kukla değişkenlerin her …

2
CSV sütunlarını kategorik veri olarak doğrudan okumak mümkün müdür?
CSV ile gelen bir tıbbi anketten (100+ kodlu sütunlarla) verileri R ile analiz etmem gerekiyor. İlk analiz için çıngırak kullanacağım ama perde arkasında hala R var. I Eğer read.csv () dosyası, sayısal kodların kolonların sayısal veri olarak kabul edilir. Onlardan faktör () ile kategorik sütunlar oluşturabileceğimin farkındayım, ancak 100+ sütun …

4
Bir sütunun kategorik verileri olup olmadığı istatistiksel olarak nasıl kanıtlanır?
Python tüm kategorik değişkenleri bulmak için gereken bir veri çerçevesi var. Sütun türünü denetlemek her zaman işe yaramaz çünkü inttür de kategorik olabilir. Bu yüzden bir sütunun kategorik olup olmadığını belirlemek için doğru hipotez testi yöntemini bulmak için yardım arıyorum. Ki-kare testinin altında çalışıyordum ama bunun yeterince iyi olup olmadığından …

1
Kategorik veriler için cezalandırılmış yöntemler: düzeyleri bir faktörde birleştirme
Cezalandırılmış modeller, parametre sayısının örnek boyutuna eşit veya daha büyük olduğu modelleri tahmin etmek için kullanılabilir. Bu durum, kategorik veya sayım verilerinin büyük seyrek tablolarının log-lineer modellerinde ortaya çıkabilir. Bu ayarlarda, bu seviyelerin diğer faktörlerle nasıl etkileşime girdiği açısından ayırt edilemediği bir faktörün seviyelerini birleştirerek tabloları daraltmak genellikle arzu edilir …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.