Kategorik verileri sürekli olarak ele almak hiç mantıklı geliyor mu?


57

Kesin ve sürekli veri üzerine bu soruyu cevaplarken, kategorik verileri sürekli olarak ele almanın nadiren mantıklı olduğunu ileri sürdüm.

Anlaşılır görünen, ancak sezgi genellikle istatistik için kötü bir rehber, ya da en azından benim. Şimdi merak ediyorum: doğru mu? Yoksa kategorik verilerden bir sürekliliğe dönüşümün gerçekten yararlı olduğu analizler var mı? Veriler sıralı olsaydı fark yaratır mıydı?


20
Bu soru ve cevapları, bize bu eski değişkenlerin kategorik-ordinal-aralık-oranına bölünmesinin ne kadar kaba ve sınırlı olduğunu hatırlatır. İstatistiksel olarak saflığı yönlendirebilir, ancak düşünceli veya deneyimli analist için bu bir engeldir, değişkenlerin verilere ve onlarla alınacak kararlara uygun şekillerde ifade edilmesinin önündeki bir engeldir . Bu ikinci bakış açısıyla çalışan biri kategorik ve "sürekli" veri sunumları arasında serbestçe hareket edecektir; onlar için bu soru bile ortaya çıkamaz! Bunun yerine, şunu sormalıyız: nasıl yardımcı olur?
whuber

@whuber (+1) En azından, ölçüm güvenilirliğini ve teşhis doğruluğunu aynı anda optimize etmek zor görünüyor.
chl

Yanıtlar:


34

Bir "kategorik" değişkenin gerçekten sıralı bir değişkenin anlamına geldiğini varsayacağım; Aksi halde @Rob tarafından işaret edilen bir ikili değişken (0/1 kodlu) olmadıkça, bunu sürekli biri olarak değerlendirmek pek mantıklı değildir. Daha sonra, kategorik veri analizi için pek çok model şu ana kadar geliştirilmiş olmasına rağmen, sorunun değişkeni tedavi etme şeklimiz olmadığını söyleyebilirim - bkz. Örneğin, Sıralı kategorik verilerin analizi: Genel bir bakış ve son zamanlarda yapılan bir anket Liu ve Agresti'den gelen gelişmeler , varsaydığımız temel ölçü ölçeğinden daha fazla. Cevabım bu ikinci noktaya odaklanacak, ancak ilk olarak sayısal puanların değişken kategorilere veya seviyelere atanmasını kısaca tartışacağım.

Sıralı bir değişkenin basit bir sayısal kodlamasını kullanarak, değişkenin aralık özelliklerine sahip olduğunu varsayıyorsunuz (Stevens, 1946 tarafından verilen sınıflandırma anlamında). Ölçüm teorisi perspektifinden (psikolojide), bu genellikle çok güçlü bir varsayım olabilir, ancak temel çalışma için (yani, net bir ifadeyle günlük bir etkinlik hakkında birinin fikrini ifade etmek için tek bir öğenin kullanıldığı durumlarda) herhangi bir monoton skorun karşılaştırılabilir sonuçlar vermesi gerekir. . Cochran (1954) zaten işaret etti

Herhangi bir puan seti , deney sonuçlarına bakılmaksızın oluşturulmak kaydıyla geçerli bir sınav verir . Eğer puanlar seti zayıfsa, sıralanan sınıflamanın altında yatan sayısal bir ölçeği kötü bir şekilde bozarsa, test hassas olmayacaktır. Bu nedenle puanlar, sınıflandırmanın nasıl yapıldığı ve kullanıldığı ile ilgili mevcut en iyi bilgileri içermelidir. (s. 436)

(@Whuber'a bana yaptığı açıklamalardan birinde bana bu konuyu hatırlattığı için teşekkür etti, bu da Agresti'nin bu alıntıdan geldiği kitabını tekrar okumamı sağladı.)

M2M2=(n1)r2

Ayrıca, değişkeninizi düzensiz bir aralıkta yeniden kodlamaya karar verebilir veya seviyelerinin bir kısmını toplayabilirsiniz, ancak bu durumda kodlanmış kategoriler arasındaki güçlü dengesizlik, örneğin yukarıda belirtilen trend testi gibi istatistiksel testleri bozabilir. Kategoriler arasında mesafe atamak için güzel bir alternatif @Jeromy, yani en uygun ölçeklendirme tarafından önerildi.

Şimdi, yaptığım ikinci noktayı, bunun altında yatan ölçüm modelini tartışalım. Bu tür bir soru gördüğümde her zaman "psikometri" etiketini eklemek konusunda tereddüt ediyorum, çünkü ölçüm ölçeklerinin oluşturulması ve analizi Psikometrik Teori'nin altında yer alıyor (Nunnally ve Bernstein, 1994, düzgün bir genel bakış için). Öğe Tepkisi Teorisi'ne dayanan tüm modellere değinmeyeceğim ve ilgilenen okuyucuyu I'e havale ediyorum. Partchev'in öğreticisi, Madde tepkisi teorisine görsel bir rehberIRT'ye ve olası IRT taksonomileri için sonunda listelenen referanslara (5-8) yumuşak bir giriş için. Kısaca, fikir, değişken kategoriler arasında rastgele mesafeler atamak yerine, gizli bir ölçek üstlendiğiniz ve bu süreklilik üzerindeki konumlarını, bireylerin yetenekleri ve sorumluluklarıyla birlikte tahmin edeceğinizdir. Basit bir örnek, matematiksel notasyona değecektir, bu nedenle şu maddeyi ele alalım ( EORTC QLQ-C30 sağlıkla ilgili yaşam kalitesi anketinden geliyor):

Endişelendin mi?

Dört noktadan kodlanmış, "Hiç değil" den "Çok fazla" ya kadar. Ham puanlar, 1 ila 4 arasında bir puan vermek suretiyle hesaplanır. Aynı skalaya ait eşyalardaki puanlar, altta yatan yapıdaki (burada, zihinsel bir sağlık bileşeni olan birinin sırasını belirten) ölçek puanını vermek üzere bir araya getirilebilir. ). Bu gibi toplam ölçek puanları, puan alma kolaylığı (uygulayıcı veya hemşire için) nedeniyle çok pratiktir, ancak bunlar ayrı (sıralı) bir ölçekten başka bir şey değildir.

Ayrıca, belirli bir cevap kategorisini onaylama olasılığının, I. Partchev'in yukarıda anlatıldığı gibi anlatıldığı gibi bir tür lojistik modele uyduğunu da düşünebiliriz. Temel olarak fikir, bir tür eşik modelidir (orantılı veya kümülatif olasılık modelleri açısından eşdeğer formülasyona yol açar) ve yukarıdaki puanlama oranlarından önce bir cevap kategorisinde olma olasılığını modellenir. belirli kategorideki, konuların gizli özellikteki konumlarına bağlı. Ek olarak, yanıt kategorilerinin gizli ölçekte eşit aralıklarla yerleştirilebileceğini söyleyebiliriz (bu, Derecelendirme Ölçeği modelidir) - düzenli aralıklarla yerleştirilmiş sayısal puanlar atayarak yaptığımız yoldur - ya da değil (bu Kısmi Kredi modelidir) .

Açıkçası, sıralı değişkenin sayısal olanlar olarak değerlendirildiği Klasik Test Teorisi'ne fazla bir şey eklemiyoruz. Bununla birlikte, sürekli bir ölçek varsaydığımız (aralık özellikleriyle) ve belirli ölçüm hatalarının hesaba katılabileceği olasılıksal bir model ortaya koyuyoruz ve bu faktoring puanlarını herhangi bir regresyon modelinde tıkayabiliyoruz.

Referanslar

  1. SS Stevens. Ölçme ölçekleri teorisi. Science , 103 : 677-680, 1946.
  2. χ2
  3. J Nunnally ve ben Bernstein. Psikometrik Kuram . McGraw-Hill, 1994
  4. Alan Agresti. Kategorik Veri Analizi . Wiley, 1990.
  5. CR Rao ve S Sinharay, editörler. İstatistik El Kitabı, Vol. 26: Psikometri . Elsevier Science BV, Hollanda, 2007.
  6. Bir Boomsma, MAJ van Duijn ve TAB Snijders. Madde Cevap Teorisi Üzerine Denemeler . Springer, 2001.
  7. D Thissen ve L Steinberg. Madde cevap modellerinin taksonomisi. Psikometrika , 51 (4) : 567-577, 1986.
  8. P Mair ve R Hatzinger. Genişletilmiş Rasch Modelleme: IR'de IRT Modellerinin Uygulanması için eRm Paketi . İstatistiksel Yazılım Dergisi , 20 (9) , 2007.

19

Yalnızca iki kategori varsa, bunları (0,1) 'e dönüştürmek mantıklı olur. Aslında, bu genellikle ortaya çıkan kukla değişkenin regresyon modellerinde kullanıldığı yerlerde yapılır.

İkiden fazla kategori varsa, o zaman sadece verilerin sıralı olup olmadığını ve sonra sadece çok özel durumlarda anlamlı olacağını düşünüyorum. Örneğin, regresyon yapıyorum ve ordinal-cum-numeric değişkenine parametrik olmayan doğrusal olmayan bir işlev takarsam, bunun sorun olmadığını düşünüyorum. Fakat eğer lineer regresyon kullanırsam, o zaman ordinal değişkenin ardışık değerleri arasındaki bağıl fark hakkında çok güçlü varsayımlar yapıyorum ve genellikle bunu yapmak istemiyorum.


1
"[T] hen ordinal değişkenin ardışık değerleri arasındaki bağıl fark hakkında çok güçlü varsayımlar yapıyorum." Bence bu kilit nokta, gerçekten. yani 1. ve 2. gruplar arasındaki farkın, 2 ile 3 arasındaki farkla karşılaştırılabilir olduğunu ne kadar kuvvetli iddia edebilirsin?
Freya Harrison

Sürekli değişkenin nasıl dağılması gerektiği konusunda biraz varsayımda bulunmanız ve ardından her bir kategorik değişken frekansın bu "psudohistogramına" uymaya çalışmanız gerektiğini düşünüyorum (demek istediğim onu ​​bir histograma dönüştürecek bölme genişliklerini bulmaya çalışıyorum). Yine de, bu alanda uzman değilim, hızlı ve kirli bir fikir.

İkili kategorileri {0,1} olarak tekrar kullanmak mantıklıdır, ancak bunu sürekli [0,1] aralığına çevirmek bir sıçrama gibi görünmektedir. Daha geniş cephede, modelden güçlü argümanlar olmadıkça, sıralılara eşit derecede ağırlık vermedeki isteksizliğinizi tamamen alıyorum.
walkytalky

18

Sıralı kategorik değişkenleri birçok kategoriyle sürekli olarak ele almak yaygın bir uygulamadır. Buna örnekler:

  • 100 maddelik bir testte doğru olan madde sayısı
  • Toplanmış bir psikolojik ölçek (örneğin, her biri beş puanlık ölçekte 10 maddenin ortalaması)

Ve "sürekli olarak muamele etme" ile, değişkeni, sürekli rastgele bir değişken kabul eden bir modele (örneğin, doğrusal bir regresyonda bağımlı bir değişken olarak) dahil etmek anlamına gelir. Sanırım mesele, bunun makul bir basitleştirici varsayım olması için kaç ölçek puanının gerekli olduğudur.

Birkaç başka düşünceler:

  • Polikrik korelasyonlar , iki sıralı değişken arasındaki ilişkiyi varsayılan gizli değişkenler açısından modellemeye çalışır.
  • Optimal ölçeklendirme , kategorik bir değişkenin ölçeklemesinin, verdiğiniz herhangi bir ölçek kısıtlamasına (örneğin sıradanlık) saygı duyurken veri odaklı bir şekilde geliştirildiği modeller geliştirmenize olanak tanır. İyi bir giriş için bkz. De Leeuw ve Mair (2009).

Referanslar

  • De Leeuw, J. ve Mair, P. (2009). R'de optimal ölçeklendirme için Gifi yöntemleri: Paket homals. İstatistiksel Yazılım Dergisi, yakında, 1-30. PDF

7

Pek çok okuyucunun deneyiminde yer alması gereken ve çoğu zaman akademik çalışmalara verilen notları veya notları ilgilendiren çok basit bir örnek. Genellikle bireysel ödevler için verilen işaretler, esas olarak yargı temelli sıralı ölçümlerdir, bir konvansiyon konusu olarak, (örneğin) yüzde 5 veya maksimum 5 (muhtemelen ondalık sayılarla) bir ölçekte işaretlenmiş işaretler olarak verilse bile. Yani, bir öğretmen bir makale veya tez veya tez veya bildiri okuyabilir ve% 42 veya 4'ü veya her neyse onu hak ettiğine karar verebilir. İşaretler ayrıntılı bir değerlendirme şemasına dayandığında bile, ölçek bir aralık veya oran ölçüm ölçeğinden bir miktar uzaktadır.

Ancak o zaman birçok kurum, bu notlardan veya derecelerden yeterince yararınız varsa, onları ortalamalandırmanın (not ortalaması) vb. Ve bunları daha ayrıntılı olarak analiz etmenin tamamen makul olduğu görüşündedir. Bu nedenle, bir noktada sıra ölçümleri, sürekli gözüküyormuş gibi tedavi edilen bir özet ölçeğine dönüşür.

İroni uzmanları, birçok bölümdeki veya okuldaki istatistik derslerinin, Üniversite çapında bir prosedür olarak uygulandığı sürece, genellikle bunun en iyi şüpheli ve en kötü yanlış olduğunu öğrettiğini not edecektir.


5

Bir Pareto çizelgesi ve ilgili değerlerde olduğu gibi sıklık derecesine göre yapılan bir analizde (örneğin kaç ürün kategorisi ürün hatalarının% 80'ini oluşturur)


5
Önemli nokta ve genişletilebilir: Sıralı veriler için birçok model, sıralı veriler değil, bunların modellenebilecek kümülatif olasılıkları olduğu fikrine dayanır.
Nick Cox

4

Gerçekten kategorik, sıra dışı bir değişkeni sürekli olarak ele almanın bazen mantıklı olabileceği iddiasını getireceğim.

Büyük veri kümelerine dayanan karar ağaçları oluşturuyorsanız, kategorik değişkenleri yapay değişkenlere dönüştürmek işlem gücü ve bellek açısından maliyetli olabilir. Ayrıca, bazı modeller (örneğin randomForestR), kategorik değişkenleri pek çok düzeyde işlemez.

Bu durumlarda, ağaç tabanlı bir model, sürekli değişken olarak kodlanmışsa, EVEN IF son derece önemli kategorileri tanımlayabilmelidir. Kararlı bir örnek:

set.seed(42)
library(caret)
n <- 10000
a <- sample(1:100, n, replace=TRUE)
b <- sample(1:100, n, replace=TRUE)
e <- runif(n)
y <- 2*a + 1000*(b==7) + 500*(b==42) + 1000*e
dat1 <- data.frame(y, a, b)
dat2 <- data.frame(y, a, b=factor(b))

y sürekli bir değişkendir, a sürekli bir değişkendir ve b kategorik bir değişkendir. Bununla birlikte, dat1b'de sürekli olarak kabul edilir.

Bu 2 veri setine bir karar ağacı koyarak, bunun dat1aşağıdakilerden biraz daha kötü olduğunu bulduk dat2:

model1 <- train(y~., dat1, method='rpart')
model2 <- train(y~., dat2, method='rpart')
> min(model1$results$RMSE)
[1] 302.0428
> min(model2$results$RMSE)
[1] 294.1411

2 modele bakarsanız, bunların çok benzer olduğunu göreceksiniz, ancak model1 b == 42'nin önemini özlüyor:

> model1$finalModel
n= 10000 

node), split, n, deviance, yval
      * denotes terminal node

 1) root 10000 988408000  614.0377  
   2) a< 42.5 4206 407731400  553.5374 *
   3) a>=42.5 5794 554105700  657.9563  
     6) b>=7.5 5376 468539000  649.2613 *
     7) b< 7.5 418  79932820  769.7852  
      14) b< 6.5 365  29980450  644.6897 *
      15) b>=6.5 53   4904253 1631.2920 *
> model2$finalModel
n= 10000 

node), split, n, deviance, yval
      * denotes terminal node

 1) root 10000 988408000  614.0377  
   2) b7< 0.5 9906 889387900  604.7904  
     4) a< 42.5 4165 364209500  543.8927 *
     5) a>=42.5 5741 498526600  648.9707  
      10) b42< 0.5 5679 478456300  643.7210 *
      11) b42>=0.5 62   5578230 1129.8230 *
   3) b7>=0.5 94   8903490 1588.5500 *

Bununla birlikte, model1, model2'nin yaklaşık 1 / 10'unda çalışır:

> model1$times$everything
   user  system elapsed 
  4.881   0.169   5.058 
> model2$times$everything
   user  system elapsed 
 45.060   3.016  48.066 

Elbette, problemin parametrelerini daha iyi veya biraz daha iyi performans dat2gösterdiği durumları bulmak için ayarlayabilirsiniz .dat1dat1dat2

Genelde kategorik değişkenleri sürekli olarak ele almayı savunmuyorum, ancak bunun tahmin edilme doğruluğunu düşürmeden modelime uyması için gereken süreyi büyük ölçüde azalttığı durumlar buldum.


3

Bu konunun çok güzel bir özeti burada bulunabilir:

mijkerhemtulla.socsci.uva.nl PDF

"Kategorik değişkenler ne zaman sürekli olarak ele alınabilir? Sağlam ve kategorik SEM tahmin yöntemlerinin optimal olmayan koşullar altında karşılaştırılması."

Mijke Rhemtulla, Patricia. Brosseau-Liard ve Victoria Savalei

Bunu yapmak için yaklaşık 60 sayfalık yöntemi araştırıyorlar ve ne zaman işe yarayacakları, hangi yaklaşımın alınacağı ve kendi durumunuza uyması için her bir yaklaşımın güçlü ve zayıf yönlerinin ne olduğu hakkında fikir veriyorlar. Bunların hepsini kapsamıyorlar (öğrendiğim için sınırsız bir miktar gibi görünüyor), fakat yaptıklarını iyi karşılamaktadırlar.


2

Mantıklı olduğu başka bir durum daha var: Veriler sürekli verilerden örneklendiğinde (örneğin bir analog-dijital dönüştürücü aracılığıyla). Eski enstrümanlar için ADC'ler genellikle 10-bit olacaktır, bunlar nominal olarak 1024-kategorideki sıralı verileri verir, ancak çoğu amaç gerçek sayılabilir (yine de ölçeğin düşük ucuna yakın değerler için bazı eserler olacaktır). Bugün ADC'ler daha yaygın olarak 16 veya 24 bit. 65536 veya 16777216 "kategorilerinden" söz ettiğinizde, verileri sürekli olarak değerlendirmekte hiçbir sorun yaşamayacaksınız.


Sonuç olarak kesinlikle aynı fikirdeyim, ama tartışmaya açık bir şekilde bu tür veriler hiçbir zaman başlangıçta sıralı olmadı. Nominal-ordinal-aralık-oranının berbat muameleleri, sık sık sıralamanın ima ettiği anlamına gelmediğine işaret etmemekle suçlanır; Bir sayım sıralıdır, fakat aynı zamanda aralık ve orandır.
Nick Cox

@Nick Ordinal ayrık mı? Şart değil. Sürekli önlemler sıralı olabilir. Örneğin, GSP veya kalp hızı gibi fizyolojik değişkenler süreklidir, ancak anksiyete veya uyarılma gibi psikolojik değişkenlerin ölçümleri olarak yalnızca sıralıdırlar. Sıra vs aralık kavramı gerçekten ölçüsü ölçmek istediği şeyle ilişkilendiren işlevin doğrusallığına işaret eder.
Ray Koopman,

Bu ilginç bir not, ancak o bölgeye girdiğinizde, kalp atış hızını, gerçekte ne kaygının gerçekte olduğuna dair bağımsız bir kanıt olmadan nasıl sınıflandırdığınızı ve nihayetinde vekil olarak kabul edilen değişkenlerin sınıflanamadığını görmüyorum. Ölçüm skalasına yalnızca sıralı olarak bakmaya geçtiğinizde, aralık ya da oran verisi için yöntemleri kullanmayı reddetmeyi tamamen ister misiniz? Verilerin, onlarla yapmayı düşündüğünüz şey nedeniyle farklı davrandığını sanmıyorum; bu benim için meselenin özü.
Nick Cox

1
@Nick Soru, ölçülen değeri "gerçek" değerle ilişkilendiren işlevin, doğrusal olarak buna yeterince yaklaşıp yaklaştırılmadığı veya yanlış sonuçlara yol açmayacağı ya da sadece monotonik olarak ele alınması gerekip gerekmediğidir. Kararın temelini oluşturan genellikle çok az veya hiç zor veri yoktur; Neredeyse her zaman bilgili akıllı insanların aynı fikirde olmaya karar vermeleri gereken bir yargılama çağrısı olacak.
Ray Koopman,

1
İstatistiklerdeki ölçüm ölçekleri tartışmalarındaki genel vurgunun değişkenlerin matematiksel özellikleri ve her biri için meşru matematiksel işlemler olduğunu düşünüyorum. Bu yeterince çekişmeli. Bir şeyin ne olması gerektiğini ölçüp ölçmeyeceği konusundaki bilimsel endişe, hayati öneme sahip olduğum için kolayca kabul ediyorum, ancak oldukça farklı bir tartışma alanı olarak görüyorum.
Nick Cox,
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.