Veri türleri (nominal / sıralı / aralık / oran) gerçekten değişken türleri olarak mı düşünülmeli?


10

Örneğin, standart ders kitaplarından aldığım tanımlar

Değişken - popülasyonun veya örneğin karakteristiği. ex. Testteki hisse senedi veya kalitenin fiyatı

Veri - gerçek gözlemlenen değerler

İki sütunluk bir rapor için [Ad | Gelir] sütun adları değişkenler ve gerçek gözlemlenen değerler olacaktır {dave | 100K}, {jim | 200K} veri olurdu

Yani [Ad] sütununun nominal veri olduğunu ve [gelir] oran verisi olduğunu söylersem, çoğu ders kitabının yaptığı gibi bir veri türü yerine bir değişken türü olarak tanımlamak daha doğru olmaz mıydı? Bunun anlambilim olabileceğini anlıyorum ve hepsi bu kadar da iyi. Ama burada bir şey eksik olabileceğimden korkuyorum.


Bana anlamlı bir fark olarak gelmiyor; İfadeyi şahsen kabul edilebilir olarak değerlendiririm. "Değişken" tanımı biraz kapalı görünüyor.
Nick Stauner

2
@Hiç inanıyorum ki, dilsel "karakteristik" matematiksel "gerçek değerli fonksiyona" çevirirsek, rastgele değişken tanımının bir parçasını alırız. (Elbette eksik olan kısım, popülasyondaki bir sigma alanına göre ölçülebilirliktir.) Normalde, yine de, "bir numunenin karakteristiğini" teknik terime çeviririz : belki de "Az kapalı." Bu çevirilerle, değişkenlerin Stevens anlamında hiç "türü" yoktur (yalnızca ayrık sürekli dağılımlardan ayırt edebiliriz ) - ancak bazı veriler olabilir.
whuber

Yanıtlar:


16

Stevens'ın ölçek tipolojisi mutlaka değişkenlerin ve hatta verilerin kendisinin değil, bilgiyi nasıl kullandığımızın - onu ne demek için kullandığımızın - doğuştan gelen bir özelliği değildir .

Bazı durumlarda, tam olarak aynı değer, onunla ne yaptığımıza bağlı olarak oran, aralık, sıralı veya nominal olarak kabul edilebilir - bu, bir analizden diğerine değişebilen değerleri ne anlam verdiğimiz meselesidir. Stevens'ın tipolojisinin bir değeri vardır, ancak bu konuda aşırı kuralcı olmak gerekmez.

Ölçeğin anlam olarak önemine ilişkin bu konu, en azından aynı sayı kümesinin hem nominal hem de aralıklı yorumlarının olduğu bir örnek sunan Lord'a (1953) dayanmaktadır.

Bu nokta, bir resepsiyona girişte arka arkaya numaralandırılmış bilet alan insanlara biletlerden birine ödül veren bir örnek sunan Velleman ve Wilkinson (1993) tarafından daha da açık bir şekilde ifade edilmiştir; biletlerin üzerindeki numaraların kullanımına bağlı olarak dört ölçeğin de yorumları vardır.

Örneğin, 'kazandım mı?' 'kazanan bileti almak için çok erken geldim mi?' sıralı davranan bir sorudur; Öte yandan (ve ben bu gazetede olduğunu sanmıyorum) 5 rastgele bilet numaraları kullanarak odadaki insanların sayısını oran olarak tedavi olacağını tahmin etmek (örneğin 4 rasgele çizilmiş numaralar varsa teselli ödülleri, toplam katılımı tahmin etmek için toplamda 5 rastgele sayınız olur).

"İyi veri analizi veri türlerini varsaymaz", "Stevens'ın kategorileri sabit veri özelliklerini tanımlamaz", "Stevens'ın kategorileri veri ölçeklerini tanımlamak için yetersizdir" ve "İstatistik prosedürleri Stevens kriterlerine göre sınıflandırılamaz" (aslında her ifade aynı zamanda bir bölüm başlığıdır).

Eleştiriler ayrıca Tukey tarafından çeşitli yerlerde de sunuldu (örneğin, Mosteller ve Tukey'in 1977 Veri analizi ve regresyonu kitabının 5. bölümünde ); Mosteller ve Tukey bir tipoloji sundu - isimler , dereceler (sıralı etiketler), rütbeler (1'den başlayarak en büyük veya en küçük olanı temsil edebilir), sayılan kesirler (sıfır ve bir ile sınırlı, bunlar yüzdeleri içerir), sayımlar (negatif olmayan ) tamsayılar), tutarlar (negatif olmayan gerçek sayılar), bakiyeler (sınırsız, pozitif veya negatif değerler).

Kendi çalışmamda, analizlerle ilgili ciddi sorunların, seviyelerle (bazen 'stok' değişkenler olarak da adlandırılır) ve akışlarla ilgili değişkenler arasındaki büyük farkı anlamayan insanların neden olduğu durumları gördüm - bu türlerin basit bir örneği farktır bir periyot dizisinin her birinde aslında bir depolama tankında bulunan su miktarlarına ve içine akan su miktarına uygun analiz türlerinde. Bunlar (bazı durumlarda) hem Mosteller hem de Tukey ' miktarlar ' türünün alt kategorileri olacaktır (ve aynı durumlarda, Stevens şemasındaki her iki oran değişkeni), tipoloji konularının oldukça ince olabileceğini gösterir, ancak yine de uygun analizleri önemli ölçüde etkileyebilir.

PFVelleman ve L.Wilkinson (1993),
"Nominal, Ordinal, Aralık ve Oran Tipolojileri Yanıltıcı"
, Amerikan İstatistikçisi , cilt. 47 no.1 s. 65-72

(çalışan bir versiyon 2 yazarlar web sayfasında mevcut gibi görünüyor burada )

Lord, F. (1953),
"Futbol numaralarının istatistiksel tedavisi üzerine,"
Amerikalı Psikolog , 8 , s.750-751

(Bu makalenin yılı, bağladığım Velleman ve Wilkinson gazetesinin versiyonunun referanslarında yanlış verildi, ancak makalenin gövdesinde doğru bir şekilde atıfta bulundu)


Teşekkürler. Çok kapsamlı bir cevap. Ben bu çizgileri düşünüyordum ama bunu araştırırken birçok kez somut ve fikir birliğine varmış gibi görünüyorlar. Bu yüzden buraya geldim.
Kullanıcı 42

Stevens'ın tipolojisi ilk yayınlandığından beri tartışıldı ve tartışıldı. Bu bazen yararlı bir çerçeve, teorem değil.
Glen_b

Stevens ve Mosteller'den başka "yeni favori" var mı? Düzeyler / akışlar örneğinde, sizi doğru anlarsam, her ikisinin de aynı türü vardır, ancak farklı şekilde ele alınması gerekir? Bu farkı açıklayabilir misiniz? Ve örneğin bir değerin log tipini bu tipolojiye nasıl sığdırabiliriz? Teşekkürler.
Erich Schubert

1. Son zamanlarda yapılan herhangi bir girişimi bilmiyorum - ve sanırım insanları daha az uygun analizlere sokma eğiliminde oldukları için yararlı olmadıklarını düşünüyorum (oyuncak örneği için Lord'un makalesine bakın, ancak analiz sonuçları çok gerçek - türlerine göre yapılan bu analiz listeleri, korkunç istatistiksel analizin sona ermesine neden olmazken, uygun durumlarda dikkate alınma olasılığından geniş istatistik alanlarını keser). ..
ctd

ctd ... 2. Seviyelerin ve akışların nasıl farklı olduğuna dair bir örnek: Her gün seviyeye bakarsanız, bugünkü seviye önceki seviye artı araya giren giriş veya çıkış (veya her ikisinin toplamı) olacaktır. , her ikisi de mümkünse). Bu nedenle seviye ölçümleri zorunlu olarak bağımlıdır, çoğu zaman öyle olur. Onlara bağımsızmış gibi davranmak mantıklı değil - yine de insanların bunu her zaman yaptığını görüyorum. 3. Günlükle ilgili ne istediğinizi tam olarak bilmiyorum. Bu konuda daha açık olabilir misiniz? Hangi tipoloji (birden fazla bahsettiğimi unutmayın)?
Glen_b -Ricatate Monica

1

Verilerin türü ilişkilidir ancak değişkenin türüyle aynı değildir. Vakaların çoğu aynıdır, ancak olmak zorunda değildir.

Örneğin, normal bir dağılımdan N örneği toplarsanız. Bunun sayısal (oran veya ölçek) bir veri olduğunu düşünürdünüz. Ama aynı zamanda N farklı kategoride, her kategori için 1 sıklıkta kategorik bir değişken olduğunu söyleyebilirim. Aptalca görünüyor ama aynı zamanda geçerli bir değişken.


Bu, "gerçek mesele ölçümün anlamıdır" yazan Stevens (bu tipolojiyi formüle eden) ile biraz çelişkili görünüyor. Her zaman bu tür verileri nominal olarak ele almayı seçebilmenize rağmen, bu, Stevens'ın tahmininde onları nominal yapmaz. Makalesini gaius.fpce.uc.pt/niips/novoplano/mip1/mip1_201314/scales/… adresinde bulabilirsiniz .
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.