Kategorik veya nitel değişkenlerle hangi özet istatistikler kullanılacak?


18

Açıklamak gerekirse, özet istatistikleri kastederken, Ortalama, Medyan Çeyrek aralıklarına, Varyansa, Standart Sapmaya değiniyorum.

Bir tek değişkenli özetleyen zaman kategorik veya nitel hem göz önünde Nominal ve Ordinal davaları, mantıklı onun ortalama, medyan bulmak için, dörtte birlik kısım aralıkları, varyans ve standart sapma yapar?

Eğer öyleyse, sürekli bir değişkeni özetlemekten farklı ve nasıl?


2
Terminolojiden biri hariç, kategorik ve nitel değişken arasında neredeyse hiçbir fark görmüyorum. Her neyse, ortalama bir değişken (örn. Saç rengi) üzerinde ortalama veya SD gibi bir şeyi hesaplamak çok zor olurdu. Belki sıralı seviyelere sahip kategorik değişkenler düşünüyorsunuz?
chl

Hayır, kategorik verilerin bir siparişi veya sıralama düzeyleri varsa, bu web sitesine göre Sıralı olduğu söylenir : [ stats.gla.ac.uk/steps/glossary/presenting_data.html#orddat] ve "Siz sayabilirsiniz ve sipariş, ancak ölçmek değil, sıralı veri "
chutsu

Ama yanılıyor muyum?
chutsu

Yanıtlar:


8

Genel olarak, cevap hayır. Bununla birlikte, sıralı verilerin medyanını alabileceğiniz iddia edilebilir, ancak elbette, bir sayı değil, medyan olarak bir kategoriye sahip olacaksınız. Medyan verileri eşit olarak böler: Yarısı yukarıda, yarısı. Sıradan veriler yalnızca siparişe bağlıdır.

Ayrıca, bazı durumlarda, sıralılık kaba aralık seviyesi verilerine dönüştürülebilir. Sıralı veriler gruplandığında bu doğrudur (örneğin, gelirle ilgili sorular sıklıkla bu şekilde sorulur). Bu durumda, kesin bir medyan bulabilir ve özellikle alt ve üst sınırlar belirtilirse diğer değerlere yaklaşık olarak yaklaşabilirsiniz: Her kategori içinde bir miktar dağılım (örneğin tek tip) olduğunu varsayabilirsiniz. Aralıklı hale getirilebilen bir başka sıralı veri durumu, seviyelere sayısal eşdeğerlerin verildiğidir. Örneğin: Asla (% 0), bazen (% 10-30), yaklaşık yarısı (% 50) vb.

David Cox'u (bir kez daha) alıntılamak için:

Rutin istatistiksel sorular yoktur, sadece şüpheli istatistiksel rutinler vardır


1
Sen iyi ilgili bilgi sağlamak ama chl sorusuna yanıt olarak, OP sıralı olmayan kategorik veriler hakkında konuştuğunu açıkça belirtti. Yani cevabınız gerçekten bir cevap değil ama ben aşağılık bir oy verecek biri değilim. Ama bunu bir yoruma çevirmen gerektiğini düşünüyorum.
Michael R. Chernick

1
Hayır, sınırlı anlayışım için bir değer kattığını düşündüğüm için cevabı küçümsemeyeceğim. Açıklamamda, hem Ordinal hem de Nominal Özet istatistiklerini düşündüğümü açıkça belirtmeliydim, bu yüzden hata benim.
chutsu

5

Daha önce de belirtildiği gibi, araçlar, SD'ler ve menteşe noktaları kategorik veriler için anlamlı değildir. Menteşe noktaları (örn. Medyan ve çeyrekler) sıralı veriler için anlamlı olabilir. Başlığınız ayrıca kategorik verileri tanımlamak için hangi özet istatistiklerin kullanılması gerektiğini de sorar. Kategorik verileri sayım ve yüzde olarak karakterize etmek standarttır. (Yüzdelerin etrafına% 95 güven aralığı da eklemek isteyebilirsiniz.) Örneğin, verileriniz:

"Hispanic"         "Hispanic"        "White"             "White"            
"White"            "White"           "African American"  "Hispanic"        
"White"            "White"           "White"             "other" 
"White"            "White"           "White"             "African American"
"Asian"

Bunları şöyle özetleyebilirsiniz:

White             10 (59%)
African American   2 (12%)
Hispanic           3 (18%)
Asian              1 ( 6%)
other              1 ( 6%)

3

Nominal değişkenleriniz varsa, sipariş veya mesafe fonksiyonu yoktur. Peki, bahsettiğiniz özet istatistiklerden herhangi birini nasıl tanımlayabilirsiniz? Yapabileceğini sanmıyorum. Çeyrekler ve aralık en azından sipariş gerektirir, araçlar ve varyans sayısal veriler gerektirir. Çubuk grafikler ve pasta grafik sıralı olmayan nitel değişkenleri özetlemek için uygun yolların tipik örnekler olduğunu düşünüyorum.


3
@PeterFlom Demek istediğim, nitel verileri özetlemek için tüm olası grafiksel prosedürleri listelemek değildi. Gerçekten karşılaştırılabilecek bir oran olduğunu ve oranların kategorilere dağılma şeklini vurgulamak istiyorum. Oranlardaki farklılıkları görsel olarak tanımak için çubuk grafiklerin görselleştirilmesini pasta grafiklerden daha kolay olduğunu düşünüyorum, ancak kategorik verileri özetlemenin sadece iki popüler yolu. Mevcut tüm yöntemlere aşina olmadığım için en iyisi olduklarını söylemek istemiyorum.
Michael R. Chernick

7
Kesinlikle popüler! Ancak bence, pasta grafiklerini daha az popüler hale getirmek, bu alandaki uzmanlar olarak sorumluluğumuzun bir parçası .
Peter Flom - Monica'yı eski durumuna döndürün

3
Cleveland, ilk olarak, insanların açısal ölçümü algılamada doğrusal mesafeden daha kötü olduğunu gösterdi. İkincisi, bir pasta grafikteki renklerin değiştirilmesi insanların dilimlerin boyutu hakkındaki algılarını değiştirdi. Üçüncüsü, pasta grafiğini döndürmek insanların dilimlerin boyutu hakkındaki algılarını değiştirdi. Dördüncüsü, çok farklı büyüklükte olmadıkça insanların dilimleri en büyüğünden en küçüğüne sipariş etmekte zorlandılar. Cleveland nokta grafikleri tüm bunlardan kaçınır.
Peter Flom - Monica'yı eski durumuna döndürün

6
@Michael "Bir tablo neredeyse her zaman aptal bir pasta grafikten daha iyidir; bir pasta grafikten daha kötü tasarım birkaç tanesi ... pasta grafikler asla kullanılmamalıdır." - Tufte. "Pasta grafiklerle gösterilebilen veriler her zaman bir nokta grafikle gösterilebilir. 1920'lerde JASA sayfalarında pasta grafiklerin ve bölünmüş çubuk grafiklerin göreceli değerleri hakkında şiddetli bir savaş ... her iki kamp da kaybediyor diğer grafikler bölünmüş çubuk grafiklerden veya pasta grafiklerden çok daha iyi performans gösterir. "- Cleveland. Bildiğiniz gibi, Cleveland kuralcı değildir: bu her şey hakkında aldığı kadar güçlü.
whuber

6
BTW, @Michael, sizinle ve bu konuda (ikna edici ve iyi sunulmuş bulduğum) yaptığınız argümanları kabul ediyorum, ancak bir moderatör olarak topluluk üyeleri tarafından "ses tonu" ile ilgili güçlü itirazları iletmem gerekiyor benimsiyorsun. Lütfen sitenin görgü kurallarını takip edin: konuya sadık kalın ve başkalarına saldırmayın. Bir jest gibi bile olabilecek bir saldırı gibi şeyler bile yazmayın. Tabii ki aynı öğüt herkese yayılıyor.
whuber

2

Mod hala çalışıyor! Bu önemli bir özet istatistiği değil mi? (En yaygın kategori nedir?) Bence medyan önerisinin istatistik olarak çok az değeri vardır ya da hiç değeri yoktur, ama mod öyle.

Ayrıca farklı saymak değerli olacaktır. (Kaç tane kategoriniz var?)

(En yaygın kategori) / (en az ortak kategori) veya (# 1 en yaygın kategori) / (# 2 en yaygın kategori) gibi oranlar oluşturabilirsiniz. Ayrıca (en yaygın kategori) / (diğer tüm kategoriler), 80/20 kuralı gibi.

Ayrıca kategorilerinize numaralar atayabilir ve her zamanki istatistiklerle çıldırırsınız. AA = 1, Hisp = 2 vb. Artık ortalama, medyan, mod, SD vb. Hesaplayabilirsiniz.


0

Diğer cevapları takdir ediyorum, ama bana öyle geliyor ki, bazı topolojik altyapılar cevaplara çok ihtiyaç duyulan bir yapı verecektir.

Tanımlar

Alanların tanımlarını belirleyerek başlayalım:

  • kategorik değişken, etki alanı öğeleri içeren bir değişkendir, ancak bunlar arasında bilinen bir ilişki yoktur (bu nedenle yalnızca kategorilerimiz vardır). Örnekler, bağlama bağlıdır, ancak genel durumda haftanın günlerini karşılaştırmanın zor olduğunu söyleyebilirim: Pazartesi Pazar gününden önce, eğer öyleyse, önümüzdeki Pazartesi ne olacak? Belki daha kolay, ancak daha az kullanılan bir örnek kıyafet parçalarıdır: bir emri anlamlandıracak bir bağlam sunmadan, pantolonun jumper'lardan önce gelip gelmediğini söylemek zordur.

  • sıra değişkeni toplam düzene sahip bir değişkendir etki alanı üzerinde tanımlanmış , yani alanın her iki öğesi için, birbirinin aynı veya birinin diğerinden daha büyük olduğunu söyleyebiliriz. Bir Likert ölçekli bir sıra değişkenin tanımı, iyi bir örnektir. "biraz katılıyorum" kesinlikle "kesinlikle katılmıyorum" dan "katılmıyorum" daha yakındır.

  • aralık değişkeni, alanı öğeler arasındaki mesafeleri tanımlayan bir değişkendir (a metrik ) tanımlayan ve böylece aralıkları tanımlamamıza izin veren .

Alan örnekleri

Kullandığımız en yaygın küme olarak, doğal ve gerçek sayılar standart toplam düzen ve metriklere sahiptir. Bu yüzden kategorilerimize numara atarken dikkatli olmalıyız. Düzeni ve mesafeyi göz ardı etmemeye dikkat etmezsek, kategorik verilerimizi aralıklı verilerde pratik olarak dönüştürürüz. Kişi nasıl çalıştığını bilmeden bir makine öğrenme algoritması kullandığında, bu varsayımları istemeden yapma riskiyle kendi sonuçlarını potansiyel olarak geçersiz kılar. Örneğin, en popüler derin öğrenme algoritmaları, aralıklarından ve sürekli özelliklerinden yararlanan gerçek sayılarla çalışır. Başka bir örnek olarak, 5'li Likert ölçeklerini düşünün ve bunlara uyguladığımız analizin, katılıyorum ve katılıyorum arasındaki mesafeninkatılmıyorum ile aynıdır ve ne katılıyorum ne katılmıyorum . Böyle bir ilişki için dava açmak zor.

Sıklıkla birlikte çalıştığımız bir diğer küme dizeler . Dizelerle çalışırken kullanışlı olan bir dizi dize benzerlik metriği vardır. Ancak, bunlar her zaman yararlı değildir. Örneğin, adresler için, John Smith Caddesi ve John Smith Yolu, dize benzerliği açısından oldukça yakındır, ancak açıkçası, birbirinden kilometrelerce uzakta olabilecek iki farklı varlığı temsil eder.

Özet istatistikler

Tamam, şimdi bazı özet istatistiklerin buna nasıl uyduğunu görelim. İstatistikler sayılarla çalıştığından, işlevleri aralıklarla iyi tanımlanmıştır. Ancak bunları kategorik veya sıralı verilere genelleştirip genelleştiremeyeceğimize / nasıl örnekleyeceğimize ilişkin örnekleri görelim:

  • modu - hem kategorik hem de sıralı verilerle çalışırken, hangi öğenin en sık kullanıldığını söyleyebiliriz. Yani buna sahibiz. Daha sonra @Maddenker'in yanıtlarında listelediği diğer tüm önlemleri de türetebiliriz. @ gung'un güven aralığı da faydalı olabilir.
  • medyan - @ peter-flom'un söylediği gibi, bir siparişiniz olduğu sürece medyanızı türetebilirsiniz.
  • ortalama , ama aynı zamanda standart sapma, yüzdelikler, vb.

Veri bağlamsallığı örneği

Sonunda, verilerinizde tanımladığınız düzen ve metriklerin çok içeriksel olduğunu tekrar vurgulamak istiyorum. Bu şimdiye kadar açık olmalı, ancak size son bir örnek vereyim: coğrafi konumlarla çalışırken onlara yaklaşmanın birçok farklı yolu var:

  • eğer aralarındaki mesafeyle ilgilenirsek, temelde bize iki boyutlu bir sayısal alan, dolayısıyla aralık veren coğrafi konumlarıyla çalışabiliriz.
  • eğer ilişkilerinin bir parçasıyla ilgileniyorsak, toplam bir düzen tanımlayabiliriz (örneğin bir cadde bir kentin parçasıdır, iki şehir eşittir, bir kıta bir ülke içerir)
  • iki dizenin aynı adresi temsil edip etmediğiyle ilgileniyorsak, yazım hatalarını ve kelimelerin yerlerini değiştirmeyi tolere edecek, ancak farklı terim ve adları ayırt ettiğinizden emin olun. Bu kolay bir şey değil, sadece davayı ortaya koymak.
  • Hepimizin günlük olarak karşılaştığı, bunların hiçbirinin mantıklı olmadığı birçok kullanım durumu vardır. Bazılarında adresleri sadece farklı kategoriler olarak ele almaktan başka yapılacak bir şey yok, diğerlerinde ise çok akıllı veri modelleme ve önişleme söz konusu.
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.