Kategorik veriler nasıl özetlenir?


13

Aşağıdaki sorunla mücadele ediyorum, umarım istatistikçiler için kolay bir sorundur (istatistiklere biraz maruz kalan bir programcıyım).

Bir ankete verilen yanıtları özetlemem gerekiyor (yönetim için). Anketin farklı alanlarda gruplandırılmış 100'den fazla sorusu vardır (alan başına yaklaşık 5 ila 10 soru). Tüm cevaplar kategoriktir (sıralı bir ölçekte, "hiç değil", "nadiren" ... "günlük veya daha sık" gibidir).

Yönetim her alan için bir özet almak istiyor ve bu benim sorunum: ilgili soru içinde kategorik cevapları nasıl toplayabilirim? . Sorular, her alan için bir grafik veya bir kafes grafiği yapmak için çok fazla. Mümkünse, sayılar içeren tablolara kıyasla ne yazık ki görsel bir yaklaşımı tercih ediyorum (ne yazık ki, onları okumazlar).

Gelebileceğim tek şey, her alandaki cevap sayısını saymak, sonra histogramı çizmektir.

Kategorik veriler için kullanılabilecek başka bir şey var mı?

R kullanıyorum, ancak konuyla alakalı olup olmadığından emin değilim, bunun daha genel bir istatistik sorusu olduğunu düşünüyorum.


PCA / FA hakkında ne dersiniz? İlişkili değişkenleri faktörlere daraltır ve oradan
çalışırsınız

eğer yönetim 'birleştirilmiş sayıları nasıl aldınız?' diye sorarsa bu çok fazla olabilir. daha basit bir teknik isteyeceklerdir, böylece anlayabilirler (hissedebilirler). Ne yazık ki, gerçek dünya :-( Teşekkürler, ancak.
wishihadabettername

Yanıtlar:


10

Gerçekten cevaplamaya çalıştığınız sorunun ne olduğunu veya yönetimin en çok ilgilendiği soruları anlamanız gerekir. Ardından, sorununuzla en alakalı anket sorularını seçebilirsiniz.

Sorununuz veya veri kümeniz hakkında hiçbir şey bilmeden, bazı genel çözümler şunlardır:

  • Yanıtları görsel olarak kümeler halinde temsil edin. En sevdiğim dendrogram kullanarak ya da sadece bir xy ekseninde çizim yapmaktır (Google "küme analizi r" ve statmethods.net tarafından ilk sonuca git)
  • Soruları en büyükten en az "günlük veya daha sık" yanıtlara göre sıralayın. Bu sizin için tam olarak işe yaramayabilecek bir örnektir, ancak belki de size ilham verecektir http://www.programmingr.com/content/building-scoring-and-ranking-systems-r
  • Çapraz tablolar: Örneğin, "İşe ne sıklıkla geç gelirsiniz?" ve "Facebook'u ne sıklıkta kullanıyorsunuz?" ifadesini kullanarak, iki soruyu çapraz olarak birleştirerek, her ikisini de nadiren yapan veya her gün yapanların yüzdesini bulabilirsiniz. (Google "r frekans crosstabs" veya yukarıda belirtilen statmethods.net )
  • Correlograms. Bunlarla ilgili hiçbir deneyimim yok ama statmethods.net web sitesinde de gördüm. Temel olarak hangi soruların en yüksek korelasyona sahip olduğunu bulursunuz ve sonra bir tablo oluşturur. Her ne kadar "meşgul" gibi görünse de bunu yararlı bulabilirsiniz.

Bunu cevap olarak işaretleyeceğim; İçinde birkaç iyi öneri var, bu yüzden onları nasıl uygulayacağımı düşüneceğim.
wishihadabettername


8

Standart seçenekler şunları içerir:

  • bir ölçek içindeki öğelerin ortalamasını alma (ör. ölçek 1 ila 5 ise, ortalama 1 ila 5 olacaktır)
  • her bir öğeyi bir ikili hesaplamaya dönüştürmek (örneğin, öğe> = 3, sonra 1, başka bir 0) ve sonra bu ikili yanıtın ortalamasını almak

Öğeler üzerinde ve kuruluştaki büyük insan örnekleri üzerinde bir araya geldiğiniz göz önüne alındığında, yukarıdaki her iki seçenek de (yani, 1 ila 5'in ortalaması veya bir noktanın üstündeki yüzde ortalaması) kuruluş düzeyinde güvenilir olacaktır ( bkz. daha fazla tartışma ). Bu nedenle, yukarıdaki seçeneklerden herhangi biri temel olarak aynı bilgileri iletmektedir.

Genel olarak, öğelerin kategorik olduğu konusunda endişelenmem. Öğeler üzerinde toplayıp daha sonra katılımcı örnekleriniz üzerinde toplayarak ölçekler oluşturduğunuzda, ölçek sürekli bir ölçeğe yakın bir yaklaşım olacaktır.

Yönetim, bir metriğin yorumlanmasını daha kolay bulabilir. Öğretim Kalitesi puanları aldığımda (örneğin, 100 öğrencinin ortalama öğrenci memnuniyeti puanı), 1 ila 5 arasında bir ortalamadır ve bu iyidir. Yıllar boyunca kendi puanlarımı gördükten ve üniversite için bazı normlar gördükten yıllar sonra, farklı değerlerin ne anlama geldiğine dair bir referans çerçevesi geliştirdim. Bununla birlikte, yönetim bazen bir ifadeyi onaylayan yüzdeyi veya bir anlamda ortalama yüzde olsa bile olumlu yanıtların yüzdesini düşünmeyi tercih eder.

Ana zorluk, puanlar için somut bir referans çerçevesi vermektir. Yönetim , sayıların gerçekte ne anlama geldiğini bilmek isteyecektir . Örneğin, bir ölçeğin ortalama yanıtı 4.2 ise, bunun anlamı nedir? İyi mi? Kötü bir şey mi? Sadece iyi mi?

Anketi birden fazla yıl boyunca veya farklı kuruluşlarda kullanıyorsanız, bazı normlar geliştirmeye başlayabilirsiniz. Normlara erişim, kuruluşların genellikle harici bir anket sağlayıcısı almasının veya standart bir anket kullanmasının bir nedenidir.

Ölçeklere öğe atamanın ampirik olarak doğrulanabilir olduğunu doğrulamak için bir faktör analizi yapmak da isteyebilirsiniz.

Görsel bir yaklaşım açısından, x eksenindeki ölçek türü ve y eksenindeki skoru içeren basit bir çizgi veya çubuk grafiğiniz olabilir. Normatif verileriniz varsa, bunu da ekleyebilirsiniz.


1

Evet. Kümelenmenin, hem anlayış hem de yönetim sunumu için anket verilerini azaltmak için veri azaltmaya çok etkili bir yaklaşım olduğunu düşünüyorum.

Gizli Sınıf analizi (yanıt ölçeklerinin sıralı olarak ele alınması) veya k-araçları (sürekli olarak ele alınması), bir bilgi sıkıştırma biçimi olarak görülebilir . Katılımcıları en olası segmentlerine ayırmak genellikle yanıtlar açısından profillendiğinde sezgisel açıklamaları olan kategorik bir değişken verir.

Daha sonra segmentleri adlandırabilir ve bu değişkenleri özet seviye analizi ve sunumu için kullanabilirsiniz.

İlgili öğe grupları (örneğin aşağıda) veya muhtemelen hepsi birlikte bir küme yerleştirin.

Q14cluser <-  Q14(a..m):  Which of the following... Check all that apply
QEcluster <-  QE1..QE30:  Rate your agreement with .. Scale of 1-5

Sık sık LatentGold kullanıyorum, ancak SAS'ta FASTCLUS'u iyi bir amaca uygun buluyorum.

Bunu yapmadan önce, her bireyin ölçeğini (tartışmalı ancak pragmatik) kullanmaları için cevaplarını ayarlamayı düşüneceksiniz. Bazı insanlar ölçeğin bir ucuna yaslanırlar, ya olumsuz ya da olumludan kaçınırlar. Ham tepkileri kümelemek tipik olarak insanları bu davranışa bölme eğilimindedir.

Yanıtlayanların cevaplarını kendi ortalamalarına göre standartlaştırmak ve genellikle çok ilginç şekillerde birlikte hareket eden değişkenleri ortaya koyan kümeleme.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.