Kategorik değişkenlerin popüler veya yaygın kombinasyonlarını bulmak için kullanabileceğim istatistiksel yöntemler nelerdir?


10

Çoklu uyuşturucu kullanımı üzerine bir çalışma yapıyorum. Her biri kötüye kullandıkları ilaçları belirten 400 uyuşturucu bağımlısının veri setim var. 10'dan fazla ilaç var ve bu nedenle büyük olası kombinasyonlar var. İkili değişkenler olarak tükettikleri ilaçların çoğunu kodladım (yani bir uyuşturucu bağımlısı eroini başka istismar ederse eroin 1'dir). 2 veya 3 ilacın popüler veya ortak kombinasyonlarını bulmak istiyorum. Kullanabileceğim istatistiksel yöntemler var mı?

Yanıtlar:


6

Her kullanıcının en az 1 ilaç kullandığı varsayılarak, birlikte kullanılacak ilaçların sadece 1024 olası kombinasyonu vardır (sadece 10 ilaç varsa). 0/1 değişkenlerinizi dizeye dönüştürüp birleştirebilir ve hangi kombinasyonların en sık ortaya çıktığını görmek için dizede frekans analizleri çalıştırabilirsiniz. Oyuncak örneği alarak, çalışmanızda sadece 3 ilaç, A, B ve C olduğunu söyleyin. Bir katılımcı A ve C ilacı kullandıysa, değişken alldrugs101 kodlanabilir. Sadece B ilacı kullanan bir katılımcı 010 olarak kodlanır. En sık seçileni bulmak için bunlarda frekans çalıştırın. Çoğu yazılım bunu saniyeler içinde işleyebilmelidir.


1
Kabul. Sadece 400 bağımlısı var, bu yüzden 1024'ün hepsi gerçekleşemez.
Nick Cox

Evet. Bu bir parça kek olmalı.
StatsStudent

5

Gizli sınıf modelleme, altta yatan "gizli" bölümleri veya uyuşturucu ve uyuşturucu kullanıcıları gruplarını bulmak için denetimli bir öğrenme yaklaşımı olacaktır. LC, iki geniş yaklaşımla çok esnek bir yöntemdir: tek bir konu için tekrarlanan ölçümlere dayanan replikasyonlar ve bir grup kategorik değişkenleri çapraz sınıflandırma esasına dayanan replikasyonlar. Verileriniz ikinci türe sığacaktır.

LC'lerin esnekliği, farklı ölçeklerde (örneğin, kategorik veya sürekli) değişkenlerin "karışımlarını" emme yeteneğinin bir fonksiyonudur. Yaklaşım, verilerde gizli bölümler, segmentler veya kümeler bulduğundan, bir boyut küçültme tekniği olarak da düşünülebilir.

Tüm LC modellerinin 2 aşaması vardır: aşama 1'de bağımlı veya hedef bir değişken tanımlanır ve bir regresyon modeli oluşturulur. Aşama 2'de, aşama 1 modelindeki artık (tek bir "gizli" vektör) analiz edilir ve bu vektördeki değişkenliği (veya heterojenliği) - "gizli sınıfları" - yakalayan bölümler oluşturulur.

SORULAR VE CEVAPLAR indirmek için orada muhtemelen sizin için oldukça iyi çalışır. Bunlardan biri burada bulunan polCA adlı bir R modülüdür:

http://www.jstatsoft.org/article/view/v042i10

Eğer ticari bir ürün üzerinde harcama yaklaşık 1.000 $ varsa, Gizli Altın kullanılan olması www.statisticalinnovations.com edinilebilir Gizli Gold Ben onun analitik gücü ve çözümleri aralığı için söz konusu ürünün büyük bir hayranıyım, yıllardır. Örneğin, polCA yalnızca kategorik bilgileri olan LC modelleri için kullanışlıdır, LG ise kart üzerinde çalışır ... artı, geliştiricileri her zaman yeni modüller ekliyor. En son eklenen gizli Markov zincirlerini kullanarak LC modelleri oluşturur. Ancak LG'nin "uçtan uca" bir veri platformu olmadığını, yani ağır veri manipülasyonu veya kaldırma için iyi olmadığını unutmayın.

Aksi takdirde, R, SPSS, SAS, Python, vb. İstatistiksel yazılımlar tarafından yaygın olarak desteklenen kategorik bilgileri analiz etmek için tonlarca başka yaklaşım vardır. Bunlar arasında beklenmedik tablo analizi, log-lineer modeller, sonlu karışım modelleri, Bayesian tensör regresyonu, ve bunun gibi. Bu alandaki literatür geniş ve 1975'te Bishop ve diğerleri, Ayrık Çok Değişkenli Analiz ile başladı , 80'lerden beri yaptığı çalışmalara dayanarak Leo Goodman'ın RC modelleri , Agresti'nin Kategorik Veri Analizi , Stephen Fienberg'in kitapları ve Thomas Wickens'ı içeriyor. ' 1989'da yayınlanan Sosyal Bilimler için mükemmel kitap Çok Yönlü Acil Tablolar Analizi . Bayesian Tensör Regresyonu Duke'ta David Dunson tarafından yayınlanan bir makalenin başlığıdır ve çok yönlü beklenmedik durum tablolarını modellemek için çok yeni bir yöntem olan "son teknoloji" bir çeşittir.


referans listesini seviyorum!
Chris

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.