İki dünya çarpışıyor: Karmaşık anket verileri için ML'yi kullanma


14

Görünüşte kolay bir sorunla karşılaştım, ancak birkaç hafta boyunca uygun bir çözüm bulamadım.

Çok sayıda anket / anket verilerim var (on binlerce katılımcı, veri seti başına 50 bin), umarım ağırlıklar, tabakalaşma, spesifik yönlendirme vb. Her katılımcı için demografi (yaş, bölge ...) ve daha sonra çoğunlukla ikili (en fazla kategorik) değişkenler gibi yüzlerce değişken vardır.

Bilgisayar bilimi / makine öğrenimi geçmişinden daha çok geliyorum ve klasik anket istatistikleri ve metodolojisi hakkında çok şey öğrenmek zorunda kaldım . Şimdi bu verilere klasik makine öğrenimi uygulamak istiyorum (örneğin, katılımcıların alt kümesi için bazı eksik değerleri tahmin etmek - temel olarak sınıflandırma görevi). Ancak, tutun ve bakın, bunu nasıl yapacağım için uygun bir yol bulamıyorum. Bu katmanları, ağırlıkları veya yönlendirmeyi nasıl dahil etmeliyim (örneğin: 1. soru seçenek 2 ile cevapladıysa, 3. soru sorun, aksi takdirde atlayın)?

Sadece modellerimi uygulamak (ağaçlar, lojistik regresyon, SVM, XGBoost ...) tehlikeli görünüyor (ve çoğu durumda başarısız oluyorlar), çünkü genellikle verilerin basit rastgele örnek veya iID'den geldiğini varsayarlar.

Birçok yöntem en azından ağırlığa sahiptir, ancak çok fazla yardımcı olmaz. Ayrıca, bu tabakalaşma olaylarından bahsetmemek yerine, anket tanımıyla verilen dengesiz sınıfları ve ağırlıkları birlikte nasıl birleştirmem gerektiği açık değildir. Ayrıca, sonuç modelleri iyi kalibre edilmelidir - öngörülen dağılım orijinaline çok yakın olmalıdır. İyi tahmin performansı burada tek kriter değildir. Bunu da dikkate almak için optimizasyon metriğini değiştirdim (öngörülen dağıtımın gerçek dağıtım + doğruluk / MM'den uzaklığı gibi ) ve bazı durumlarda, neden diğerlerinde performansın sakatlanmasına yardımcı oldu.

Bu sorunla başa çıkmanın bazı kanonik yolları var mı? Benim için çok takdir edilmemiş bir araştırma alanı gibi görünüyor. IMO birçok anket ML'nin gücünden yararlanabilir, ancak kaynak yoktur. Bunlar gibi birbirleriyle etkileşmeyen iki dünya var.

Şimdiye kadar ne buldum:

İlgili CV soruları, ancak hiçbiri buna nasıl yaklaşılacağı konusunda kullanılabilir bir cevap içermiyor (ya cevap yok, ne istediğimi değil ya da yanıltıcı öneriler sunuyorum):


Ne demek istediğinizi " çoğu durumda başarısız " olarak tanımlayabilir misiniz ? Bir modelin mevcut ortamdaki başarısını nasıl değerlendiriyorsunuz?
usεr11852

Orijinal dağılıma bile yakın değiller veya bunları çalıştırmak saçma geliyor gibi görünüyor (örneğin, rota dahil edildiğinde).
kotrfa

Yanıtlar:


3

( Güncelleme: Karmaşık anket verileriyle "modern" ML yöntemleri üzerinde henüz çok fazla çalışma yok, ancak İstatistiksel Bilimin en son sayısında birkaç inceleme makalesi var. Özellikle Breidt ve Opsomer (2017), "Model Destekli "Modern Tahmin Teknikleriyle Anket Tahmini" .

Ayrıca, bahsettiğiniz Toth ve Eltinge belgesine dayanarak, artık karmaşık anket verileri için CART uygulayan bir R paketi rpms var .)

Şimdi bu verilere klasik makine öğrenimi uygulamak istiyorum (örneğin, katılımcıların alt kümesi için bazı eksik değerleri tahmin etmek - temel olarak sınıflandırma görevi).

Hedefine tam olarak açık değilim. Öncelikle bir başkasına vermek için "tam" bir veri kümesine sahip olmak için eksik gözlemleri engellemeye mi çalışıyorsunuz? Yoksa zaten eksiksiz verileriniz var mı ve yeni gözlemlerin yanıtlarını tahmin etmek / sınıflandırmak için bir model mi oluşturmak istiyorsunuz? Model (ler) inizle cevaplamak için özel bir sorunuz mu var, yoksa veri madenciliği daha mı geniş?

Her iki durumda da, karmaşık örneklem araştırması / anket ağırlıklı lojistik regresyon makul, oldukça iyi anlaşılmış bir yöntemdir. Ayrıca 2'den fazla kategori için ordinal regresyon var. Bunlar tabakaları ve anket ağırlıklarını açıklayacaktır. Bundan daha meraklı bir ML yöntemine mi ihtiyacınız var?

Örneğin, svyglmR'nin surveypaketinde kullanabilirsiniz. Paket yazarı Thomas Lumley, R kullanmasanız bile, hem lojistik regresyonu hem de anketler için eksik verileri kapsayan yararlı bir "Karmaşık Araştırmalar: R Kullanarak Analiz Kılavuzu" adlı bir kitap yazdı.

(Öngörme için, umarım eksik verilerle ilgili genel sorunları biliyorsunuzdur. Değilse, gösterim adımının tahminlerinizi / tahminlerinizi nasıl etkilediğini açıklamanıza yardımcı olmak için çoklu gösterim gibi yaklaşımlara bakın.)

Soru yönlendirme aslında ek bir sorundur. Bununla en iyi nasıl başa çıkacağımdan emin değilim. Öngörme için, belki de her seferinde yönlendirme için bir "adım" atayabilirsiniz. Örneğin, küresel bir model kullanarak, herkesin "Kaç çocuğunuz var?" daha sonra ilgili alt popülasyonda (0'dan fazla çocuğu olan kişiler) "Çocuklarınız kaç yaşında?"

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.