Görünüşte kolay bir sorunla karşılaştım, ancak birkaç hafta boyunca uygun bir çözüm bulamadım.
Çok sayıda anket / anket verilerim var (on binlerce katılımcı, veri seti başına 50 bin), umarım ağırlıklar, tabakalaşma, spesifik yönlendirme vb. Her katılımcı için demografi (yaş, bölge ...) ve daha sonra çoğunlukla ikili (en fazla kategorik) değişkenler gibi yüzlerce değişken vardır.
Bilgisayar bilimi / makine öğrenimi geçmişinden daha çok geliyorum ve klasik anket istatistikleri ve metodolojisi hakkında çok şey öğrenmek zorunda kaldım . Şimdi bu verilere klasik makine öğrenimi uygulamak istiyorum (örneğin, katılımcıların alt kümesi için bazı eksik değerleri tahmin etmek - temel olarak sınıflandırma görevi). Ancak, tutun ve bakın, bunu nasıl yapacağım için uygun bir yol bulamıyorum. Bu katmanları, ağırlıkları veya yönlendirmeyi nasıl dahil etmeliyim (örneğin: 1. soru seçenek 2 ile cevapladıysa, 3. soru sorun, aksi takdirde atlayın)?
Sadece modellerimi uygulamak (ağaçlar, lojistik regresyon, SVM, XGBoost ...) tehlikeli görünüyor (ve çoğu durumda başarısız oluyorlar), çünkü genellikle verilerin basit rastgele örnek veya iID'den geldiğini varsayarlar.
Birçok yöntem en azından ağırlığa sahiptir, ancak çok fazla yardımcı olmaz. Ayrıca, bu tabakalaşma olaylarından bahsetmemek yerine, anket tanımıyla verilen dengesiz sınıfları ve ağırlıkları birlikte nasıl birleştirmem gerektiği açık değildir. Ayrıca, sonuç modelleri iyi kalibre edilmelidir - öngörülen dağılım orijinaline çok yakın olmalıdır. İyi tahmin performansı burada tek kriter değildir. Bunu da dikkate almak için optimizasyon metriğini değiştirdim (öngörülen dağıtımın gerçek dağıtım + doğruluk / MM'den uzaklığı gibi ) ve bazı durumlarda, neden diğerlerinde performansın sakatlanmasına yardımcı oldu.
Bu sorunla başa çıkmanın bazı kanonik yolları var mı? Benim için çok takdir edilmemiş bir araştırma alanı gibi görünüyor. IMO birçok anket ML'nin gücünden yararlanabilir, ancak kaynak yoktur. Bunlar gibi birbirleriyle etkileşmeyen iki dünya var.
Şimdiye kadar ne buldum:
- http://civilstat.com/2014/08/statistical-modeling-the-two-cultures-breiman/
Örneğin, verileriniz karmaşık bir örneklem anketinden geldiğinde regresyon ağaçlarının nasıl yapılacağına dair yalnızca bir makale (Toth ve Eltinge, 2011) biliyorum.
- http://ccsg.isr.umich.edu/index.php/chapters/statistical-analysis-chapter#nine
Karmaşık örnekleme tasarımları ile birkaç anketi analiz eden 150 örneklenmiş araştırma makalesinin son meta-analizinde, karmaşık örnek tasarım özelliklerinin cehaleti veya yanlış kullanımından kaynaklanan analitik hataların sık olduğu bulunmuştur.
- https://www.fhwa.dot.gov/2015datapalooza/presentations/PolicyDev.4_Pierce.pdf
İlgili CV soruları, ancak hiçbiri buna nasıl yaklaşılacağı konusunda kullanılabilir bir cevap içermiyor (ya cevap yok, ne istediğimi değil ya da yanıltıcı öneriler sunuyorum):