Çok değişkenli makine öğrenimi nasıl yapılır? (çoklu bağımlı değişkenleri tahmin etme)


9

Birisinin satın alacağı eşya gruplarını tahmin ediyorum ... yani, birden fazla, doğrusal doğrusal bağımlı değişkenim var.

Birinin 7 maddenin her birini satın alma olasılığını tahmin etmek için 7 veya daha fazla bağımsız model oluşturmak ve ardından sonuçları birleştirmek yerine, 7 ilgili bağımlı değişken arasındaki ilişkileri açıklayan bir modele sahip olmak için hangi yöntemlere bakmalıyım ( satın alabilecekleri şeyler).

R'yi bir programlama dili olarak kullanıyorum, bu nedenle R'ye özgü herhangi bir tavsiye takdir ediliyor.

Yanıtlar:


7

Açıklamanıza dayanarak, çok terimli bir lojistik regresyonun uygun olduğu anlaşılıyor. Sonucunuzu varsayarsak 7 seviyeleri (7 alış seçeneklerinden biri) ile bir faktördür, daha sonra hızlı bir multinomial lojistik regresyon modeli (bkz kullanarak üyelik tahmin edebilirsiniz ?multinomiçinde nnetR paketin). Sonucunuz 7 seviyeli bir faktörle birleştirilemezse, multinomiyal lojistik regresyona uymadan önce öğeleri bir araya getirmek için bir küme analizi gerekecektir.


Multinomiyal regresyon değildir. 7 farklı ürünüm var, her ürünün 4 faktörü var .... çilek ve çilek çeşitleri, sonra süt ve farklı süt türleri, elma ve farklı elma türleri ve doğru tahmin etmeliyim alışveriş sepeti ...% 2 süt vb. ile, çiftlik çilek ile çok yeşil elma,
blast00

1
Senin çözümün bende! Sonucunun bir veya daha fazla gizli sınıfta gruplandırıldığı varsayılan bir dizi faktör olduğu politomlu gizli sınıf analizini öneriyorum. Bu sınıflara üyelik, multinomial lojistik regresyon temelinde tahmin edilir. ?poLCABu modelin takılması hakkında daha fazla bilgi için R'ye bakın .
statsRus

Bunu okuyorum - teşekkür ederim istatistikleri Yine de başka yollar olmalı.
blast00

Özellikle, makine öğrenme yöntemleri, çünkü bir kara kutu modeli ile bir olasılık dağılımı / am OK uygun değilim
blast00

Çok sayıda istatistiksel modelin aslında denetimsiz makine öğrenme modelleri olduğunu unutmayın - ancak haklısınız, genellikle bu modellerle olan girdileri önemsiyoruz. Birçok girdi ve sonuçla (ve kara kutu kalitesinde) denetimli makine öğrenimi için sinir ağlarını ( ?nnetR cinsinden) öneririm .
statsRus

5

Sınıflarınızın her birinin bir grup eşya olduğu rastgele bir orman inşa edebilirsiniz (örn. "Çiftlik çilekleri,% 2 sütlü yeşil elma"). Ardından, alışveriş yapan kişinin özelliklerine veya öngörücüleriniz ne olursa olsun, her bir öğe grubu için tahmini bir satın alma olasılığı sağlayabilirsiniz. Bunu yapmak için R'nin randomForest paketini ( https://cran.r-project.org/web/packages/randomForest/index.html ) kullanırdım.


3

Bir seçenek, tüm ürün satın alma kombinasyonlarının frekanslarını elde etmektir; en yaygın kombinasyonları seçin; daha sonra her bireyin seçtiği kombinasyonu tahmin etmek için bir regresyon modeli oluşturun. Örneğin, bir ikili lojistik regresyon ile a) Beyaz Şarap, Brie, Çilek ve Üzümlere karşı b) Kırmızı Şarap, Cheddar ve Gouda'nın satın alınmasını akla getirebilirsiniz. Bu tür 2'den fazla kombinasyon ile veya "yukarıdakilerin hiçbiri" kategorisini dahil etmek istiyorsanız, çok terimli lojistik regresyon muhtemelen seçim yöntemi olacaktır.

Sadece ortak kombinasyonların dahil edilmesinin, her biri için daha uygulanabilir sayılara sahip olacağınız, ancak diğerlerini, en azından bu prosedürden hariç tutacağınız anlamına geldiğini unutmayın. Her biri en az birkaç kişi tarafından seçilen düzinelerce kombinasyon oluşturan 7 öğe hayal edebiliyorum. Bu muhtemelen örneklem büyüklüğünüz için çok fazla kategoridir. Dahası, bir kombo sadece birkaç kişi tarafından seçildiyse, modelinizin üzerinde çalışmak için çok az bilgi olurdu.

Diğer bir seçenek, birlikte satın alma eğiliminde olan birkaç öğeye ulaşmak için küme analizini kullanmaktır. 7 öğeyle, muhtemelen görevinizi kolaylaştırabilecek 4'ten az kümeyle sonuçlanacaksınız. Küme analizini denerseniz ve sonuçları işe yaramaz bulursanız, bunları kullanmanız için bir neden yoktur: sadece yukarıda açıklanan frekans tabanlı yaklaşıma geri dönün. Bu durumda, sizi doğru okursam, en açıklayıcı ve ilginç kategori dizisini arıyorsunuz ve bunu belirlerken, özgürlük dereceleri veya çoklu karşılaştırmalar veya geçerli olabilecek endişeler hakkında endişelenmenize gerek yok. bazı çıkarımsal testler yapmak için birden fazla yöntem deniyorsanız.


Bu öneri için teşekkürler. Yine de çok değişkenli makine öğrenme yöntemleri olmalıdır. Bir "kolay" regresyon modelinde 2 bağımlı değişkenleri olabilir .. ve sadece (~ ... y + z) lm nasıl Simliar .. Bence ..
blast00

0

Aşağıdakine benzer bir durumu analiz etmek istediğinizi varsayıyorum;

Yi = f (X), burada f () doğrusal olmayan bir bağlantıdır ve X, ortak değişkenlerin bir vektörüdür ve Yi, doğada sıralı olan i-th bağımlı değişkendir (eğer kategorik Yi ise ikiden fazla olamaz kategorileri) ve modelinizde i = 1, 2, ... 5 deyin ve Yi'lerin her biri birbiriyle ilişkilidir ... Öyleyse, kesinlikle Çok Değişkenli Probit'i kullanabilirsiniz. R, Mplus ve SAS MVP'yi tahmin edebilir

Buna karşılık, Y = f (X) var ve Y (sadece bir Y olduğuna dikkat edin) kategoriktir ve örneğin N kategorileri vardır, böylece N kategorileri üzerinde yapılan seçimler özel ve kapsamlı olur; Multinomial Logit modeline uymanız gerekir. Multinom probit denilen bir şey var, multinom logit için simialr.

Bu yardımcı olur umarım. Teşekkürler Sanjoy

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.