Şarap derecelendirmesini tahmin etmek için doğrusal regresyon veya sıralı lojistik regresyon (0 ve 10'dan)


18

Burada 0 ile 10 arasında değerleri ile her giriş ile ilişkili bağımlı bir derecelendirme ile 11 sayısal bağımsız değişkenlerden oluşan şarap verileri var . Bu, değişkenler ile ilişkili arasındaki ilişkiyi araştırmak için bir regresyon modeli kullanmak için harika bir veri kümesi yapar değerlendirme. Bununla birlikte, doğrusal regresyon uygun olur mu, yoksa çok uluslu / düzenli lojistik regresyon kullanmak daha mı iyidir?

Lojistik regresyon belirli kategoriler göz önüne alındığında daha iyi görünmektedir, yani sürekli bağımlı bir değişken değildir, ancak (1) 11 kategori (biraz fazla mı?) Ve (2) denetimden sonra, bu kategorilerin sadece 6-7'si için veri vardır, yani geri kalanı 5-4 kategorilerin veri kümesinde örneği yoktur.

Öte yandan, doğrusal regresyon doğrusal olarak 0-10 arasında derecelendirmeye çalıştığım şeye daha yakın gözüküyor; ancak bağımlı değişken veri kümesinde sürekli değildir.

Hangisi daha iyi bir yaklaşım? Not: Analiz için R kullanıyorum

Cevaplarda belirtilen bazı noktalara değinerek düzenleyin:

  • Aslında bir üniversite dersinde olduğu için iş hedefi yoktur. Görev, hangi yolu seçtiğimi seçtiğim bir veri kümesini analiz etmektir.
  • Derecelendirmelerin dağılımı normal görünüyor (histogram / qq-plot). Veri kümesindeki gerçek değerler 3-8 arasındadır (teknik olarak 0-10 olsa bile).

Yanıtlar:


9

Sıralı bir bağımlı değişkene sahip olduğunuz için sıralı bir logit modeli daha uygundur, 7 örneğin 4'ten daha iyidir. Yani açık bir düzen var.

Bu, her bölme için bir olasılık elde etmenizi sağlar. Dikkate almanız gereken birkaç varsayım vardır. Burada bir göz atabilirsiniz .

Ordinal lojistik (ve ordinal probit) regresyonunun altında yatan varsayımlardan biri, her iki sonuç grubu çifti arasındaki ilişkinin aynı olmasıdır. Başka bir deyişle, sıralı lojistik regresyon, yanıt değişkeninin tüm yüksek kategorileri ile en düşük arasındaki ilişkiyi tanımlayan katsayıların, bir sonraki en düşük kategori ile tüm yüksek kategoriler arasındaki ilişkiyi tanımlayanlarla aynı olduğunu varsayar. Buna orantılı olasılık varsayımı veya paralel regresyon varsayımı denir.

Bazı kodlar:

library("MASS")
## fit ordered logit model and store results 'm'
m <- polr(Y ~ X1 + X2 + X3, data = dat, Hess=TRUE)

## view a summary of the model
summary(m)

Burada , burada , burada veya burada daha fazla açıklama yapabilirsiniz .

Olasılıklar konusunda net bir yorum yapabilmek için katsayılarınızı oran oranına ve sonra olasılıklara dönüştürmeniz gerektiğini unutmayın.

Basit (ve basit bir şekilde) bunları aşağıdakilerle hesaplayabilirsiniz:

exp(βi)=OddsRatio

exp(β1)exp(βben)=PrÖbbirbbenlbenty

(Çok teknik olmak istemiyorum)


4

Soruna başka bir bakış açısı sunmak istiyorum: Gerçek dünyada, bu soruyla karşılaşma olasılığı daha düşüktür, çünkü yapılacak şey iş ihtiyaçlarına bağlıdır .

Gerçek dünyada asıl soru , tahmini aldıktan sonra ne yapılması gerektiğidir?

  • 2

  • Diyelim ki işletme üç çeşit restorana göndermek için kaliteli şaraplar seçmek istiyor. Ardından, çok sınıflı sınıflandırma gerekli olacaktır.

Özetle, sadece yanıt değişkeninin niteliğine bakmak yerine, ne yapacağının tahmini aldıktan sonra gerçekten ihtiyaçlara bağlı olduğunu iddia etmek istiyorum.


1

Düzenli bir logit modeli (@ adrian1121 tarafından detaylandırıldığı gibi) model varsayımları açısından en uygun olsa da, çoklu doğrusal regresyonun da bazı avantajları olduğunu düşünüyorum.

  1. Yorum kolaylığı . Doğrusal modelleri yorumlamak sıralı logit modellerinden daha kolaydır.
  2. Paydaş konforu . Modelin kullanıcıları, doğrusal regresyon konusunda daha rahat olabilirler, çünkü ne olduğunu bilmeleri daha olasıdır.
  3. Daha cimri (daha basit). Daha basit model de çalışabilir, ilgili konuya bakın .

Yanıtların çoğunun 3-8 arasında olması, bana doğrusal bir modelin ihtiyaçlarınız için uygun bir performans gösterebileceğini düşündürmektedir. Bunun "daha iyi" olduğunu söylemiyorum, ama daha pratik bir yaklaşım olabilir.


0

Prensipte sıralı logit modeli uygun görünüyor, ancak 10 (hatta 7) kategori oldukça fazla.

1 / Sonunda bir miktar yeniden kodlama yapmak mantıklı olur (örneğin 1-4 derecelendirmeleri 1 tek modaliteye birleştirilir, "düşük derecelendirme" diyelim)?

2 / Derecelendirmelerin dağılımı nedir? Oldukça iyi dağıtılmışsa, doğrusal bir regresyon iyi bir iş çıkarır (bakınız doğrusal olasılık modeli ).

3 / Aksi takdirde " beta regresyon " olarak adlandırılan tamamen farklı bir şey seçerim - 11 puanlık derecelendirme ölçeği, klasik 5 puanlık ölçeğe göre oldukça ayrıntılı bir şeydir - Bence derecelendirme ölçeğini "yoğunluk" olarak kabul etmek kabul edilebilir. 0 = Null ve 1 = Full / Perfect ölçeği - Bunu yaparak temel olarak ölçeğinizin aralık tipi (sıralı değil) olduğunu varsayarsınız , ancak bana kulağa kabul edilebilir geliyor.


3
10 (veya 7) kategori neden çok fazla? 10 kategorinin sıralı bir logit modelinde uygun davranmaması için bazı temel teknik nedenler var mı yoksa tamamen pratik bir perspektiften mi bahsediyorsunuz? (örneğin, hxd1011'in verdiği cevabın benzer düşünceleri.)
RM

Hayır, veriler "çok fazla" kategoriyle sıralı bir logit (OL) tahmin etmeye izin verdiği sürece teknik bir neden yoktur. Bununla birlikte, 11 kategorili bir OL modeli belirtmek 10 "sabit" terim (yani eşik parametreleri) tahmin etmek anlamına gelir - Özellikle bazı kategoriler veritabanında iyi temsil edilmiyorsa bana çok şey geliyor - Bağırsak hissim bir OL modelinin 11 kategori biraz fazla öldürüldü, ya derecelendirmeleri sürekli değişkenler olarak ele alırdım ya da daha cimri (ve belki de daha anlamlı) bir OL modeli belirtmek için bazı yöntemleri daraltırdım.
Umka

-1

Lojistik regresyon uzmanı değilim, ama bağımlı bağımlı değişkeniniz nedeniyle multinomyal kullanmak istediğinizi söyleyebilirim.

Doğrusal bir regresyon, bağımlı değişkeninizin olası sınırlarının dışına çıkarılabilen katsayılar verebilir (yani, bağımsız değişkenin artması, verilen regresyon katsayısı için sınırınızdan bağımlı bir değişkene yol açabilir).

Çok terimli regresyon, bağımlı değişkeninizin farklı sonuçları için farklı olasılıklar verecektir (yani, regresyonunuzun katsayısı, puan sınırlarının dışına çıkmadan daha iyi bir puan verme olasılıklarını nasıl arttıracaklarını size verecektir).


3
Multinomial, birden fazla sıralanmamış kategori için iyidir. Sıradan lojistik (OP'nin soruda önerdiği şey) çoklu sıralı kategoriler için iyidir.
Gregor - Monica'yı eski durumuna getirdi

-1

Başka bir olasılık Rastgele Orman kullanmaktır. Rastgele Orman altındaki bir değişkenin "önemini" ölçmenin iki yolu vardır:

  1. XjXjXjYX
  2. Düğüm safsızlığı : girdi değişkeninin önemiXj bölme nedeniyle düğüm safsızlığındaki toplam azalmayla Xj tüm ağaçlarda.

Rastgele Ormanlar, "kısmi bağımlılık grafiği" adı verilen bir tür veri görselleştirmesine de uygundur. Daha fazla ayrıntı için bu ayrıntılı eğiticiye bakın.

Kısmi bağımlılık ve permütasyon önemi Rastgele Orman modellerine özgü değildir, ancak Rastgele Orman modelleri için bunların hesaplanmasının ne kadar verimli olduğu nedeniyle popülaritesi Rastgele Ormanların popülaritesi ile birlikte artmıştır.


1
Bunun biraz teğetsel bir cevap olduğunu biliyorum, ama bunun neden reddedildiğini bilmek istiyorum. Yanlış mı?
shadowtalker
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.