Burada 0 ile 10 arasında değerleri ile her giriş ile ilişkili bağımlı bir derecelendirme ile 11 sayısal bağımsız değişkenlerden oluşan şarap verileri var . Bu, değişkenler ile ilişkili arasındaki ilişkiyi araştırmak için bir regresyon modeli kullanmak için harika bir veri kümesi yapar değerlendirme. Bununla birlikte, doğrusal regresyon uygun olur mu, yoksa çok uluslu / düzenli lojistik regresyon kullanmak daha mı iyidir?
Lojistik regresyon belirli kategoriler göz önüne alındığında daha iyi görünmektedir, yani sürekli bağımlı bir değişken değildir, ancak (1) 11 kategori (biraz fazla mı?) Ve (2) denetimden sonra, bu kategorilerin sadece 6-7'si için veri vardır, yani geri kalanı 5-4 kategorilerin veri kümesinde örneği yoktur.
Öte yandan, doğrusal regresyon doğrusal olarak 0-10 arasında derecelendirmeye çalıştığım şeye daha yakın gözüküyor; ancak bağımlı değişken veri kümesinde sürekli değildir.
Hangisi daha iyi bir yaklaşım? Not: Analiz için R kullanıyorum
Cevaplarda belirtilen bazı noktalara değinerek düzenleyin:
- Aslında bir üniversite dersinde olduğu için iş hedefi yoktur. Görev, hangi yolu seçtiğimi seçtiğim bir veri kümesini analiz etmektir.
- Derecelendirmelerin dağılımı normal görünüyor (histogram / qq-plot). Veri kümesindeki gerçek değerler 3-8 arasındadır (teknik olarak 0-10 olsa bile).