Tam Açıklama: Bu ev ödevi. Veri kümesine bir bağlantı ekledim ( http://www.bertelsen.ca/R/logistic-regression.sav )
Amacım bu veri setinde kredi temerrütleri tahminini en üst düzeye çıkarmak.
Şimdiye kadar bulduğum her model, varsayılan olmayanların% 90'ından fazlasını öngörüyor, ancak varsayılanların <% 40'ı, sınıflandırma verimliliğini genel olarak ~% 80 yapıyor. Değişkenler arasında etkileşim etkisi olup olmadığını merak ediyorum. Lojistik bir regresyon içinde, olası her kombinasyonu test etmekten başka potansiyel etkileşim etkilerini tanımlamanın bir yolu var mı? Veya alternatif olarak, temerrüt yapanlar sınıflandırma verimliliğini artırmak için bir yol.
Sıkıştım, herhangi bir öneri kelime seçiminizde, R-kodunda veya SPSS sözdiziminde yardımcı olacaktır.
Birincil değişkenlerim aşağıdaki histogram ve dağılım grafiğinde özetlenmiştir (iki değişkenli değişken hariç)
Birincil değişkenlerin açıklaması:
age: Age in years
employ: Years with current employer
address: Years at current address
income: Household income in thousands
debtinc: Debt to income ratio (x100)
creddebt: Credit card debt in thousands
othdebt: Other debt in thousands
default: Previously defaulted (dichotomous, yes/no, 0/1)
ed: Level of education (No HS, HS, Some College, College, Post-grad)
Ek değişkenler sadece yukarıdakilerin dönüşümleridir. Ayrıca sürekli değişkenlerden birkaçını kategorik değişkenlere dönüştürmeyi ve modelde uygulamayı denedim, şans yok.
Hızlı bir şekilde R'ye atmak istiyorsanız, işte burada:
## R Code
df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", use.value.labels=T, to.data.frame=T)