Bu muhtemelen iyi bir şey değildir. Önce tek tek ortak değişkenlere bakmak ve daha sonra önemli olanlarla bir model oluşturmak, otomatik bir arama prosedürüne mantıklıdır. Bu yaklaşım sezgisel olsa da, bu prosedürden yapılan çıkarımlar geçerli değildir (örneğin, gerçek p-değerleri yazılım tarafından bildirilenlerden farklıdır). Sorun, başlangıçtaki ortak değişkenlerin boyutu büyüdükçe büyütülür. Bunu yine de yaparsanız (ve ne yazık ki birçok insan yaparsa), ortaya çıkan modeli ciddiye alamazsınız. Bunun yerine, test etmek için tamamen yeni bir çalışma yapmalı, bağımsız bir örnek toplamalı ve önceki modele uymalısınız. Bununla birlikte, bu çok fazla kaynak gerektirir ve dahası, süreç kusurlu olduğundan ve önceki model muhtemelen kötü bir model olduğundan,çok fazla kaynak harcamak .
Daha iyi bir yol, sizi ilgilendiren modelleri değerlendirmektir. Ardından, bu modeller arasında hüküm vermek için model esnekliğini (AIC gibi) cezalandıran bir bilgi kriteri kullanın. Lojistik regresyon için AIC:
AIC=−2×ln(likelihood)+2k
burada , bu modele dahil edilen ortak değişkenlerin sayısıdır. Her şey eşit olmak üzere, AIC için en küçük değere sahip modeli istiyorsunuz. Ancak, her zaman bu kadar basit değildir; en düşük olsa da, birkaç model AIC için benzer değerlere sahip olduğunda dikkatli olun. k
AIC için tam formülü buraya ekliyorum, çünkü farklı yazılımlar farklı bilgiler veriyor. Bunu sadece olasılıktan hesaplamanız gerekebilir veya son AIC'yi veya aradaki herhangi bir şeyi alabilirsiniz.