Her iki konuda da haklısın. Frank Harrell'in sayfasına bakın burada sürekli değişkenler binning ile sorunların uzun bir liste için. Birkaç kutu kullanırsanız, tahminlerde çok fazla bilgi atarsınız; eğer çok kullanırsanız, kükürtleri pürüzsüz olması gereken, hatta doğrusal olmasa bile, ilişkide bulunacak ve çok fazla serbestlik derecesi kullanacak şekilde yerleştirme eğilimindesiniz. Tahminciler için polinomları ( ) veya spline'ları (pürüzsüz bir şekilde birleştirilen parça parça polinomları) kullanmak genellikle daha iyidir . Binning, sadece kesme noktalarındaki tepkilerde bir süreksizlik beklediğiniz zaman gerçekten iyi bir fikirdir - bir şeyin kaynadığı sıcaklığı veya sürüş için yasal yaşını söyleyin - ve yanıt aralarında düz olduğunda ..x + x2+ …
Değer? - iyi, düşünmek zorunda kalmadan eğriliği hesaba katmanın hızlı ve kolay bir yolu; ve model, onu kullandığınız şey için yeterince iyi olabilir. Tahmin edicilerin sayısına kıyasla çok fazla veri olduğunda, her tahmincinin bolca kategoriye ayrıldığı zaman işe yarar. Bu durumda her bir tahmin bandında cevap aralığı küçüktür ve ortalama cevap tam olarak belirlenir.
[Yorumlara cevap olarak düzenleyin:
Bazen, sürekli bir değişken için bir alanda kullanılan standart kesimler vardır: örneğin, tıpta kan basıncı ölçümleri, düşük, orta veya yüksek olarak kategorize edilebilir. Bir model sunarken veya uygularken bu tür kesintileri kullanmak için birçok iyi neden olabilir. Özellikle, karar kuralları genellikle bir modele girenden daha az bilgiye dayanır ve uygulanması basit olabilir. Ancak bu kesmelerin, modele uyduğunuzda öngörücülerin bindirilmesi için uygun olduğunu takip etmez.
Bazı yanıtların kan basıncında sürekli değiştiğini varsayalım. Yüksek tansiyon grubunu çalışmanızın belirleyicisi olarak tanımlarsanız, tahmin ettiğiniz etki, o gruptaki kişilerin belirli tansiyonları üzerindeki ortalama tepkidir. O var değilGenel popülasyonda yüksek tansiyonu olan veya başka bir çalışmada yüksek tansiyon grubundaki kişilerin ortalama tepkisine dair bir tahmin, eğer bunu yapmak için özel önlemler almazsanız. Kan basıncı genel popülasyondaki dağılımı biliniyorsa, tahmin ettiğim gibi, tansiyonu yüksek olan modelden tahminlere dayanarak genel popülasyonda yüksek tansiyonu olan kişilerin ortalama tepkisini hesaplamak daha iyi olacaktır. sürekli değişken Ham binicilik, modelinizi yalnızca genelleştirilebilir kılar.
Genel olarak, kesintiler arasındaki yanıtın davranışına ilişkin sorularınız varsa, önce yapabileceğiniz en iyi modele uyun ve sonra bunları yanıtlamak için kullanın.]
[Sunum ile ilgili olarak; Bunun kırmızı bir ringa balığı olduğunu düşünüyorum:
(1) Sunum kolaylığı, kötü modelleme kararlarını haklı çıkarmaz. (Ve, gölgelemenin iyi bir modelleme kararı olduğu durumlarda, ek bir gerekçeye ihtiyaç duymaz.) Kesinlikle bu açıktır. Hiç kimse bir modelden önemli bir etkileşim almayı önermez, çünkü bunu sunmak zor.
(2) Ne tür bir model uyursanız olun, yorumlamaya yardımcı olacağını düşünüyorsanız, sonuçlarını kategoriler halinde sunabilirsiniz. Rağmen ...
(3) Yukarıda belirtilen sebeplerden dolayı yanlış yorumlamaya yardımcı olmadığından emin olmak için dikkatli olmalısınız .
(4) Doğrusal olmayan tepkileri sunmak aslında zor değildir. Kişisel görüş, açıkça ve kitleler farklıdır; ama tahmin edicilere karşı takılı yanıt değerlerinin grafiğini hiç görmedim, çünkü sadece kavisli olduğu için birini. Etkileşim, logit, rastgele etkiler, çoklu bağlantı, ... - bunların açıklanması daha zordur.]
[@Roland tarafından gündeme getirilen bir başka nokta, tahmincilerin ölçümünün kesinliğidir; Sanırım, kategorize edilmenin özellikle kesin olmadıklarında uygun olabileceğini düşünüyor. Sağduyu, daha az kesin olarak tekrar söyleyerek sorunları iyileştirmediğinizi önerebilir ve sağduyu doğru olacaktır: MacCallum ve diğerleri (2002), "Kantitatif Değişkenlerin Dikotomisi Uygulaması", Psikolojik Yöntemler , 7 , 1, sayfa 17-19.]