Bir tür oran veya yüzde tahmin etmek için bir model oluşturmak istediğimi varsayalım. Örneğin, bir partiye katılacak erkek veya kız çocuk sayısını tahmin etmek istediğimi ve modelde kullanabileceğim partinin özellikleri, parti için reklam miktarı, mekanın büyüklüğü, partide alkol vb. olacaktır. (Bu sadece uydurulmuş bir örnektir; özellikler gerçekten önemli değildir.)
Sorum şu: bir oran ile yüzde oranını tahmin etmek arasındaki fark nedir ve modelim hangisini seçtiğime bağlı olarak nasıl değişir? Biri diğerinden daha mı iyi? Başka bir işlev her ikisinden de daha iyi midir? (Yüzde ile oranın belirli sayılarını gerçekten umursamıyorum; sadece hangi partilerin "erkek partiler" ve "kız partiler" olma olasılığının daha yüksek olduğunu tespit etmek istiyorum.) Örneğin, düşünme:
- Bir yüzde tahmin etmek istersem (diyelim ki,
# boys / (# boys + # girls)
bağımlı özelliğim 0 ile 1 arasında sınırlı olduğundan, muhtemelen doğrusal bir regresyon yerine lojistik regresyon gibi bir şey kullanmalıyım. - Ben (diyelim ki, bir oran tahmin etmek istiyorsanız
# boys / # girls
veya# boys / (1 + # girls)
bölünmesi bazında sıfır hataları önlemek için), sonra benim bağımlı özellik yüzden belki doğrusal regresyon kullanmadan önce (log?) Dönüşümün çeşit uygulamalıdır, pozitiftir? (Ya da başka bir model? Olumlu, sayılmamış veriler için ne tür regresyon modelleri kullanılır?) - Oran yerine yüzdeyi tahmin etmek genellikle daha iyi midir, eğer öyleyse neden?