Orana oranla doğrusal model mi oluşturuyorsunuz?


20

Bir tür oran veya yüzde tahmin etmek için bir model oluşturmak istediğimi varsayalım. Örneğin, bir partiye katılacak erkek veya kız çocuk sayısını tahmin etmek istediğimi ve modelde kullanabileceğim partinin özellikleri, parti için reklam miktarı, mekanın büyüklüğü, partide alkol vb. olacaktır. (Bu sadece uydurulmuş bir örnektir; özellikler gerçekten önemli değildir.)

Sorum şu: bir oran ile yüzde oranını tahmin etmek arasındaki fark nedir ve modelim hangisini seçtiğime bağlı olarak nasıl değişir? Biri diğerinden daha mı iyi? Başka bir işlev her ikisinden de daha iyi midir? (Yüzde ile oranın belirli sayılarını gerçekten umursamıyorum; sadece hangi partilerin "erkek partiler" ve "kız partiler" olma olasılığının daha yüksek olduğunu tespit etmek istiyorum.) Örneğin, düşünme:

  • Bir yüzde tahmin etmek istersem (diyelim ki, # boys / (# boys + # girls)bağımlı özelliğim 0 ile 1 arasında sınırlı olduğundan, muhtemelen doğrusal bir regresyon yerine lojistik regresyon gibi bir şey kullanmalıyım.
  • Ben (diyelim ki, bir oran tahmin etmek istiyorsanız # boys / # girlsveya # boys / (1 + # girls)bölünmesi bazında sıfır hataları önlemek için), sonra benim bağımlı özellik yüzden belki doğrusal regresyon kullanmadan önce (log?) Dönüşümün çeşit uygulamalıdır, pozitiftir? (Ya da başka bir model? Olumlu, sayılmamış veriler için ne tür regresyon modelleri kullanılır?)
  • Oran yerine yüzdeyi tahmin etmek genellikle daha iyi midir, eğer öyleyse neden?

Özel uygulamanıza ve neyi modellemeye çalıştığınıza bağlı olarak, Bileşik Veri Analizi'ni ( en.wikipedia.org/wiki/Compositional_data ) kullanmayı düşünmelisiniz ; özellikler (bağımsız değişkenler) birliği topladığında dikkate alınması gereken bazı ince şeyler vardır. Lütfen John Aitchison'un çalışmalarına bakın.
ctbrown

Yanıtlar:


9

pbirBp

[0,1]

01

günlük


15

İlk cevabı yankılamak. Dönüştürmek için uğraşmayın - sadece sayıları ve ortak değişkenleri doğrudan modelleyin.

Bunu yapmak ve uyuyorsanız bir Binom (veya eşdeğer olarak lojistik) oğlan kız sayımları için regresyon modeli, olur, örtük olarak, bu tür modeller için olağan bağlantı fonksiyonunu seçerseniz zaten Erkeklerin kızlara bir (eşdeğişken düzgünlükleri oturum açan) oranını uydurma olması. Bu doğrusal öngörücüdür.

Sayımları oranlar veya oranlar yerine doğrudan modellemenin birincil nedeni, bilgi kaybetmemenizdir. Sezgisel olarak, 100 erkek ve 100 kız görmek 2 ve 2 görmek yerine, 1 (erkek kız) gözlemlenen bir orandan çıkarımlar konusunda çok daha emin olacaksınız. Sonuç olarak, ortak değişkenleriniz varsa, etkileri hakkında bilgi ve potansiyel olarak daha iyi bir tahmin modeli.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.