Yüzdelikleri yordayıcı olarak kullanmak - iyi fikir?


9

Doğrusal regresyon kullanarak bir müşterinin günlüğünü (harcamasını) öngören bir sorun düşünüyorum.

Hangi özellikleri girdi olarak kullanacağımı düşünüyor ve değişkenin yüzdelik değerini girdi olarak kullanmanın uygun olup olmadığını merak ediyorum.

Mesela şirketlerin gelirini girdi olarak kullanabilirim. Merak ettiğim şey bunun yerine şirketin gelir yüzdelik dilimini kullanıp kullanamayacağım.

Başka bir örnek kategorik bir endüstri sınıflandırıcı (NAICS) olacaktır - eğer NAICS kodu başına medyan harcamaya bakacak ve daha sonra her NAICS kodunu bir 'NAICS Yüzdelik' e atayacak olsaydım, kullanabileceğim geçerli bir açıklayıcı değişken olurdu?

Yüzdelik dilleri kullanırken dikkat edilmesi gereken herhangi bir sorun olup olmadığını mı merak ediyorsunuz? Bazı açılardan bir tür özellik ölçeklendirmesine eşdeğer mi?


2
Orijinal verilere sahipseniz, neden yüzdelik dilimleri kullanmak istersiniz? Belki iyi bir fikir değildir, çünkü yüzdelikler metrik ölçüler değil, yalnızca sıralıdır. Ancak önyargı / verimlilik konusunda emin değilim.
hplieninger

9
Yüzdesi Xs onların yolunda tutarsız Xetkileri var. Yaygın bir hata, sağlık sonucunu tahmin ederken yüzdelik ağırlık veya BMI'dır. Ağırlık fiziği, bir kişinin vücut işlevleri ile ilgili olan fiziksel boyutlar olduğunu, örnekteki bir deneğin ağırlığının veya BMI'nın altındaki kaç kişinin değil, dikte eder.
Frank Harrell

1
endüstri değişkeninizi makul gruplar halinde (örneğin 4) kümeleyebiliyorsanız, kukla kodlama (veya başka bir uygun kodlama şeması) kullanın ve işiniz bitti. Ben böyle yapardım.
hplieninger

3
Yüzdelik dilimin bağımlı değişkenle doğrusal olarak ilişkili olmasının bir nedenini düşünemiyorum . Birini düşünebiliyorsanız, sorun olmayabilir (ve lütfen sorunuzu gerekçenizle güncelleyin)
Peter Flom

1
NAICS kodunu bir şirketin harcaması için proxy olarak kullanmak istiyorsanız, NAICS kodundaki ortalama harcamayı kullanarak yapabilirsiniz - yüzdelik dilleri kullanmaya gerek yoktur.
Scortchi

Yanıtlar:


1

Modeliniz firma gelirlerinde bir çeşit yarışma gerektiriyorsa, yüzdelik dilimi kullanabilirsiniz. Günlük yüzdelik değeri daha anlamlı görünüyor, kantiller değer olarak doğrusal olmayacak, ya da hayal ediyorum.

Bu hikayeye, gözlem firması altında gelirleri olan firmaların ln'ini (%) dahil ediyorsunuz. Hikaye, yüksek gelirli, düşük gelirli firmalardan daha iyi itibarlara sahip olması ve bu "rekabetten daha fazlasına sahip olmak" ilişkisinin gelir düzeyi değil, alakalı olmasıdır. Bunu firma tanınırlığının ve markalaşmasının önemli bir parçası olarak görebiliyordum.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.