Söz konusu bağımsız değişken için daha iyi davranışlı bir dağıtım mı arıyorsunuz?
Söz konusu bağımsız değişken için daha iyi davranışlı bir dağıtım mı arıyorsunuz?
Yanıtlar:
Her zaman, bu kadar mükemmel cevapları olan bir ipliğe atlamakta tereddüt ediyorum, ancak cevapların çok azının, logaritmayı kök ya da karşılıklı gibi verileri "ezen" başka bir dönüşüm için tercih etmenin herhangi bir neden sağladığını vurguladım.
Buna başlamadan önce , varolan cevaplarda bilgeliği daha genel bir şekilde yeniden akılda tutalım . Bazı bağımlı değişken lineer olmayan yeniden ekspresyonu, belirtilen zaman herhangi uygulanmaktadır:
Artıklar eğri bir dağılıma sahiptir. Bir dönüşümün amacı, yaklaşık olarak simetrik olarak dağılmış artıkları (yaklaşık olarak sıfır) elde etmektir.
Artıkların yayılması, bağımlı değişkenin ("heteroscedasticity") değerleri ile sistematik olarak değişir. Dönüşümün amacı, yaklaşık "eşcinselliği" elde ederek, sistematik değişimin yayılmasının giderilmesidir.
Bir ilişkiyi doğrusallaştırmak.
Bilimsel teori ne zaman gösterir. Örneğin, kimya genellikle konsantrasyonları logaritma olarak ifade etmeyi önerir (aktiviteler ve hatta bilinen pH'ı verir).
Daha titiz bir istatistiksel teori, artıkların, ilave olarak birikmeyen "rastgele hataları" yansıttığını önerdiğinde.
Bir modeli basitleştirmek için. Örneğin, bazen bir logaritma "etkileşim" terimlerinin sayısını ve karmaşıklığını basitleştirebilir.
(Bu endikasyonlar birbirleriyle çatışabilir; bu gibi durumlarda yargılamaya ihtiyaç duyulur.)
Peki, başka bir dönüşüm yerine logaritma ne zaman özel olarak belirtilir ?
Artıklar "kuvvetli" bir pozitif yayılma dağılımına sahiptir. EDA hakkındaki kitabında, John Tukey, artıkların rütbe istatistiklerine dayanarak dönüşümü (Box-Cox ailesi veya gücü, dönüşümler ailesinin içinde) tahmin etmenin nicel yollarını sunmaktadır. Gerçekten eğer kütük almak artık kalıntıları simetize ederse, muhtemelen doğru ifade biçimidir. Aksi takdirde, başka bir yeniden ifadeye ihtiyaç duyulur.
Artıkların SD değeri, takılan değerlerle doğrudan orantılı olduğunda (takılı değerlerin gücüyle değil).
İlişki üstel ile yakın olduğunda.
Artıkların çoğul olarak biriken hataları yansıttığına inanıldığında.
Açıklayıcı değişkenlerdeki marjinal değişikliklerin, bağımlı değişkendeki çarpımsal (yüzde) değişiklikler olarak yorumlandığı bir model istiyorsunuz.
Son olarak, bazı sivil - nedenleri yeniden ifadesini kullanmak :
Aykırıklar, aykırılık gibi görünmüyor. Bir aykırı, verilere ilişkin bazı basit, nispeten basit bir açıklamaya uymayan bir veridir. Aykırı olanların daha iyi görünmesi için tanımının değiştirilmesi genellikle önceliklerin yanlış bir şekilde tersine çevrilmesidir: önce verilerin bilimsel olarak geçerli, istatistiksel olarak iyi bir tanımını alın ve sonra aykırı olanları araştırın. Ara sıra çalışanın verinin geri kalanını nasıl tanımlayacağına karar vermesine izin verme!
Çünkü yazılım otomatik olarak yaptı. (Yeterince söylendi!)
Çünkü tüm veriler olumlu. (Pozitiflik sıklıkla pozitif çarpıklık anlamına gelir, ancak buna gerek yoktur. Ayrıca, diğer dönüşümler daha iyi çalışabilir. Örneğin, bir kök genellikle sayılan verilerle en iyi şekilde çalışır.)
"Kötü" verileri (belki de düşük kalitede) yapmak için iyi davranılmış görünmektedir.
Verileri çizebilmek. . Bir dönüşüm verileri çizmek muktedir gerekiyorsa (muhtemelen gerçekten dönüşüm için tek nedeni, devam edin planlamakla içinse önce bahsedilen bir veya daha fazla iyi nedenler için gerekli ve bunu yapacak - ama sadece çizmek için Verileri analiz için dönüştürülmemiş bırakın.)
Her zaman öğrencilere doğal logaritmayı alarak bir değişkeni dönüştürmenin üç nedeni olduğunu söylerim. Değişkeni günlüğe kaydetme nedeni, bağımsız değişkeni (ler) in bağımlı mı yoksa her ikisini mi kaydetmek istediğinizi belirler. Açık olmak gerekirse, doğal logaritmayı ele almaktan bahsediyorum.
Birincisi, diğer posterlerin belirttiği gibi model uyumunu iyileştirmek için. Örneğin, artıklarınız normal olarak dağılmamışsa, çarpık bir değişkenin logaritmasını almak ölçeği değiştirerek ve değişkeni daha "normal" dağıtılmış hale getirerek oturumu iyileştirebilir. Örneğin, kazançlar sıfırda kesiliyor ve çoğu zaman olumlu bir çarpıklık sergiliyor. Değişken negatif çarpıksa, önce logaritmayı almadan önce değişkeni ters çevirebilirsiniz. Burada özellikle sürekli değişken olarak girilen Likert ölçeklerini düşünüyorum. Bu genellikle bağımlı değişken için geçerli olsa da, bazen bu değişkenin logaritmasını alarak düzeltilebilen bağımsız bir değişkenin neden olduğu artıklar (örn. Heteroscedasticity) ile ilgili problemleriniz vardır. Örneğin, öğretim görevlisi değerlendirmelerini bir dizi öğretim görevlisi ve sınıf değişkeninde açıklayan bir model çalıştırırken, "ders büyüklüğü" değişkenini (yani dersteki öğrenci sayısı) değişkenini sınıflandırmada belirleyen aykırı değerler vardı (çünkü dersteki değerlendirmelerdeki değişkenlik daha küçüktü) daha küçük gruplardan daha çok kohort. Öğrenci değişkenini kaydetmek, bu örnekte Robust Standart Hatalarını hesaplamak veya Ağırlıklı En Küçük Kareler kullanmak, yorumlamayı kolaylaştırabilir.
Y ve X - X'teki bir birim artış neden olur
Log Y ve Log X - X'te yol açacaktır
Ve nihayet bunu yapmak için teorik bir sebep olabilir. Örneğin, tahmin etmek istediğimiz bazı modeller çarpımsal ve dolayısıyla doğrusal değil. Logaritma alarak bu modellerin doğrusal regresyonla tahmin edilmesini sağlar. Buna güzel örnekler arasında ekonomideki Cobb-Douglas üretim fonksiyonu ve eğitimdeki Kıyma Denklemi sayılabilir. Cobb-Douglas üretim fonksiyonu, girdilerin çıktılara nasıl dönüştürüldüğünü açıklar:
nerede
Bunun logaritmalarını almak, OLS doğrusal regresyonunu kullanarak tahmin etmeyi kolaylaştırır:
Whuber'in logaritmayı bir kök veya karşılıklılık gibi diğer bazı dönüşümlere tercih etme nedenleri hakkındaki mükemmel noktası hakkında, ancak diğer dönüşümlere kıyasla log dönüşümünden kaynaklanan regresyon katsayılarının benzersiz yorumlanabilirliğine odaklanarak , bakınız:
Oliver N. Keene. Günlük dönüşümü özeldir. Tıpta İstatistik 1995; 14 (8): 811-819. DOI: 10.1002 / sim.4780140810 . (Şüpheli yasallığın PDF'si http://rds.epi-ucsf.org/ticr/syllabus/courses/25/2009/04/21/Lecture/readings/log.pdf adresinde bulunabilir ).
Eğer oturum ise bağımsız değişkeni X baz için b , bağımlı değişken Değişimin regresyon katsayısı (ve CI) yorumlayabilir y başına b de kat artış x . (Bu nedenle, taban 2'ye giriş günlükleri , x'in iki katına çıkma başına y'deki değişime karşılık geldiklerinden ya da x , daha nadir olan birçok büyüklük sırasına göre değişirse , taban 10'a yapılan günlüklere karşılık geldiklerinde yararlıdır ). Karekök gibi diğer dönüşümlerin bu kadar basit bir yorumu yoktur.
Eğer giriş yaparsanız bağımlı değişken y (önceki cevapların birkaç ele değil orijinal soru ama bir), o zaman (i bir kez bile bir makale hazırlarken kullanılan) sonuçlarının sunulması için cazip 'sympercents' Tim Cole'un fikrini bulmak Buna rağmen, bu kadarını yakalamış görünmüyorlarsa:
Tim J Cole. Belirtiler: 100 log (e) ölçeğindeki simetrik yüzde farkları log dönüştürülmüş verilerin sunumunu kolaylaştırır. Tıpta İstatistik 2000; 19 (22): 3109-3125. DOI: 10.1002 / 1097-0258 (20001130) 19:22 <3109 :: AID-SIM558> 3.0.CO; 2-F [ Stat Med'in DOI olarak SICI’leri kullanmayı bıraktığı için çok mutluyum ...]
Biri tipik olarak ölçeklendirmek ve dağıtımı değiştirmek için bir giriş değişkeninin günlüğünü alır (örn. Normal dağılmasını sağlamak için). Ancak, kör olarak yapılamaz; Sonuçların hala yorumlanabilir olduğundan emin olmak için herhangi bir ölçeklendirme yaparken dikkatli olmanız gerekir.
Bu, çoğu giriş istatistiği metinlerinde tartışılmaktadır. Bununla ilgili bir tartışma için Andrew Gelman'ın "İki standart sapma ile bölerek regresyon girişlerini ölçeklendirme" konulu makalesini de okuyabilirsiniz . Ayrıca “Regresyon Kullanarak Veri Analizi ve Çok Düzeyli / Hiyerarşik Modeller” in başında bu konuda çok güzel bir tartışması var .
Kütüğü almak, hatalı verilerle / aykırı durumlarla baş etmek için uygun bir yöntem değildir.
Artıklar ile ilgili bir sorun olduğunda verilerin kayıtlarını tutma eğilimindedir. Örneğin, artıkları belirli bir eş değişkene karşı çizer ve artan / azalan bir desen (bir huni şekli) gözlemlerseniz, bir dönüşüm uygun olabilir. Rasgele olmayan artıklar genellikle model varsayımlarınızın yanlış olduğunu, yani normal olmayan verilerin olduğunu gösterir.
Bazı veri türleri otomatik olarak kendilerini logaritmik dönüşümlere dönüştürür. Örneğin, genellikle konsantrasyonlarla veya yaşla uğraşırken günlükleri tutuyorum.
Dönüşümler öncelikli olarak aykırı davrananlar için kullanılmasa da günlükleri alarak verilerinizi ezdiği için yardımcı olurlar.
rms
require(rms)
dd <- datadist(mydata); options(datadist='dd')
cr <- function(x) x ^ (1/3)
f <- ols(y ~ rcs(cr(X), 5), data=mydata)
ggplot(Predict(f)) # plot spline of cr(X) against X
Kullanıcım 1690130'un 26 Ekim 12'deki ilk cevaba yapılan yorum olarak bırakılan ve şu şekilde okuduğu soruya cevap vermek istiyorum : "Bir bölgedeki nüfus yoğunluğu veya her okul bölgesi için çocuk-öğretmen oranı veya nüfusta 1000 kişi başına düşen cinayet sayısının profesörlerin bu değişkenlerin kütüğünü aldıklarını gördüm.Neden bana açık değil.Örneğin, cinayet oranı zaten bir yüzde değil mi? oran? Neden çocuk-öğretmen oranının günlüğü tercih edilsin? "
Benzer bir soruyu cevaplamak istiyordum ve eski istatistik derslerimin ders kitabını ( Jeffrey Wooldridge. 2006. Giriş Ekonometri - Modern Bir Yaklaşım, 4. Baskı. Bölüm 6 Çoklu Regresyon Analizi: Diğer Konular. 191 ) söylediklerini paylaşmak istedim . Wooldridge şunları tavsiye eder:
İşsizlik oranı, emeklilik planına katılım oranı, standart bir sınavdan geçen öğrencilerin yüzdesi ve rapor edilen suçlardaki tutuklama oranı gibi bir yüzde veya yüzde olarak görünen değişkenler , orjinal veya logaritmik biçimde görünebilir , seviye formlarda bunları kullanmak için bir eğilim olmasına rağmen . Bunun nedeni, orijinal değişkeni içeren herhangi bir regresyon katsayısının - bağımlı veya bağımsız değişken olup olmadığına - yüzde nokta değişim yorumlaması yapmasıdır. Unem'i işsiz bireylerin yüzdesi olduğu bir regresyonda log ( unem ) kullanırsak, yüzde puan değişimi ile yüzde değişim arasında ayrım yapmak için çok dikkatli olmamız gerekir. Unutma, unem eğer8'den 9'a kadar, bu yüzde bir puanlık bir artış, ancak ilk işsizlik seviyesinden% 12.5'lik bir artış. Kütüğü kullanmak, işsizlik oranındaki yüzde değişime baktığımız anlamına gelir: Kütle (9) - Kütle (8) =% 0.118 veya% 11.8, bunun% 12.5 artışına logaritmik yaklaşımıdır.
Buna dayanarak ve whuber'in kullanıcının1690130 sorusuyla ilgili daha önceki yorumuna bir göz atmaya dayanarak, günlük formunu kullanarak yoğunluğu veya eğriliği azaltmak gibi büyük bir tradeoff üretmediği sürece, yorumlamayı basit tutmak için bir yoğunluk veya yüzde oranı değişkeninin logaritmasını kullanmaktan kaçınırdım. oran değişkeni.
Shane, günlükleri kötü verilerle uğraşmakla almanın iyi olduğunu gösteriyor. Colin’in olduğu gibi normal artıkların önemi. Uygulamada, eğer girdi ve çıktı değişkenleri de göreceli olarak normalse, normal artıkları elde edebileceğinizi anlıyorum. Uygulamada bu, dönüştürülmüş ve dönüştürülmemiş veri kümelerinin dağılımını gözlemek ve daha normal olmaları ve / veya normallik testleri yürütmeleri (örneğin Shapiro-Wilk veya Kolmogorov-Smirnov testleri) sonucunun daha normal olup olmadığının belirlenmesi anlamına gelir. Yorumlanabilirlik ve gelenek de önemlidir. Örneğin, bilişsel psikolojideki log reaksiyon zamanındaki dönüşümler sıklıkla kullanılır, ancak bana göre, en azından log RT'nin yorumu net değildir. Ayrıca,