Ne zaman (ve neden) bir dağıtım günlüğünü (sayıların) almalısınız?


173

Örneğin, geçmiş hisse senedi fiyatları, havayolu bilet fiyatı dalgalanmaları, şirketin geçmiş finansal verileri gibi bazı geçmiş verilere sahibim ...

Şimdi birileri (ya da bazı formüller) gelir ve "hadi dağıtım günlüğünü alalım / kullanalım" der ve işte NEREYE GİTİRİM ?

Sorular:

  1. Niçin birincisi dağıtım günlüğünü almalı?
  2. Dağıtım günlüğü, orijinal dağıtımın yapamayacağı / yapamayacağı şeyleri “verir / basitleştirir”.
  3. Günlük dönüşümü 'kayıpsız' mı? Yani, log boşluğa dönüşürken ve verileri analiz ederken, aynı sonuçlar orijinal dağıtım için de geçerli midir? Nasıl olur?
  4. Ve son olarak dağıtım günlüğünü almak NE ZAMAN? Hangi şartlar altında buna karar verilir?

Gerçekten log-tabanlı dağılımları anlamak istedim (örneğin lognormal) ama ne zaman / neden yönlerini anlamadım - yani, dağıtım günlüğü normal bir dağıtımdır, peki ne? Bu bana ne anlatıyor ve bana neden rahatsız ediyor? Bu yüzden soru!

GÜNCELLEME : @ whuber'un yorumuna göre yazılara baktım ve bir nedenden ötürü log değişkenlerinin kullanımını ve lineer regresyonda uygulamalarını anlıyorum, çünkü bağımsız değişken ile bağımlı değişkenin logu arasında bir ilişki çizebilirsiniz. Ancak benim sorum, dağıtımın kendisini analiz etme anlamında genel bir şey - bir dağıtımı analiz etmek için günlükleri almanın nedenini anlamaya yardımcı olmak için sonuçlayabileceğim bir ilişki yok. İnşallah anlamıyorum: - /

Regresyon analizinde verinin türü / fit / dağılımı üzerinde kısıtlamalar vardır ve onu dönüştürebilir ve bağımsız ve (dönüştürülmemiş) bağımlı değişken arasında bir ilişki tanımlayabilirsiniz. Ancak, ne zaman / niçin bir kişi bunu tür / uygun / dağıtım kısıtlamalarının zorunlu olarak bir çerçevede (regresyon gibi) uygulanamayacağı bir izolasyon dağılımı için yapacaktır? Umarım açıklama karışıklığı daha net şeyler yapar :)

Bu soru "NEDEN ve NEREDE" olarak açık bir cevabı hak ediyor


3
Bu, buradaki ve buradaki önceki soruların neredeyse aynı temelini oluşturduğu için , lütfen bu konuları okuyun ve bu konunun daha önce ele alınmamış tüm yönlerine odaklanmak için sorunuzu güncelleyin. Ayrıca, # 4 (ve # 3'ün bir kısmı) cevapları birçok yerde kolayca bulunan logaritmalar hakkında temel sorulardır.
whuber

1
Açıklama yardımcı olur. Bununla birlikte, bu değişimin sadece sabit bir terimle (ve başka hiçbir bağımsız değişken içermeyen) regresyonun, verilerin ortalamalarındaki değişimlerini değerlendirmekle sonuçlandığı gerçeğini düşünmek isteyebilirsiniz. Bu nedenle, regresyonda bağımlı değişkenlerin kayıtlarını almanın etkilerini gerçekten anlıyorsanız, burada sorduğunuz (daha basit) durumu zaten anlıyorsunuz. Kısacası, gerileme için dört sorunun tümüne de cevap verdikten sonra, "izolasyondaki dağıtım" hakkında tekrar sormanıza gerek kalmaz.
whuber

@whuber: Anlıyorum ... bu yüzden regresyonda günlükleri almanın nedenlerini anlıyorum, ancak yalnızca bana öğretildiğim için - bunu perspektif yapma ihtiyacından anlıyorum yani verilerin varsayımlara uyduğundan emin olmak için Doğrusal regresyonun Bu benim tek anlayışım. Belki de eksik olduğum şey, günlükleri almanın ve dolayısıyla karışıklığı etkilemenin "gerçek anlayışı" dır. Herhangi bir yardım? ;)
Doktora

2
Ah, ama bundan çok daha fazlasını biliyorsunuz, çünkü regresyonda günlükleri kullandıktan sonra sonuçların farklı yorumlandığını biliyorsunuz ve geri dönüşümü takılan değerlere ve güven aralıklarına dikkat etmeyi biliyorsunuz. Sana kalabileceği yönündeki ediyorum değil başlangıçta :-) bunun farkında değil olmalarına rağmen karıştırılmamalıdır ve muhtemelen bu dört soruların cevapları birçok biliyoruz.
whuber

2
Buradaki okuyucular, yakından ilişkili olan bu konulara da bakmak isteyebilir: log-transforme-öngörücünün yorumlanması & Logaritmik dönüşümlü katsayıların lineer regresyonda nasıl yorumlanacağı .
gung

Yanıtlar:


98

Doğrusal olmayan, ancak Y = β 0 + β 1 t logY=β0+β1t gibi doğrusal bir modele dönüştürülebilen bir model formu varsayarsanız , belirtilen model formunu karşılamak için Y logaritmalarını almak gerekçeli olur . Eğer nedensel dizi olsun veya olmasın Genelde, sadece zaman size Günlüğü almakta haklı veya doğru olacağını Y bunun Varyans ispat edilebilir zaman olduğu Y Beklenen Değer orantılıdır Y2. Aşağıdakiler için orijinal kaynağı hatırlamıyorum, ancak güç dönüşümlerinin rolünü güzelce özetliyor. Dağılım varsayımlarının her zaman gözlemlenen Y değil hata süreci ile ilgili olduğuna dikkat etmek önemlidir; bu nedenle, seri basit bir sabit tarafından tanımlanmadıkça orijinal serinin uygun bir dönüşüm için analiz edilmesi kesin bir "hayır-hayır" dır.

Farklılıklar dahil olmak üzere, istenmeyen veya yanlış dönüşümler, genellikle tanımlanamayan anomaliler / seviye kaymaları / zaman eğilimleri veya parametrelerdeki değişikliklerde veya hata varyansındaki değişikliklerle başa çıkmak için kötü moda / kötü düşünülmüş bir girişim olduklarından titizlikle kaçınılmalıdır. Bunun klasik bir örneği burada 60. slayttan başlayarak tartışılmaktadır. Http://www.autobox.com/cms/index.php/afs-university/intro-to-forecasting/doc_download/53-capabilities-presentation burada üç darbe anomalisi ( (tedavi edilmemiş) erken araştırmacılar tarafından sınırsız bir log dönüşümüne yol açtı. Maalesef mevcut araştırmacılarımızdan bazıları hala aynı hatayı yapıyor.

Optimum güç dönüşümü yoluyla bulunursa Box-Cox Testi nerede

  • -1. karşılıklı
  • -.5 bir tekrarlı kareköktür
  • 0.0 log dönüşümü
  • .5 bir karekök dönüşümdür ve
  • 1.0 dönüşüm değil.

Yt=u+atYatatYtatYtYYYXYXlogYlogX. Özetle dönüşümler ilaç gibidir, bazıları iyi, bazıları sizin için kötüdür! Sadece gerektiğinde ve sonra dikkatli kullanılmalıdırlar.


2
Düşman oyları kimin bıraktığını, neden oy kullandığına dair bir açıklama yapması gerektiğine katılıyorum. Irishstat'a göre, cevapları bırakmak için biçimlendirme seçeneklerinden, özellikle lateks içindeki denklemleri işaretlemek için mevcut olanlardan yararlanırsanız, gönderinizi okumak çok daha kolay olacaktır. Bkz markdown düzenleme yardım bölümünü . Bu bağlantı, kayıt kutusunun sağ üst köşesine (soru işaretli turuncu dairede) bir yanıt yazdığınızda kullanılabilir.
Andy W

4
Belirtilen tablo , Doğrusal Regresyon Analizine Giriş bölümünde , Douglas C. Montgomery, Elizabeth A. Peck, G. Geoffrey Vining.
user1717828

@ user1717828 tu .. Her zaman Montgomery'nin bir hayranı oldum çünkü zaman serisini içeren uzun bir sakalı var
IrishStat

İkinci anın ve varyansın birbiriyle orantılı olduğu her zaman doğru değil midir? Klasik denklemi şöyle söyleriz: varyans eksi kare karenin ikinci anına eksidir.
information_interchange

Dediğiniz gibi varyans, ikinci anın bir fonksiyonudur. Aksi takdirde nerede ima ettim? Ek olarak, varyans zaman içinde farklı noktalarda (deterministik olarak) değişebilir (SEE pdfs.semanticscholar.org/09c4/…) ki bu bir güç dönüşümü ile düzeltilmez.
IrishStat

107

Log-scale göreceli değişimler hakkında bilgi verirken (çarpımsal) doğrusal doğrusal ölçek mutlak değişiklikler hakkında bilgi verir (katkı maddesi). Her birini ne zaman kullanıyorsunuz? Göreceli değişikliklerle ilgileniyorsanız, log ölçeğini kullanın; Mutlak değişikliklerle ilgileniyorsanız, doğrusal ölçek kullanın. Bu, dağılımlar için değil, aynı zamanda miktarlardaki herhangi bir miktar veya değişiklik için de geçerlidir.

Dikkat, "bakım" kelimesini burada çok özel ve kasıtlı olarak kullanıyorum. Bir model veya amaç olmadan sorunuz cevaplanamaz; Model veya amaç hangi ölçeğin önemli olduğunu tanımlar. Bir şeyi modellemeye çalışıyorsanız ve mekanizma göreceli bir değişiklikle hareket ediyorsa, günlük ölçeği verilerinizde görülen davranışı yakalamak için çok önemlidir. Ancak, temel modelin mekanizması ek ise, doğrusal ölçek kullanmak istersiniz.


$$$


$$$$


$

Günlük alanına dönüştürürsek, göreli değişiklikler mutlak değişiklikler olarak görünür.

log10($1)log10($1.10)
log10($100)log10($110)

Şimdi, log boşluğundaki mutlak farkı alarak, ikisinin de 0413 ile değiştiğini görüyoruz.

Bu değişim önlemlerinin her ikisi de önemlidir ve hangisi sizin için önemlidir, yalnızca yatırım modelinize bağlıdır. İki model var. (1) Sabit miktarda anapara yatırım yapmak veya (2) sabit sayıda hisseye yatırım yapmak.

Model 1: Sabit miktarda anapara ile yatırım.

$$$$$$$$

Model 2: sabit hisse senedi sayısı.

$

Şimdi bir hisse senedi değerini, zaman içinde dalgalanan rastgele bir değişken olarak düşündüğümüzü ve genel olarak hisse senetlerinin nasıl davrandığını yansıtan bir model bulmak istediğimizi varsayalım. Diyelim ki bu modeli karı maksimize etmek için kullanmak istiyoruz. X değerleri “hisse fiyatı” cinsinden bir olasılık dağılımını ve belirli bir hisse senedi fiyatını gözlemleme ihtimalinde y değerlerini hesaplıyoruz. Bunu A stoku ve B stoku için yapıyoruz. Yatırım yapmak istediğiniz sabit bir anapara sahip olduğunuz ilk senaryoya abone olursanız, o zaman bu dağıtımların kaydını tutmak bilgilendirici olacaktır. Neden? Önemsediğiniz şey, göreceli uzayda dağılımın şeklidir. Bir hisse senedi 1'den 10'a mı, yoksa 10'dan 100'e mi geçiyor sizin için önemli değil mi? Her iki durumda da 10 katgöreceli kazanç. Bu, doğal olarak, birim kazanımlara doğrudan katlanma kazanımlarına karşılık gelen kütük dağılımında görünür. Ortalama değeri farklı olan ancak nispi değişimi aynı şekilde dağıtılmış olan iki hisse senedi için (günlük yüzde değişimlerin aynı dağılımına sahiptirler ), günlük dağılımları yalnızca değiştirilen biçimiyle aynı olacaktır . Tersine, doğrusal dağılımları şekil bakımından aynı olmayacak, daha yüksek değerli dağılım daha yüksek bir varyansa sahip olacaktır.

Aynı dağıtımlara doğrusal veya mutlak uzayda bakacak olsaydınız, daha yüksek değerli hisse fiyatlarının daha büyük dalgalanmalara karşılık geldiğini düşünürdünüz. Yatırım amaçlı, ancak sadece akrabaların kazandığı yerlerde, bu mutlaka doğru değildir.

Örnek 2. Kimyasal reaksiyonlar. Farz edelim ki geri dönüşümlü bir reaksiyon geçiren iki molekül A ve B var.

AB

bireysel oran sabitleri ile tanımlanır

kabABkbaBA

Dengeleri, ilişki ile tanımlanır:

K=kabkba=[A][B]

AB

K=kabkba=[A][B]

(0,inf)

EDIT . Sezgiyi geliştirmeme yardımcı olan ilginç bir paralel, aritmetik ortalamalara karşı geometrik araçlara örnektir.. Bir aritmetik (vanilya) ortalaması, mutlak farklılıkların önemli olduğu gizli bir model varsayarak sayıların ortalamasını hesaplar. Örnek. 1 ve 100 aritmetik ortalaması 50,5'tir. Diyelim ki, konsantrasyonlar arasındaki kimyasal ilişkinin çarpıcı olduğu konsantrasyonlardan söz ediyoruz. O zaman ortalama konsantrasyon gerçekten kütük ölçeğinde hesaplanmalıdır. Buna geometrik ortalama denir. 1 ile 100 arasındaki geometrik ortalama 10'dur! Bağıl farklar açısından, bu mantıklı: 10/1 = 10 ve 100/10 = 10, yani, ortalama ve iki değer arasındaki bağıl değişim aynıdır. Ek olarak aynı şeyi buluyoruz; 50.5-1 = 49.5 ve 100-50.5 = 49.5.


2
Bu gerçekten faydalı bir cevap ve örnekleri çok seviyorum. Özellikle log-transform kullanmak için "ne zaman" hakkında daha fazla bilgi ekleyebilir misiniz? "Bağıl değişiklikleri önemsiyorsanız, günlük ölçeğini kullanın; mutlak değişiklikleri önemserken doğrusal ölçeği kullanın." Ancak göreceli değişiklikleri önemsiyorsanız ancak log dönüşümü yapmamanız gereken durumlar var mı ve öyleyse, bu vakaları nasıl tespit ediyorsunuz? Örneğin, bu makale normal bir günlük kaydını takip etmeyen bir verinin günlük dönüştürülmemesi gerektiğini ortaya koymaktadır
skeller88

@ skeller88 Bu makaleye katılıyorum; “Neden dağıtımları dönüştürüyoruz?” sorusuna daha geniş (ve felsefi!) soruya verilen dar bir cevaptır. Bunun cevabı, normal dağılımlar arasındaki zıtlık için iyi geliştirilmiş bir istatistiksel araç setine sahip olduğumuzu düşünüyorum, fakat diğer, belki de isimsiz dağıtımlar için daha az gelişmiş bir araç setimiz (çoğunluk). Korkak görünümlü bir dağılımın değerlendirilmesine yönelik bir yaklaşım, sadece daha normal görünüp görünmediğini görmek için günlüğünü almak olabilir; Ancak IrishStat'ın yukarıda teknik olarak tanımladığı gibi, bu yol tehlikeyle doludur (kare mandal, yuvarlak delik çeşitleri).
vector07

1
Orada bu etkinin ilgili bir açıklama nedir ve neden karar ağaçları için biraz daha önemli towardsdatascience.com/...
Keith
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.