Yumuşatma - ne zaman kullanılır ve ne zaman kullanılmaz?


18

William Briggs'in blogunda , verileri yumuşatma ve bu yumuşatılmış verileri analize taşıma tuzaklarına bakan oldukça eski bir yazı var . Temel argüman şudur:

Delilik anında, pürüzsüz zaman serisi verileri yaparsanız ve diğer analizlere girdi olarak kullanırsanız, kendinizi kandırma olasılığını önemli ölçüde artırırsınız! Bunun nedeni, düzleştirmenin sahte sinyalleri, diğer analitik yöntemlere gerçek görünen sinyalleri indüklemesidir. Ne olursa olsun nihai sonuçlarından çok emin olacaksın!

Bununla birlikte, ne zaman ve ne zaman düzeltileceği konusunda kapsamlı tartışmalar bulmakta zorlanıyorum.

Bu düzeltilmiş verileri başka bir analize girdi olarak kullanırken düzeltmek için kaşlarını çatmak mı yoksa düzeltmenin önerilmediği başka durumlar var mı? Tersine, düzleştirmenin önerildiği durumlar var mı?


1
Zaman serisi analizinin çoğu uygulaması, bu şekilde tarif edilmediğinde bile bir tür düzleştirme işlemidir. Düzgünleştirme bir keşif veya özet aygıtı olarak kullanılabilir - bazı alanlarda, hatta ana veya tek kullanılan yöntem bile - veya bir amaç için rahatsızlık veya ikincil ilgi olarak kabul edilen özelliklerin kaldırılması için kullanılabilir.
Nick Cox

4
Feragatname: Belirtilen blog gönderisinin tamamını okumadım. Ben ilkel yazım hataları ("times serisi", "Monte Carol") alamadım ve onun tonu ve tarzı çekici değildi. Ancak, zaman serileri analizi veya istatistik prensiplerini kimsenin blogu aracılığıyla öğrenmeyi tavsiye etmem.
Nick Cox

@NickCox Kabul etti ve özellikle öğütecek bir balta olduğu görünen bir blogdan değil.
Hong Ooi

@HongOoi Evet! Blogumun kendisinden daha az düşünülmüş gibi görünmeyen yorumumun bir taslağından bazı seçim ifadelerini sildim.
Nick Cox

1
Briggs'in yazdığı her şeyi bir tuz tanesi ile alırdım.
Momo

Yanıtlar:


16

Üstel Düzgünleştirme nedensel olmayan zaman serisi tahmininde kullanılan klasik bir tekniktir. Sürece sadece basit kullanmak olarak tahmin ve kullanmayan in-örneklem düzleştirilmiş uyuyor başka bir veri madenciliği veya istatistik algoritmaya girdi olarak, Briggs' eleştirisi geçerli değildir. (Buna göre, Wikipedia'nın dediği gibi, "sunum için düzgünleştirilmiş veriler üretmek için" kullanma konusunda şüpheliyim - bu, düzeltilmiş değişkenliği gizleyerek yanıltıcı olabilir.)

İşte Üstel Düzgünleştirme ders kitabına giriş.

Ve işte (10 yaşında ama yine de alakalı) bir inceleme makalesi.


DÜZENLEME: var gibi görünüyor bazı şüpheler muhtemelen Briggs' eleştirisi geçerliliği hakkında biraz ambalajından etkilenmiştir . Briggs'in tonunun aşındırıcı olabileceğine tamamen katılıyorum. Ancak, neden bir anlamı olduğunu düşündüğümü göstermek istiyorum.

Aşağıda, her biri 100 gözlemden oluşan 10.000 çift zaman serisini simüle ediyorum. Tüm seriler hiçbir korelasyon olmadan beyaz gürültüdür. Bu nedenle standart bir korelasyon testi yapmak [0,1] üzerinde eşit olarak dağıtılmış p değerleri vermelidir. Olduğu gibi (aşağıdaki soldaki histogram).

Bununla birlikte, ilk önce her seriyi düzelttiğimizi ve düzeltilmiş verilere korelasyon testini uyguladığımızı varsayalım . Şaşırtıcı bir şey ortaya çıkıyor: verilerden çok fazla değişkenlik çıkardığımız için çok küçük p değerleri alıyoruz . Korelasyon testimiz ağır önyargılı. Bu yüzden Briggs'in söylediği orijinal seri arasındaki herhangi bir ilişkiden çok emin olacağız.

Soru gerçekten tahmin için düzeltilmiş verileri kullanıp kullanmadığımız, bu durumda da düzeltmenin geçerli olup olmadığı veya bazı analitik algoritmalara girdi olarak dahil edip etmeyeceğimize dayanır. Girdi verilerindeki bu garanti edilmemiş kesinlik sonuçlara ulaşır ve dikkate alınması gerekir, aksi takdirde tüm çıkarımlar çok kesindir. (Ve tahmin için "şişirilmiş kesinlik" temelli bir model kullanırsak, elbette çok küçük tahmin aralıkları da alırız.)

n.series <- 1e4
n.time <- 1e2

p.corr <- p.corr.smoothed <- rep(NA,n.series)
set.seed(1)
for ( ii in 1:n.series ) {
    A <- rnorm(n.time)
    B <- rnorm(n.time)
    p.corr[ii] <- cor.test(A,B)$p.value
	p.corr.smoothed[ii] <- cor.test(lowess(A)$y,lowess(B)$y)$p.value
}

par(mfrow=c(1,2))
hist(p.corr,col="grey",xlab="",main="p values\nunsmoothed data")
hist(p.corr.smoothed,col="grey",xlab="",main="p values\nsmoothed data")

p değerleri


1
Ham zaman da gösterilmeden pürüzsüz gösterilmemesi için iyi zaman serisi analizi için aksiyomatik olarak kabul ediyorum.
Nick Cox

1

Düzgünleştirmenin bir modelleme analizi için uygun olmadığını iddia etmek, onu, aksi takdirde yapabileceğinden daha yüksek ortalama kare hatasına sahip olmaya mahkemm eder. Ortalama kare hatası veya MSE üç terime ayrıştırılabilir: `` önyargı '' olarak adlandırılan bir değerin karesi, bir varyans ve bazı indirgenemez hata. (Bu, aşağıdaki alıntılarda gösterilmiştir.) Aşırı düzleştirilmiş modeller, düşük varyansa sahip olsalar bile, yüksek sapmaya sahiptir ve çok kaba modeller yüksek varyanslara ve düşük sapmaya sahiptir.

Bu konuda felsefi hiçbir şey yok. Matematiksel bir karakterizasyon. Gürültünün karakterine veya sistemin karakterine bağlı değildir.

Görmek:

http://scott.fortmann-roe.com/docs/BiasVariance.html

https://galton.uchicago.edu/~lafferty/pdf/nonparam.pdf

http://www.inf.ed.ac.uk/teaching/courses/mlsc/Notes/Lecture4/BiasVariance.pdf (Ayrışma türetilmiştir.)

http://www.cs.columbia.edu/~blei/fogm/2015F/notes/regularized-regression.pdf (Blei aynısını farklı bir şekilde yapar ve tahmin etmeye çalıştığında ne olacağını getirir.)

Klasik istatistikler neredeyse her zaman tarafsız tahminlerde ısrarcıydı. 1955 yılında, Stanfordlu istatistikçi Charles Stein, önemli özel durumlar için, özellikle JAMES-STEIN ESTIMATORS olarak adlandırılan, daha düşük MSE'ye sahip olan tarafsız tahmin edicilerin kombinasyonları olduğunu gösterdi. Bradley Efron bu devrim hakkında çok anlaşılır bir metin yazdı: http://statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.