Eğri veriler modelleme için neden tercih edilmiyor?


16

Çoğu zaman insanlar değişken dönüşümler hakkında konuşurlar (hem öngörücü hem de yanıt değişkenleri için), verilerin çarpıklığını tedavi etmenin yollarını tartışırlar (log dönüşümü, kutu ve cox dönüşümü gibi). Anlayamadığım şey, çarpıklığı gidermek neden bu kadar yaygın bir uygulama olarak kabul edilir? Çarpıklık, ağaç tabanlı modeller, doğrusal modeller ve doğrusal olmayan modeller gibi çeşitli modellerin performansını nasıl etkiler? Ne tür modeller çarpıklıktan daha fazla etkilenir ve neden?


2
Makul bir cevap vermek için lütfen ne demek istediğinizi açıklayın: a) veri, b) modelleme ve c) modeller. Kilit soru - her zamanki gibi - onunla ne yapmak istediğinizdir . Ama ne o ?
Melek

Cevabımı bazı alakalı alıntılar eklemek ve iddiaları genişletmek için güncelledim.
17'de Tavrock

Yanıtlar:


11

Çarpıklığı giderirken, dönüşümler veri kümesinin Gauss dağılımını takip etmesini sağlamaya çalışır. Bunun nedeni, veri kümesinin bir Gauss veri kümesine istatistiksel olarak yeterince yakın olacak şekilde dönüştürülebilmesi durumunda, mümkün olan en büyük araç kümesinin kullanabileceği şekilde olmasıdır. ANOVA, testi, F- testi ve diğerleri gibi testler sabit varyansa ( σ 2 ) sahip olan verilere dayanır veya bir Gauss dağılımını takip eder. 1tFσ2

Daha sağlam model vardır 1 , fakat (örneğin Levine'nın yerine Bartlett testinin testi kullanılarak gibi) diğer dağılımlar ile iyi iş size neyi dağıtım biliyorum gerektiren çoğu testler ve modeller vardır ile çalışan ve tipik olan sadece tek bir dağıtım için mülk de.

NIST Mühendislik İstatistikleri El Kitabını alıntılamak için :

Regresyon modellemesinde, aşağıdaki iki hedefe ulaşmak için genellikle dönüşümler uygularız:

  1. hatalar için varyansların homojenliğini karşılamak.
  2. uyumu olabildiğince doğrusallaştırmak için.

Bu iki hedefin çatışabilmesi için biraz özen ve muhakeme gerekmektedir. Genellikle önce homojen varyanslar elde etmeye çalışırız ve daha sonra uyumu doğrusallaştırmaya çalışma konusunu ele alırız.

ve başka bir yerde

Bir yanıt değişkeni ve tek bir bağımsız değişken içeren bir model şu şekildedir:

Yben=f(Xben)+Eben

burada yanıt değişkeni, X bağımsız değişkendir, f doğrusal veya doğrusal olmayan uyum fonksiyonudur ve E rasgele bileşendir. İyi bir model için hata bileşeni şöyle davranmalıdır:YXfE

  1. rastgele çizimler (yani bağımsız);
  2. sabit bir dağıtımdan;
  3. sabit konumlu; ve
  4. sabit varyasyon ile.

Ek olarak, montaj modellerinde genellikle sabit dağılımın normal ve sabit konumun sıfır olduğu varsayılır. İyi bir model için sabit varyasyon mümkün olduğunca küçük olmalıdır. Montaj modellerinin gerekli bir bileşeni, hata bileşeni için bu varsayımları doğrulamak ve hata bileşeni için varyasyonun yeterince küçük olup olmadığını değerlendirmektir. Hata bileşenindeki sabit dağılım, konum ve varyasyon varsayımlarını doğrulamak için histogram, gecikme grafiği ve normal olasılık grafiği kullanılır. Yanıt değişkeninin grafiği ve bağımsız değişkene karşı öngörülen değerler, varyasyonun yeterince küçük olup olmadığını değerlendirmek için kullanılır. Kalıntıların bağımsız değişken ve öngörülen değerlere göre grafikleri bağımsızlık varsayımını değerlendirmek için kullanılır.

Yukarıdaki varsayımlar açısından uyumun geçerliliğinin ve kalitesinin değerlendirilmesi, model uydurma sürecinin kesinlikle hayati bir parçasıdır. Yeterli bir model doğrulama adımı olmadan hiçbir uyumun eksiksiz olduğu düşünülmemelidir.


  1. iddialar için (kısaltılmış) alıntılar:
    • Breyfogle III, Forrest W. Altı Sigma Uygulamak
    • Pyzdek, Thomas. Altı Sigma El Kitabı
    • Montgomery, Douglas C.İstatistiksel Kalite Kontrolüne Giriş
    • Ed. Cubberly, Willaim H ve Bakerjan, Ramon. Takım ve İmalat Mühendisleri El Kitabı: Masaüstü Sürümü

Yanıtınız için teşekkürler Tavrock. Ama bildiğim kadarıyla, karar ağaçlarında ANOVA veya F-testi t testi kullanılmıyor (en azından bölünmeler yapmak için). Ayrıca, doğrusal regresyonda dağılımın şekli ile ilgili varsayımların çoğu hatalarla ilgilidir. Hatalar çarpıksa, bu testler başarısız olur. Yani, bu, tahmin değişkeninin eğriliğinin bu modeller için tahmin kalitesini etkilememesi gerektiği anlamına gelir. Yanlışım varsa lütfen düzelt. Tekrar teşekkürler!!
saurav shekhar

1
Sorunuzu açıklığa kavuşturabilir misiniz - yanıt değişkenini dönüştürmeyi veya öngörücü değişkenleri dönüştürmeyi veya her ikisini birden bilmek ister misiniz?
Groovy_Worm

1
@ Groovy_Worm bunu işaret ettiğiniz için teşekkürler. Bu soruda hem yordayıcı hem de yanıt değişkenleri ile ilgileniyorum.
saurav shekhar

Genelleştirilmiş doğrusal modelleme (GLM) arıyor olabilirsiniz . Doğrusal regresyonda, tipik olarak bağımlı değişkeninizin X ve e rasgele değişkenlerine bağlı bir gauss dağılımını izlediğini varsayarsınız . GLM ile, evreninizi bağımlı değişkeniniz, bağımsız değişkenleriniz ( belirttiğiniz bir bağlantı işlevi aracılığıyla) için (neredeyse) herhangi bir dağıtım türüne izin verecek şekilde genişletebilirsiniz .
Chris K

7

Bu çoğunlukla parametrik modeller için geçerlidir. Tavrock'un dediği gibi, çarpık olmayan bir yanıt değişkenine sahip olmak, Gauss'un parametre tahmininin daha iyi çalışmasını sağlar, çünkü simetrik dağılım, çarpık olanlardan Gaussian'a çok daha hızlı yaklaşır. Bu, eğrili verileriniz varsa, dönüştürmek, parametreler üzerinde uygun şekilde güven aralıkları ve testler kullanmak için daha küçük bir veri kümesi oluşturacaktır (tahmin aralıkları hala geçerli olmayacaktır, çünkü verileriniz simetrik olsa bile, bu normaldir, yalnızca parametre tahminleri Gauss'e yakınlaşacaktır).

Bu konuşmanın tamamı, yanıt değişkeninin koşullu dağılımı ile ilgilidir: hatalar hakkında. Bununla birlikte, koşulsuz dağıtımına baktığınızda çarpık görünen bir değişkeniniz varsa, muhtemelen eğrilmiş koşullu bir dağılımı olduğu anlamına gelebilir. verilerinize bir model takılması, verilerinizi aklınızda tutar.

Karar ağaçlarında ilk olarak bir şeyi işaret edeceğim: çarpık açıklayıcı değişkenleri dönüştürmenin bir anlamı yok, monotonik işlevler hiçbir şeyi değiştirmeyecek; bu doğrusal modellerde yararlı olabilir, ancak karar ağaçlarında değil. Bununla birlikte, CART modelleri tükürükleri gerçekleştirmek için varyans analizini kullanır ve varyans aykırı değerlere ve çarpık verilere karşı çok duyarlıdır, bu nedenle yanıt değişkeninizi dönüştürmenin modelinizin doğruluğunu önemli ölçüde artırabilmesinin nedeni budur.


1

Bunun çok güzel özelliklerinden dolayı Gausslulara dönme geleneğinin bir eseri olduğuna inanıyorum.

Ancak güzel dağıtım alternatifleri vardır, örneğin, bir dizi farklı çarpık dağılım şekli ve formunu kapsayan genelleştirilmiş gama


1

Diğer okuyucuların söylediği gibi, verilerinizle neyi başarmayı planladığınız konusunda biraz daha arka plan yardımcı olacaktır.

Bununla birlikte, istatistik alanında, merkezi limit teoremi ve büyük sayıların kanunu olarak bilinen iki önemli öğreti vardır . Yani, ne kadar fazla gözlem olursa, bir veri kümesinin eşit bir ortalama, medyan ve moda sahip olan normal bir dağılıma yaklaşması beklenir . Büyük sayılar yasası uyarınca, yeterli gözlemler göz önüne alındığında, beklenen ve gerçek değer arasındaki sapmanın sonunda sıfıra düşmesi beklenmektedir.

Bu nedenle, normal bir dağılım, altta yatan dağılım biliniyorsa araştırmacının bir popülasyon hakkında daha doğru tahminlerde bulunmasına izin verir.

Çarpıklık bir dağılımın bundan sapmasıdır, yani bir sapma pozitif veya negatif çarpık olabilir. Bununla birlikte, merkezi limit teoremi, yeterince geniş bir gözlem seti verildiğinde, sonucun yaklaşık normal bir dağılım olacağını savunur. Bu nedenle, dağıtım normal değilse, bahsettiğiniz dönüştürme prosedürleri aracılığıyla dağıtımın temel yapısını değiştirmeye çalışmadan önce her zaman daha fazla veri toplamanız önerilir.


1

Çarpıklık ne zaman kötü bir şeydir? Simetrik dağılımlar (genellikle ama her zaman değil: örn. Cauchy dağılımı için değil) medyan, mod ve ortalamaya çok yakındır. Bu nedenle , bir nüfusun yerini ölçmek istiyorsak , medyan, mod ve ortalamanın birbirine yakın olması yararlı olur.

ln0=-

Www'den çıkarılan kilo dolar cinsinden 25 gelir örneği.

k$	lnk$
28  3.33220451
29  3.36729583
35  3.555348061
42  3.737669618
42  3.737669618
44  3.784189634
50  3.912023005
52  3.951243719
54  3.988984047
56  4.025351691
59  4.077537444
78  4.356708827
84  4.430816799
90  4.49980967
95  4.553876892
101 4.615120517
108 4.682131227
116 4.753590191
121 4.795790546
122 4.804021045
133 4.890349128
150 5.010635294
158 5.062595033
167 5.117993812
235 5.459585514

İlk sütunun çarpıklığı 0.99, ikincisinin -0.05. İlk sütun muhtemelen normal değildir (Shapiro-Wilk p = 0.04) ve ikincisi önemli ölçüde normal değildir (p = 0.57).

First column    Mean 90.0 (95% CI, 68.6 to 111.3)     Median 84.0 (95.7% CI, 52.0 to 116.0)
Second col Exp(Mean) 76.7 (95% CI, 60.2 to 97.7) Exp(Median) 84.0 (95.7% CI, 52.0 to 116.0)

tecrübe[anlamına gelmekln(k$)]  76.7 k değerindedir ki bu ortalama değerden daha azdır, ayrıca bir tahmin olarak daha mantıklıdır?

Açıkçası, buradaki log-normal daha iyi bir modeldir ve ortalama logaritma bize daha iyi bir yer ölçümü sağlar. Bunun tam olarak anlaşılmasa bile iyi bilinmesi, "5 haneli maaş almayı bekliyorum" ifadesi ile gösterilmiştir.


0

Sonuçların çoğu Gauss varsayımlarına dayanmaktadır. Çarpık bir dağılımınız varsa, bir Gauss dağılımınız yoktur, bu yüzden umutsuzca buna dönüştürmeyi denemelisiniz.

AMA elbette GLM ile deneyebilirsiniz.


0

Bence sadece modelleme değil, aynı zamanda beynimiz çok eğik verilerle çalışmaya alışkın değil. Örneğin, davranışsal finansta çok düşük veya yüksek olasılıkları tahmin etmede iyi olmadığımız iyi bilinmektedir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.