Basıklığı etkilemeden eğikliği değiştirmek için bir dönüşüm mü?


11

Basıklığı etkilemeden rastgele bir değişkenin çarpıklığını değiştiren bir dönüşüm olup olmadığını merak ediyorum. Bu, bir RV'nin afin dönüşümünün ortalama ve varyansı nasıl etkilediğine benzer, ancak eğri ve basıklığı değil (kısmen, eğim ve basıklık ölçeğindeki değişikliklere değişmez olarak tanımlandığı için). Bu bilinen bir sorun mu?


Bu dönüşümle de standart sapmanın sabit kalmasını istiyor musunuz?
russellpierce

hayır, beklemeyeceğim, ama fazla basıklık sabit kalmalıdır. Ancak dönüşümün monotonik olmasını ve tercihen deterministik olmasını beklerim.
shabbychef

1
Yikes - belirleyici olmayan bir işlevi kanıtlamak isteyen kişiye woe monotoniktir.
russellpierce

Yanıtlar:


6

Benim cevabım, toplam hacklemenin başlangıcıdır, ancak sorduğunuz şeyi yapmanın yerleşik bir yolunun farkında değilim.

İlk adım, veri kümenizi sıralamak, veri kümenizdeki oransal konumu bulabilir ve ardından normal bir dağılıma dönüştürebilirsiniz, bu yöntem Reynolds & Hewitt, 1996'da kullanılmıştır. PROCMiracle'te aşağıdaki örnek R koduna bakın.

Dağılım normal olduğunda, sorun kafasına çevrildi - basıklık ayarlaması meselesi ama eğri değil. Google'da yapılan bir arama, birinin basıklığı düzeltmek için John & Draper, 1980'in prosedürlerini takip edebileceğini, ancak çarpıklığı değil - ancak bu sonucu tekrarlayamadığımı önerdi.

Girdi (normalleştirilmiş) değerini alan ve değişkenin normal ölçekte konumuyla orantılı bir değer ekleyen veya çıkaran ham bir serpme / daraltma işlevi geliştirme girişimleri tekdüze bir ayarlama ile sonuçlanır, ancak uygulamada istenen çarpıklık ve basıklık değerlerine sahip bir bimodal dağılım.

Bunun tam bir cevap olmadığını anlıyorum, ama doğru yönde bir adım atabileceğini düşündüm.

PROCMiracle <- function(datasource,normalrank="BLOM")
  {
     switch(normalrank,
      "BLOM" = {
                  rmod <- -3/8
                  nmod <- 1/4
                },
      "TUKEY" = {
                  rmod <- -1/3
                  nmod <- 1/3
                },
      "VW" ={
                  rmod <- 0
                  nmod <- 1
            },
      "NONE" = {
                  rmod <- 0
                  nmod <- 0
                }
    )
    print("This may be doing something strange with NA values!  Beware!")
    return(scale(qnorm((rank(datasource)+rmod)/(length(datasource)+nmod))))
  }

Ben böyle bir şey yapıyordum: rütbe, sonra sabit bir basıklık ve çarpıklık elde etmek için g-ve-h dönüşümünü kullanın. Ancak, bu teknik, tahmin edebileceğim nüfus kurtozisini gerçekten bildiğimi varsayar, ancak felsefi olarak, ne olduğunu bilmeden basıklığı koruyan bir dönüşüm varsa, ilgileniyorum ...
shabbychef

@shabbychef: Oh, o zaman yeni bir şey eklemediğim için üzgünüm. Ancak, yeni bir şey eklediniz, daha önce g-and-h formülünü duymamıştım. Serbestçe erişilebilen bir alıntı var mı? Bir kağıt üzerine tökezledim ( fic.wharton.upenn.edu/fic/papers/02/0225.pdf ) ama fikir benim için biraz yabancı (özellikle e ^ Z ^ g ya da başka bir şey) )? Ben böyle denedim ... ama sonuçlar garip görünüyordu ... a + b * (e ^ g ^ z-1) * (exp ((h * z ^ 2) / 2) / g).
russellpierce

1
@drnexus: Tekniğimden bahsederek sonuçlara ağırlık vermek istemedim. Haynes ve ark.nın g-and-h ve g-and k dağılımlarını öğrendim. al, dx.doi.org/10.1016/S0378-3758(97)00050-5 ve Fisher & Klein, econstor.eu/bitstream/10419/29578/1/614055873.pdf
shabbychef 7:10

1

Akla gelen bir başka ilginç teknik de, bu soruya tam olarak cevap vermese de, bir örneği sabit bir örnek L-çarpıklığına ve örnek L-basıklık (sabit bir ortalama ve L-ölçeği) olacak şekilde dönüştürmektir. Bu dört kısıtlama, sıralama istatistiklerinde doğrusaldır. Dönüşüm monotonikliğini gözlem örneği üzerinde tutmak için başka bir denklemi gerekir. Bu, ikinci dereceden bir optimizasyon problemi olarak ortaya çıkabilir:n - 1 2nn12örnek sipariş istatistikleri ve dönüştürülmüş versiyon arasındaki norm, verilen kısıtlamalara tabidir. Yine de bu bir tür tuhaf yaklaşım. Orijinal soruda daha temel ve temel bir şey arıyordum. Ayrıca dolaylı olarak, bütün bir örnek grubuna sahip olmaktan bağımsız olarak, bireysel gözlemlere uygulanabilecek bir teknik arıyordum.


0

Bu veri kümesini veri dönüşümleri kullanmak yerine leptokurtik dağılım kullanarak modellemeyi tercih ederim. Jones ve Pewsey (2009), Biometrika'nın sinh-arcsinh dağılımını seviyorum.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.