İlişkili normal olmayan veri üretme yöntemi


14

İlişkili, normal olmayan veriler üretmek için bir yöntem bulmakla ilgileniyorum. İdeal olarak, bir kovaryans (veya korelasyon) matrisini parametre olarak alan ve ona yaklaşan veriler üreten bir çeşit dağıtım. Ama işte yakalama: bulmaya çalıştığım yöntem, çok değişkenli çarpıklığını ve / veya basıklığını kontrol etme esnekliğine sahip olmalıdır.

Fleishman'ın yöntemini ve normal değişkenlerin güç yönteminin kullanımını biliyorum, ancak bu uzantıların çoğunun kullanıcıya belirli marjinal çarpıklık ve basıklık kombinasyonlarına izin verdiğine ve çok değişkenli çarpıklık / basıklıkların orada olmasına izin verdiğine inanıyorum . Merak ettiğim şey, bazı korelasyon / kovaryans yapısının yanı sıra çok değişkenli çarpıklığı ve / veya basıklığı belirlemeye yardımcı olan bir yöntem olup olmadığıdır.

Yaklaşık bir yıl önce, kopula dağılımları hakkında bir seminer aldım ve profesör, asma kopulalarının kullanımı yoluyla, kişinin 1-B marjinallerinin her birinde simetrik olan ancak ortaklaşa çarpık ve mengene olan veriler üretebileceğinden bahsettiğini hatırlıyorum. -versa. Daha da ötesi, daha düşük boyutlu kenar boşluklarının, en yüksek boyutları simetrik (veya değil) tutarken bir miktar çarpıklığa veya basıklığa sahip olabileceği. Böyle bir esnekliğin var olabileceği fikrine hayran kaldım, adı geçen yöntemi açıklayan bir tür makale veya konferans kağıdı bulmaya çalışıyordum, ancak başarısız oldum :(. İşe yarayan her şeye açığım.

Düzenleme: Ne demek istediğimi göstermek için bazı R kodu ekledim. Şimdiye kadar sadece Mardia'nın çok değişkenli çarpıklık ve basıklık tanımını çok iyi biliyorum. Sorunuma ilk yaklaştığımda saf bir şekilde, simetrik bir kopula (bu durumda Gaussian) kullanırsam, çarpık marjinallerle (bu örnekte beta), marjinaller üzerinde tek değişkenli testler önem kazanacağını düşündüm ama Mardia'nın multivarit çarpıklık / basıklık testi anlamlı olmamak. Bunu denedim ve beklediğim gibi çıkmadı:

library(copula)
library(psych)
set.seed(101)

cop1 <- {mvdc(normalCopula(c(0.5), dim=2, dispstr="un"), 
            c("beta", "beta"),list(list(shape1=0.5, shape2=5), 
            list(shape1=0.5, shape2=5)))}

            Q1 <- rmvdc(cop1, 1000)
            x1 <- Q1[,1]
            y1 <- Q1[,2]


cop2 <- {mvdc(normalCopula(c(0.5), dim=2, dispstr="un"), 
            c("norm", "norm"),list(list(mean=0, sd=1), 
            list(mean = 0, sd=1)))}

            Q2 <- rmvdc(cop2, 1000)
            x2 <- Q2[,1]
            y2 <- Q2[,2]

mardia(Q1)  

Call: mardia(x = Q1)

Mardia tests of multivariate skew and kurtosis
Use describe(x) the to get univariate tests
n.obs = 1000   num.vars =  2 
b1p =  10.33   skew =  1720.98  with probability =  0
small sample skew =  1729.6  with probability =  0
b2p =  22.59   kurtosis =  57.68  with probability =  0

mardia(Q2)
Call: mardia(x = Q2)

Mardia tests of multivariate skew and kurtosis
Use describe(x) the to get univariate tests
n.obs = 1000   num.vars =  2 
b1p =  0.01   skew =  0.92  with probability =  0.92
 small sample skew =  0.92  with probability =  0.92
b2p =  7.8   kurtosis =  -0.79  with probability =  0.43

'Cop1' VS 'cop2' konturlarının yanı sıra ampirik iki değişkenli yoğunluk çizimlerini inceledikten sonra, bunların hiçbirinin simetrik görünmediğini de görebiliyorum. O zaman bunun muhtemelen düşündüğümden biraz daha karmaşık olduğunu fark ettim.

Mardia'nın çok değişkenli çarpıklığın / basıklığın tek tanımı olmadığını biliyorum, bu yüzden kendimi sadece Mardia'nın tanımlarını tatmin eden bir yöntem bulmakla sınırlamıyorum.

teşekkür ederim!


+1 En ilginç soru. Bu bağlamda 'ortaklaşa eğik' ifadesinin ne anlama geldiği konusunda daha spesifik olabilir misiniz (özellikle iki değişkenli olanı)? Dört çeyrekte bir anlamda "farklı" olan ortak dağılım biçimlerini (araçlara yerleştirilen eksenler hakkında, örneğin) söyleyebilsem de, “müştereken çarpık” ın özellikle neye işaret edebileceğini bilmiyorum.
Glen_b -Reinstate Monica

expXX

Merhaba. soruma ilgi gösterdiğiniz için çok teşekkür ederim. Buraya ilk kez yazıyorum, bu yüzden umarım doğru şeyler yapıyorum. yorum bölümünde daha ayrıntılı olacağım çünkü karakter sınırı, yaptığım şeyi denemek ve iletmek için R kodunu kullanmamı engelliyor
S. Punky

evet, bunu fark ettim ve daha fazla detay ekledim. Bu panonun nasıl kullanılacağı konusunda bana rehberlik etmek için zaman ayırdığınız için teşekkür ederim. Teşekkürler!
S.Punky

" Kendimi sadece Mardia'nın tanımlarını karşılayan bir yöntem bulmakla sınırlamamak " - ne yapmanın yöntemi?
Glen_b-Monica

Yanıtlar:


3

Sonra çok araştırıcı, profesörlerle danışmanlık ve literatür araştırması ÇOK yapıyor, etrafında çevrimiçi forumlar atlama, muhtemelen bu sonuca gelmiş bu sorunu çözmek için tek yol gerçekten asma kapulaların kullanmaktır. P-değişkenli rastgele vektör ve p-1 çift kopula ve kalan p * (p-1) / 2 - ( p-1) boyutlar bir tür koşullu kopulada belirtilebilir.

İnsanların karşılaşabileceği diğer yöntemleri memnuniyetle karşılıyorum ama en azından bu işaretçiyi bir cevaba doğru bırakacağım çünkü hayatım boyunca bunu ele almak için başka yollar bulamıyorum.


2
Bir asma kopula nedir?
Sextus Empiricus

1

Ruscio ve Kaczetow'un (2008) algoritmasını değiştirerek bunu çözebilirsiniz. Kağıtları, gerçek ve amaçlanan marjinal şekiller arasındaki farkı en aza indiren yinelemeli bir algoritma (R kodu ile) sağlar. Bunu, çok değişkenli (marjinal değil) anları hedefleyecek şekilde değiştirebilirsiniz.

Ruscio, J. ve Kaczetow, W. (2008). Yinelemeli bir algoritma kullanarak çok değişkenli normal olmayan verilerin simülasyonu. Çok Değişkenli Davranışsal Araştırma, 43 (3), 355-381. DOI: 10,1080 / 00273170802285693


AMAN TANRIM! TEŞEKKÜR EDERİM! bir an için bu sorunun unutulmayacağına karar verdim
S. Punky

1
iyi ... Ruscio & Kaczetow (2008) makalesini inceledim. ne yazık ki, çok değişkenli 3. ve 4. anlarda iyi çalışmadığı bilinen NORTA (NORmal To Anything) algoritma ailesinin sadece (daha esnek) bir uygulamasıdır. Sanırım bu konuda bir kareye geri döndüm.
S.Punky

0

Diğer özellikler için esnekliğe sahip "klasik" bir şekil matrisine izin veren Genelleştirilmiş Eliptik Dağılımı kontrol etmek isteyebilirsiniz .


Teşekkür ederim! Bu bağlantıyı kontrol ettiğinizden emin olacağım. Şimdi, eliptik dağılımlar simetrik değil mi? Böylece basıklık kontrol altına alınabilir ancak çarpıklık 0'da mı kalmalıdır?
S.Punky

Elbette, ama GE eliptik anlamına gelmez. Bazı çarpık eliptik varyasyonlar için de buradan kontrol edin: stat.tamu.edu/~genton/STAT689/TAMU2009SE.pdf
Quartz

0

Bunu yapmak için, koplaları ve diğer karmaşık tasarımları içermeyen basit bir yöntem geliştirdim. Korkarım ki yöntem son derece etkili gibi görünse de herhangi bir resmi referansım yok.

Fikir basit. 1. Eklem normal dağılımından istediğiniz sayıda değişken çizin. 2. Her değişken için olasılık türetmek üzere değişkenlerin tek değişkenli normal CDF'sini uygulayın. 3. Son olarak, o dağıtımdan çekilişi simüle etmek için herhangi bir dağıtımın ters CDF'sini uygulayın.

Ben 2012 yılında bu yöntem ile geldi ve kullanma gösterdi Stata . Ayrıca R kullanarak aynı yöntemi gösteren son bir yazı yazdım .


(1) "Spearman normal dağılımı" nedir? (2) Varsa, bir CDF ile "normal CDF" arasında ne gibi bir ayrım yapıyorsunuz? (3) Bu yöntemin nasıl herhangi bir korelasyon getirdiğini açıklayabilir misiniz? Korkarım "değişken" ve "dağıtım" genel kullanımları açıklamanızı oldukça belirsiz kılar, bu yüzden gerçekten ne yaptığını söylemek zor. Daha kesin olmak için cevabınızı yeniden yazabilir misiniz?
whuber

Gönderin için teşekkürler! bağlantıları takip ederek yöntem hakkında daha fazla bilgi görebilirsiniz. elde etmeyi umduğum şeyi yapmıyor (yani dağıtımın yüksek dereceli, yüksek boyutlu anlarını kontrol etmek) ama yine de çok değerli bir yaklaşım.
S.Popky

1
Şaşırtıcı olmayan bir şekilde yeni bir yöntem bulamadım: Cario, Marne C. ve Barry L. Nelson. Rastgele vektörlerin keyfi marjinal dağılımlar ve korelasyon matrisi ile modellenmesi ve üretilmesi. Teknik Rapor, Northwestern Üniversitesi, Endüstri Mühendisliği ve Yönetim Bilimleri Bölümü, Evanston, Illinois, 1997. Yahav, Inbal ve Galit Shmueli. "Yönetim bilimi uygulamalarında çok değişkenli poisson verileri oluşturma üzerine." Robert H. Smith Okul Araştırma Raporu No. RHS (2009): 06-085.
Francis Smart

'yeni bir yöntem' olmasa bile, sorumu incelemek ve anlayışlı bir şey eklemek için zaman ayırdığınız için teşekkür ederim.
S. Punky

0

Aşağıdaki makalelerde sunulan yöntemin, ortalama, varyans, çarpıklık ve basıklık gibi herhangi bir (uygulanabilir) kombinasyon ile rastgele çok değişkenli üretim yapılmasına izin verdiğine inanıyorum.

  1. Stanfield, PM, Wilson, JR ve Mirka, GA 1996. Johnson Dağılımları ile Çok Değişkenli Girdi Modellemesi , 1996 Kış Simülasyon Konferansı Bildirileri , eds. Charnes, JM, Morrice, DJ, Brunner, DT ve Swain, JJ, 1457-1464.
  2. Stanfield, PM, Wilson, JR ve King, RE 2004. Ürün yeniden kullanım tesislerinde uygulama ile ilişkili işlem sürelerinin esnek bir şekilde modellenmesi, Uluslararası Üretim Araştırmaları Dergisi , Cilt 42, Sayı 11, 2179-2196.

Yasal Uyarı: Ben değil yazarlarından biri.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.