Korelasyonlu rasgele sayılar nasıl üretilir (verilen araçlar, varyanslar ve korelasyon derecesi)?

53

Bu çok basit görünüyorsa özür dilerim, ama sanırım burada anlayışı onaylamak istiyorum. Bunu iki adımda yapmak zorunda kalacağımı anladım ve korelasyon matrislerini kırmaya çalışmaya başladım, ancak gerçekten işe karışmış gibi görünmeye başladı. İlişkili rasgele sayılar oluşturmak için iyi ve ideal hızlı bir yolun (ideal olarak sahte kod çözümüne yönelik ipuçlarıyla) kısa bir açıklama arıyorum.

Bilinen ortalamalar ve varyanslarla boy ve kilo olarak iki sözderandom değişkeni ve verilen bir korelasyon göz önüne alındığında, temelde bu ikinci adımın nasıl görünmesi gerektiğini anlamaya çalışıyorum:

   height = gaussianPdf(height.mean, height.variance)
   weight = gaussianPdf(correlated_mean(height.mean, correlation_coefficient), 
                        correlated_variance(height.variance, 
                        correlation_coefficient))

İlişkili ortalama ve varyansı nasıl hesaplarım? Ancak bunun gerçekten ilgili sorun olduğunu onaylamak istiyorum.
Matris manipülasyonuna başvurmam gerekir mi? Yoksa bu soruna temel yaklaşımımda çok yanlış bir şey mi var?

— Joseph Weissman
kaynak

1

Seni doğru anladığımdan emin değilim, ama "ilişkili ortalama ve varyans" hesaplamak zorunda değilsin. Değişkenlerin iki değişkenli normal olduğunu varsayıyorsanız, bireysel araçları ve varyansları ve korelasyonu belirtmeniz yeterli olacaktır. Bunun için kullanmak istediğiniz herhangi bir özel yazılım var mı?

— mark999

3

Aşağıdaki Q'lar güçlü bir şekilde ilişkilidir ve ilgi çekici olacaktır: Ondan çıkan bir dağılımı önceden tanımlanmış başka bir dağıtımdan yapılan çizim ile ilişkilendirilecek şekilde nasıl tanımlayabilirim? & Var olan değişkenle tanımlanmış bir korelasyona sahip rastgele bir değişken oluşturun .

— gung - Reinstate Monica

1

Ayrıca: Önceden belirlenmiş bir korelasyon matrisiyle nasıl veri üretebilirim?

— gung - Monica'yı yeniden kurun

44

"Bağlantılı rasgele sayılar üretmenin iyi ve ideal hızlı bir yolu" sorunuzu yanıtlamak için: Tanım olarak pozitif olan istenen bir varyans-kovaryans matrisi göz önüne alındığında , bunun Cholesky ayrışması şöyledir: = ; alt üçgen matris olmak. $C$ $C$ $LL^T$ $L$

Şimdi bu matris yi ilişkisiz bir rastgele değişken vektörü yansıtmak için kullanırsanız, sonuçtaki çıkıntısı korelasyonlu rastgele değişkenlerin olacaktır. $L$ $X$ $Y = LX$

Bunun neden burada olduğuna dair kısa bir açıklama bulabilirsiniz .

— usεr11852 diyor ki Reinstate Monic
kaynak

Teşekkürler! Bu çok yardımcı oldu. Sanırım en azından sonra bakmam gerekenler hakkında daha iyi bir fikrim var.

— Joseph Weissman

7

Bu yöntem yalnızca Gauss dağılımları için geçerli mi (soruda belirtildiği gibi) veya diğer dağılımları takip eden ilişkili değişkenleri üretmek için kullanılabilir mi? Olmazsa, bu durumda kullanılabilecek bir yöntemin farkında mısın?

— user000001

1

@Michael: Evet. Verilen

geçerli bir kovaryans matrisi olduğunu söyleyen Cholesky ayrışması en hızlı yoldur. Ayrıca, kare kökü (simetrik) alabilir

matrisini

SVD kullanılarak (çok

, burada

den

), fakat daha pahalı olacaktır çok.

C

$C$

X

$X$

C

$C$

C = X X = X X^{T}

$C = XX = XX^T$

X = U S^{0.5} V^{T}

$X = U S^{0.5} V^T$

C = U S V^{T}

$C = USV^T$

— usεr11852, Reinstate Monic’in 18: 29’da

1

@Michael: Elbette. Kovaryansları (yaklaşık olarak) aynı olacak, sayıların kendisi değil.

— usεr11852 diyor Reinstate Monic,

1

@Sid: Tüm gerçek hat üzerinde desteklenmeyen herhangi bir sürekli dağıtım derhal başarısız olur. Bir uniform kullanın, örneğin

biz "ilişkili sayılar" olacağını garanti edemez

; Benzer şekilde Poisson için ayrık olmayan sayılarla sonuçlanacaktır. Buna ek olarak, dağılımları toplamı yine aynı dağıtım olmayan herhangi bir dağılımı (ör. Toplanmasıyla

sonuçlanmaz -Dağıtım

dağıtımı:) de başarısız olur. Belirtilen tüm durumlarda, üretilen sayılar ilişkili olacaktır göre

U [0, 1]

$U[0,1]$

[0, 1]

$[0,1]$

t

$t$

t

$t$

C

$C$ fakat başlattığımız dağıtıma karşılık gelmeyeceklerdir.

— usεr11852 diyor Reinstate Monic

36

+1 ila @ user11852 ve @ jem77bfp, bunlar iyi cevaplardır. Buna farklı bir bakış açısıyla yaklaşmama izin verin , pratikte mutlaka daha iyi olduğunu düşündüğüm için değil, öğretici olduğunu düşündüğüm için. İşte zaten bildiğimiz birkaç ilgili gerçek:

Her iki regresyon çizgisinin eğimi olan ve olanstandartyani, , $r$ $X$ $Y$ $\mathcal N(0,1)$
varyans oranı olan varyansın atfedilebilir , $r^2$ $Y$ $X$

(ayrıca, varyans kurallarından ):
Bir sabit ile çarpılan rastgele bir değişkenin varyansı, orijinal varyansın sabit kare çarpımıdır :
$Var [a X] = a^{2} Var [X]$ $\text{Var}[aX]=a^2\text{Var}[X]$
varyanslar eklemek iki varyans toplamıdır yani iki rastgele değişkenlerin toplamı varyans (bunlar bağımsız varsayılarak):
$Var [X + ε] = Var [X] + Var [ε]$ $\text{Var}[X+\varepsilon]=\text{Var}[X]+\text{Var}[\varepsilon]$

Şimdi, bu dört gerçeği, popülasyonları belirli bir korelasyona sahip olacak iki normal normal değişken oluşturmak için birleştirebiliriz , (daha doğru, ), ancak ürettiğiniz örnekler değişken örnek korelasyonlara sahip olsa da. Fikri yalancı rasgele bir değişken oluşturmak için olan standart normal, , ve daha sonra bir katsayı bulmak ve bir hata varyans, , bu şekilde , burada $r$ $\rho$ $X$ $\mathcal N(0,1)$ $a$ $v_e$ $Y \sim\mathcal N(0,a^2+v_e)$ . (Bunun çalışması için olması gerektiğinive dahası, .) Böylece, istediğiniz ile başlarsınız; bu senin katsayın, . O zaman ihtiyacınız olacak hata varyansı anlamaya, bu kadar . (Yazılım standart sapması kullanmanızı gerektiriyorsa, bu değerin karekökünü alır.) Son olarak, her yalancı rasgele değişkenin, için , oluşturulan oldukları bir yalancı rasgele hata değişken oluşturmak $a^2+v_e=1$ $|a|$ $\le 1$ $a=r$ $r$ $a$ $1-r^2$ $x_i$ $e_i$ Uygun hata varyans ile , korelasyon yalancı rasgele değişken, hesaplamak ve , çoğalarak ekleyerek. $v_e$ $y_i$

Bunu R'de yapmak istiyorsanız, aşağıdaki kod sizin için işe yarayabilir:

correlatedValue = function(x, r){
  r2 = r**2
  ve = 1-r2
  SD = sqrt(ve)
  e  = rnorm(length(x), mean=0, sd=SD)
  y  = r*x + e
  return(y)
}

set.seed(5)
x = rnorm(10000)
y = correlatedValue(x=x, r=.5)

cor(x,y)
[1] 0.4945964

(Düzenleme: Söylemeyi unuttum :) Açıkladığım gibi, bu prosedür size iki standart normal korelasyonlu değişken verir. Standart normaller istemiyorsanız , ancak değişkenlerin bazı özel araçlara (0 değil) ve SD'lere (1 değil) sahip olmasını istiyorsanız, korelasyonu etkilemeden bunları dönüştürebilirsiniz. Böylece, ortalamanın tam olarak olmasını sağlamak için gözlemlenen ortalamayı çıkarır, değişkeni istediğiniz SD ile çarpın ve ardından istediğiniz ortalamayı ekleyin. Gözlemlenen ortalamanın istenen ortalamanın etrafında normal olarak dalgalanmasını istiyorsanız, ilk farkı geri ekleyeceksiniz. Temel olarak, bu tersine bir z-puanı dönüşümüdür. Bu doğrusal bir dönüşüm olduğundan, dönüştürülen değişken önceki değişkenle aynı korelasyona sahip olacaktır. $0$

Yine, bu, en basit haliyle, sadece bir çift korelasyonlu değişken oluşturmanıza izin verir (bu ölçeklendirilebilir, ancak çirkin hızlı olur) ve kesinlikle işi yapmanın en uygun yolu değildir. Ar, kullanmak isteyeyim ? Mvrnorm içinde KİTLE daha kolay hem çünkü paketin ve belirli bir nüfus korelasyon matris ile birçok değişken oluşturabilir çünkü. Bununla birlikte, bazı temel prensiplerin basit bir şekilde nasıl yürüdüğünü görmek için bu süreçten geçmenin faydası olduğunu düşünüyorum.

— dediklerinin - Monica Reinstate
kaynak

Bu esasen regresyonel yaklaşım, herhangi bir mevcut X "öngörücüsüyle" ilişkili bir rasgele Y üretmesine izin vermek özellikle güzeldir . Böyle bir anlayışta haklı mıyım?

— ttnphns

İstediğiniz değişkenler arasında tam olarak hangi korelasyon modeline bağlı olduğuna, @ttnphns. Bunu birbiri ardına yineleyebilirsiniz, ancak sıkıcı olur. Belirli bir düzende çok sayıda ilişkili değişken oluşturmak için, Cholesky ayrıştırmasını kullanmak daha iyidir.

— gung - Reinstate Monica

Cholesky'yi, birkaç mevcut (simüle edilmemiş) Xs ile bir korelasyon vektörüne göre korelasyonlu bir Y üretmek için (yaklaşık olarak metodunuzda olduğu gibi) nasıl kullanacağınızı biliyor musunuz ?

— ttnphns

@ ttnphns, önceden belirlenmiş bir popülasyon korelasyonu olan bir dizi p değişkeni değil, bir X kümesiyle birlikte verilen bir popülasyon korelasyonu oluşturmak ister misiniz? Basit bir yol, X'inizden tek bir Y-şapka üretmek için bir regresyon denklemi yazmak, ardından Y-şapkanızın bir korelasyonu olarak Y üretmek için yukarıdaki yöntemi kullanmak olacaktır. İsterseniz, bunun hakkında yeni bir soru sorabilirsiniz.

— gung - Reinstate Monica

1

İlk yorumumda kastettiğim şuydu: bu yöntem, cevabınızda konuştuğunuz şeyin doğrudan bir uzantısıdır: esasen regressional (Hat) yöntemi.

— ttnphns

16

Genel olarak bu değil basit bir şey yapmak ama için paketler olduğuna inanıyorum değişkenli normal değişken nesil (en azından R, bakınız mvrnormde MASSpakete), burada sadece girdi bir kovaryans matrisi ve ortalama vektörü.

Ayrıca bir tane daha "yapıcı" yaklaşım var. Diyelim ki rastgele bir vektörü modellemek istiyoruz ve dağılım fonksiyonunu alıyoruz . İlk adım, marjinal dağılım fonksiyonunu elde etmektir; yani, tüm entegre edin : $(X_1,X_2)$ $F(x_1,x_2)$ $F$ $x_2$ Sonra - ters fonksiyonunubuluruz- ve aralığında eşit bir şekilde dağıtılmış olanrastgele bir değişkende fişe takın. Bu adımda, ilk koordinat oluşturmak .

F_{X_{1}} (x_{1}) = \int_{- \infty}^{\infty} F (x_{1}, x_{2}) d x_{2} .

$F_{X_1}(x_1)= \int_{-\infty}^{\infty} F(x_1,x_2)dx_2.$

F_{X_{1}}^{- 1}

$F^{-1}_{X_1}$

F_{X_{1}}

$F_{X_1}$

ξ_{1}

$\xi_1$

[0, 1]

$[0,1]$

{\hat{x}}_{1} = F_{X_{1}}^{- 1} (ξ)

$\hat{x}_1=F^{-1}_{X_1}(\xi)$

Şimdi, bir koordinatımız olduğuna göre, ilk dağıtım fonksiyonumuza ve ardından koşulu ile bir koşullu dağılım fonksiyonu olsun : $F(x_1,x_2)$ $x_1=\hat{x}_1$ buradamarjinal bir olasılık yoğunluk fonksiyonu olandağılımı; yani,.

F (x_{2} | X_{1} = {\hat{x}}_{1}) = \frac{F ({\hat{x}}_{1}, x_{2})}{f_{X_{1}} ({\hat{x}}_{1})},

$F(x_2 | X_1=\hat{x}_1)= \frac{F(\hat{x}_1,x_2)}{f_{X_1}(\hat{x}_1)},$

f_{X_{1}}

$f_{X_1}$

X_{1}

$X_1$

F_{X_{1}}^{'} (x_{1}) = f_{X_{1}} (x_{1})

$F'_{X_1}(x_1)=f_{X_1}(x_1)$

Daha sonra tekrar aynı oranda dağılmış değişken oluşturmak ile (bağımsız bir ) ve tersine olarak takın $\xi_2$ $[0,1]$ $\xi_1$ $F(x_2 | X_1=\hat{x}_1)$ $\hat{x}_2=(F(x_2 | X_1=\hat{x}_1))^{-1}(\xi)$ $\hat x_2$ $F(\hat x_2 | X_1=\hat{x}_1) = \xi$

Düzgün bir değişkeni ters olasılık dağılım fonksiyonuna sokmanın anlamını anlamıyorsanız, tek değişkenli durumun bir taslağını çizmeye çalışın ve sonra ters fonksiyonun geometrik yorumunun ne olduğunu hatırlayın.

— jem77bfp
kaynak

Akıllıca fikir! Basit sezgisel çekiciliği vardır. Fakat evet, hesaplama açısından pahalı görünüyor.

— MichaelChirico

f_{X, Y} (x, y) = f_{X} (x) \cdot f_{Y | X} (y)

$f_{X,Y}(x,y)=f_X(x)\cdot f_{Y|X}(y)$

1

Verimliliğinden vazgeçmeye hazırsanız, bir çöpe atılan alogoritmi kullanabilirsiniz. Avantajı, her türlü dağıtıma izin vermesidir (yalnızca Gauss dili değil).

İlişkisiz iki rasgele sayı dizisi oluşturarak başlayın $\{x_i\}_{i=1}^N$ $\{y_i\}_{i=1}^N$ $C$

$c_{old}=corr(\{x_i\},\{y_i\})$

$n_1$ $n_2: 1 \leq n_{1,2} \leq N$

$x_{n_1}$ $x_{n_2}$

$c_{new}=corr( \{x_i\},\{y_i\})$

$|C-c_{new}| < |C-c_{old}|$

$|C-c| < \epsilon$

${x_i}$

İyi şanslar!

— F. Jatpil
kaynak

x_{i}

$x_i$

c o r r (x_{i}, y_{i})

$corr(x_i, y_i)$

x_{i}

$x_i$

{x_{i}}

$\{x_i\}$

y

$y$

c o r r (x_{i}, y_{i})

$corr(x_i,y_i)$

c o r r ({x_{i}}, {y_{i}}) = (1 / N) Σ_{i = 1}^{N} (x_{i} - \bar{x}) (y_{y} - \bar{y})

$corr(\{x_i\},\{y_i\}) = (1/N) \Sigma_{i=1}^{N}(x_i- \bar x)(y_y - \bar y)$

Görüyorum, çok mantıklı. I "yok

" içinde

{}

$\{ \}$

c o r r ({x_{i}}, {y_{i}})

$corr(\{x_i\}, \{y_i\})$