özet
Sorudaki her ifade elipslerin bir özelliği olarak anlaşılabilir. Sadece gerekli olan iki değişkenli normal dağılıma özellikle tesisinde de gerçektir standart iki değişkenli normal dağılım burada Bora'nın ve koşullu varyans - ilintisizX YX,YXY bağlı değildir , X . (Bu da korelasyon eksikliğinin ortak Normal değişkenler için bağımsızlık anlamına gelmesinin hemen bir sonucudur.)YX
Aşağıdaki analiz, elipslerin hangi özelliklerinin dahil olduğunu ve temel fikirleri ve mümkün olan en basit aritmetiği kullanarak kolayca hatırlanması amaçlanan bir sorunun tüm denklemlerini türetdiğini göstermektedir.
Dairesel simetrik dağılımlar
Sorunun dağılımı iki değişkenli Normal dağılım ailesinin bir üyesidir. Hepsi, birbiriyle ilişkili olmayan iki standart Normal dağılımını (iki koordinatını oluşturan) tanımlayan standart iki değişkenli Normal bir temel üyeden türetilir .
Sol taraf, standart iki değişkenli normal yoğunlukta bir kabartma çizimdir. Sağ taraf, ön kısmı dilimlenmiş halde, sözde 3D'de aynı gösterir.
Bu, dairesel olarak simetrik bir dağılım örneğidir : yoğunluk, bir merkezi noktadan olan mesafeye göre değişir, ancak o noktadan uzaklaşmayacak şekilde değişir. Böylece grafiğinin dış çizgileri (sağda) dairelerdir.
Diğer iki değişkenli Normal dağılımlar dairesel olarak simetrik değildir, ancak: kesitleri elipslerdir. Bu elipsler, iki değişkenli nokta bulutlarının karakteristik şeklini modellemektedir.
Bunlar, iki değişkenli normal dağılımların kovaryans matrisiyle Bu korelasyon katsayısı ile veri için bir modeldir-2/3.Σ=(1−23−231).−2/3
Elips Nasıl Oluşturulur
Bir elips - en eski tanımına göre - bir çıkıntı tarafından başka bir düzleme çarpıtılmış bir daire olan konik bir bölümdür. Projeksiyonun doğasını göz önünde bulundurarak, tıpkı görsel sanatçıların yaptığı gibi, onu anlamak ve hesaplanması kolay bir çarpıtma dizisine ayırabiliriz.
İlk önce, elipsin uzun ekseni olacak şekilde, doğru uzunlukta olana kadar daireyi gerin (veya gerekirse sıkıştırın):
Daha sonra, bu elipsin küçük ekseni boyunca sıkıştırın (veya uzatın):
Üçüncüsü, merkezini çevresinde son oryantasyonuna çevirin:
Son olarak, istediğiniz konuma kaydırın:
Bunların hepsi afin dönüşümleri. (Aslında, ilk üçü doğrusal dönüşümlerdir ; son kayma onu affetir.) Afin dönüşümlerinin bir bileşimi (tanım gereği) hala afed olduğundan, daireden son elipsin net bozulması bir afin dönüşümüdür. Ancak biraz karmaşık olabilir:
Elipsin (doğal) eksenlerine ne olduğuna dikkat edin: kayma ve sıkma ile yaratıldıktan sonra (tabii ki) eksenin kendisiyle birlikte döndürülerek kaydırıldılar. Çizili olmadıklarında bile bu eksenleri kolayca görüyoruz çünkü elipsin simetri eksenleridir.
Elipsler anlayışımızı, iki değişkenli Normal aile gibi çarpık dairesel simetrik dağılımları anlamada uygulamak istiyoruz. Maalesef, bu çarpıtmalarda bir sorun var : ve y eksenleri arasındaki farka uymuyorlar. 3. adımdaki dönüş bunu mahveder. Zayıf bak arka ızgaraları koordinat örgü (a ızgaraya ne bu göstermek 1 / 2xy1/2her iki yöne de olsa). İlk görüntüde, orijinal dikey çizgiler (gösterilen katı) arasındaki boşluk iki katına çıkar. İkinci görüntüde, orijinal yatay çizgiler (aralıklı gösterilen) arasındaki boşluk üçte bir oranında küçülür. Üçüncü resimde, ızgara boşlukları değişmez, ancak tüm çizgiler döndürülür. Dördüncü görüntüde yukarı ve sağa kayarlar. Ağ sonucunu gösteren son görüntü, bu gerilmiş, sıkılmış, döndürülmüş, kaydırılmış ızgarayı görüntüler. Sabit koordinatının orijinal kesintisiz çizgileri artık dikey değildir.x
Anahtar fikir --one öyle söylemek girişim olabilir regresyon püf noktası - daire elips içine bozuk edilebileceği bir yolu var olmasıdır dikey çizgiler dönen olmadan . Dönme suçlu olduğu için, kovalamacayı keselim ve hiçbir şeyi döndürmek için görünmeden döndürülmüş bir elipsin nasıl oluşturulduğunu gösterelim !
Bu bir çarpıklık dönüşümüdür. Aslında aynı anda iki şey yapar:
yönünde sıkar ( λ miktarıyla ). Bu, x- eksenini yalnız bırakır .yλx
Ortaya çıkan herhangi bir noktayı x ile doğrudan orantılı bir miktarda kaldırır . Bu orantılılık sabitini ρ olarak yazarak , ( x , y ) ' ye ( x , y + ρ x ) gönderir .(x,y)xρ(x,y)(x,y+ρx)
İkinci adım, eksenini önceki şekilde gösterilen y = ρ x çizgisine yükseltir . Bu şekilde gösterildiği gibi, elipsi 45 derece döndüren ve birim kareye yazan özel bir çarpıklık dönüşümü ile çalışmak istiyorum. Bu elipsin ana ekseni, y = x çizgisidir . Bu görsel olarak belirgindir | ρ | ≤ 1 . (Negatif değerler p'ye aşağı sağa doğru ziyade up elips eğin.) Bu geometrik açıklama "demek için regresyon."xy=ρxy=x|ρ|≤1ρ
45 derecelik bir açı seçmek, elipsin karenin köşegeninin çevresinde ( çizgisinin bir kısmı) simetrik olmasını sağlar . Bu çarpıklık dönüşümünün parametrelerini bulmak için, aşağıdakilere dikkat edin:y=x
kaldırma , noktası ( 1 , 0 ) ila ( 1 , ρ ) arasında taşır .ρx(1,0)(1,ρ)
Ana diyagonal etrafındaki simetri daha sonra elipsin üzerinde de durduğu noktasını ima eder .(ρ,1)
Bu nokta nerede başladı?
Birim çember üzerinde orijinal (üst) noktası (sahip kapalı denklemi ) ile x koordinatı ρ idi ( p , √x2+y2=1xρ.(ρ,1−ρ2−−−−−√)
Formun herhangi bir noktası ilk önce ( ρ , λ y ) sıkılmış ve sonra ( ρ , λ y + ρ × ρ ) 'ya yükseltilmiştir .(ρ,y)(ρ,λy)(ρ,λy+ρ×ρ)
Denklem için benzersiz çözüm olupλ= √(ρ,λ1−ρ2−−−−−√+ρ2)=(ρ,1) . Dikey doğrultuda tüm mesafelerinρ iledikey olarakbüküldüğüzaman 45 derecelik açıyla bir elips oluşturmak için sıkıştırılması gereken miktar budur.λ=1−ρ2−−−−−√ρ
Bu fikirleri sağlamlaştırmak için , burada dairesel bir simetrik dağılımın bu çarpık dönüşümler aracılığıyla eliptik kontürlerle dağılımlara nasıl çarpıştığını gösteren bir tablodur. Paneller değerleri göstermektedir kadar eşit 0 , 3 / 10 , 6 / 10 , ve 9 / 10 , soldan sağa doğru.ρ0, 3/10, 6/10,9/10,
En soldaki şekil, dairesel konturların birinin yanı sıra yatay eksenin bir kısmı etrafında bir başlangıç noktaları kümesi gösterir. Sonraki rakamlar, bu noktaların nasıl hareket ettiğini göstermek için okları kullanır. Yatay eksenin görüntüsü eğimli bir çizgi parçası olarak görünür ( eğim ile ). (Renkler farklı şekillerde farklı yoğunluk miktarlarını temsil eder.)ρ
Uygulama
Regresyon yapmaya hazırız. Regresyonun gerçekleştirilmesi için standart, zarif (henüz basit) bir yöntem ilk önce orijinal değişkenleri yeni ölçüm birimlerinde ifade etmektir: biz onları kendi araçlarına göre merkezleriz ve standart sapmalarını birim olarak kullanırız. Bu, dağılımın merkezini orijine kaydırır ve tüm eliptik konturlarını 45 derece (yukarı veya aşağı) eğik yapar.
Bu standardize edilmiş veriler dairesel bir nokta bulutu oluşturduğunda, regresyon kolaydır: koşullu olduğu araçların hepsi 0'dır , kökeninden geçen bir çizgi oluşturur. (Dairesel simetri, x koşuluna göre simetriyi ifade eder , tüm koşullu dağılımların simetrik olduğunu gösterir, bu nedenle 0 araca sahiptirler.) Görüldüğü gibi, standartlaştırılmış dağılımı bu basit basit durumdan kaynaklanan iki adımda görebiliriz: ilk tüm (standartlaştırılmış) y değerleri √ ile çarpılır.x0x0y arasında bir değeri içinp'ye; daha sonra,x-koordinatlıtüm değerlerdikey olarakρx ileçarpıtılır. Bu çarpıtmalar regresyon çizgisine ne yaptı (koşullu araçlarıx'ekarşıçizer)?1−ρ2−−−−−√ρxρxx
koordinatlarının daralması, tüm dikey sapmaları sabitle çarptı. Bu sadece dikey ölçeği değiştirdi ve tüm koşullu araçları 0'da değiştirilmedi .y0
Dikey eğriltme dönüşüm ilave tüm koşullu değerlere x ve böylece ekleme ρ x eğrisi: kendi koşullu ortalama için y = ρ X bir çizgi olduğu ortaya çıkıyor olan regresyon eğrisi.ρxxρxy=ρx
Benzer şekilde, ekseninin dairesel simetrik dağılıma en küçük kareler olduğu için, dönüştürülmüş dağılıma en küçük karelerin de y = ρ x : en küçük kareler çizgisinin regresyon çizgisine denk geldiğini doğrulayabiliriz .xy=ρx
Bu güzel sonuçlar, dikey eğriltme dönüşümünün herhangi bir x koordinatını değiştirmemesinin bir sonucudur .x
Kolayca daha fazlasını söyleyebiliriz:
Gösterir (küçülmez) ilk madde olduğu zaman sahip bir dairesel simetrik dağılımı, Koşullu varyans Y | X ile çarpıldı ( √(X,Y)Y|X.(1−ρ2−−−−−√)2=1−ρ2
Daha genel olarak: dikey eğriltme dönüşüm her koşullu dağılımı yeniden ölçeklendirilir ve ardından yeni gelenlerρx ile.1−ρ2−−−−−√ρx
1x1−ρ2
ρΣXYXYXY(X,Y)
ε=Y−ρX
ε0Y0ρXρX
xρ=−1/2
sonuç olarak
E(XY)=E(X(ρX+ε))=ρE(X2)+E(Xε)=ρ(1)+0=ρ.
X1XεX(−ε)ε0
ρXY
Sonuçlar
x(X,Y)xyμxμyσxσy
(μx,μy)
{(x,ρx)},
ρσyρ/σx
Sonuç olarak, regresyon çizgisinin denklemi
y=σyρσx(x−μx)+μy.
- Y|Xσ2y(1−ρ2)Y′|X′(X′,Y′)X′=(X−μX)/σxY′=(Y−μY)/σY
Y′|X′1
- Σσ11=σ2x, σ12=σ21=ρσxσy,σ22=σ2y,Y|X
σ2y(1−ρ2)=σ22(1−(σ12σ11σ22−−−−−√)2)=σ22−σ212σ11.
Teknik Notlar
y
(1ρρ1)=AA′
nerede
A=(1ρ01−ρ2−−−−−√).
Çok daha iyi bilinen bir karekök başlangıçta tarif edilen (bir çarpık dönüşüm yerine bir döndürme içeren); tekil bir değer ayrışması tarafından üretilen ve temel bileşen analizinde (PCA) belirgin bir rol oynar:
(1ρρ1)=BB′;
B=Q(ρ+1−−−−√001−ρ−−−−√)Q′
Q=⎛⎝12√12√−12√12√⎞⎠45
Bu nedenle, PCA ve regresyon arasındaki fark, korelasyon matrisinin iki özel kare kökü arasındaki farka iner.