Sıralı ve sürekli rasgele değişken arasındaki ilişkinin parametrik olmayan ölçüsü


12

Sorunu aldığım gibi buraya atıyorum.

İki rastgele değişkenim var. Bunlardan biri sürekli (Y) diğeri ayrık olan ve sıra (X) olarak yaklaşılacaktır . Sorgu ile birlikte aldığım arsanın altına koydum.

resim açıklamasını buraya girin

Bana veri gönderen kişi , X ve Y arasındaki ilişkinin gücünü ölçmek istiyor. Verileri hangi işlemin ürettiği hakkında varsayımlarla öne çıkmayacak fikirler arıyorum. Bunun, ilişkinin gücünü (bootstrap'ta olduğu gibi) test etmek için parametrik olmayan bir yol bulmakla değil, onu ölçmek için parametrik olmayan bir yol bulmakla ilgili olduğunu unutmayın.

Öte yandan, çok fazla veri noktası olduğundan verimlilik bir sorun değildir.


1
X (ayrık değişken) sıralı mı değil mi?
Peter Flom

@PeterFlom: Teşekkürler. Evet. Bunu soruya ekliyorum.
user603

Burada "parametrik olmayan" ile, ortalama veya varyansın hesaplanmasına izin verilmediğini mi kastediyorsunuz?
ttnphns

Yanıtlar:


8

Tanım olarak, sıra ölçeği çentikler arasındaki gerçek mesafelerin 1 2 3 4bilinmediği ölçüdür . Sanki uyuşturucu / alkol altında bir cetvel görüyorsunuz. Gerçek mesafeler herhangi biri olabilir. Olabilir 1 2 3 4ya 1 2 3 4da her neyse. Mesafelere karar vermedikçe, bir istatistik - korelasyon gibi - hesaplayamayız.

Bir akıl yürütme aşağıdaki gibi olabilir. Ölçüm ölçeğimiz, gösterge, bilinmeyen bir monotonik yolla çarpıtılmış olduğundan, veri değerlerine inanamayız. Sadece büyüklüklerinin sırası güvenilirdir. Beynin daha fazla koşum takımı olmadan, siparişin değer olduğunu beyan edin. Böylece, gözlenen dağılımı, üniform dağılım, rütbeler ile değiştiriyoruz . Bundan sonra, dernek katsayısını hesaplayabilir, örneğin Pearson . Bildiğimiz gibi bu Spearman olacak . Pearson , doğrusal ilişkinin gücünü ölçer. Değişkenlerin sıralanması, monotonik ilişkinin başlangıçta düzgün olmayan dağılımlara atfedilen kısmını doğrusallaştırmak için bir hileydi. Böylece, Spearmanrrhorrhomarjinal dağılımları üniformlaştırma eylemi altında doğrusallığa dönüştürülebilen ilişkide bu tür tekdüzeliğin ölçüsüdür. OP sorusunda, iki değişkenden sadece biri sıralıdır (ve ikincisi süreklidir). Dolayısıyla, genel olarak her iki değişkeni de sıralamaya gerek yoktur . Sıralı olanı sıralayabilir ve sonra hesaplayabilir .r

Sıralamaya (üniformaya) alternatif olarak başka bir yaklaşım , sıra değişkeninin optimum ölçeklendirmesi olabilir . Optimal ölçeklendirme, sıralı ölçekte bu mesafeleri bulmak - yani bunun monotonik dönüşümünü bulmak - böylece değişkenler arasındaki doğrusal mümkün olan en üst düzeye çıkarılmasını amaçlayan yinelemeli bir prosedürdür . Sıralama yaklaşımı öncül "gerçek ölçek eşit dağılımlı verilere karşılık gelir", optimal ölçeklendirme yaklaşımı öncül "temel ölçeğe dayanır" gerçek ölçek maksimum doğrusal olan verilere karşılık gelirrr". En iyi ölçekleme kategorik regresyonda (CATREG) yapılabilir. Ancak, kategorik regresyon, diğer girdi değişkeninin ayrık (zorunlu olarak sıralı olmayan) olmasını gerektirir ve bu yüzden sürekli olarak birçok benzersiz değere sahipse, sizin tarafınızdan keyfi olarak ikiye ayrılmalıdır. .

Başka yaklaşımlar da var. Ama herhangi bir şekilde, ordinal ölçeği monoton olarak "öyleyse ..." (bir miktar varsayım veya bir hedef) olarak dönüştürüyoruz, çünkü ordinal ölçek bize bilinmeyen bir şekilde çarpıtıyor. Radikal olarak başka bir karar ilk önce "ayıklanmak" ve ya bozulmadığına (yani aralıklı) ya da bilinen bir şekilde çarpıtılmayacağına (noquiinterval) ya da nominal olduğuna karar vermek olacaktır.

Bazı asimetrik yaklaşımlar, ordinal değişkenin diğeriyle (aralık / sürekli) ordinal regresyonu içerebilir. Ya da ikincisinin sıralı regresyon ile doğrusal regresyonu, yordayıcının polinom kontrastı olarak alındığı modelle (yani, olarak girilir b1X + b2X^2 + b3X^3,...). Bu yaklaşımların zayıflığı asimetrik olmalarıdır: bir değişken bağımlı, diğeri bağımsızdır.


Teşekkürler; çok iyi bir fikir, değişkenlerden sadece biri üzerindeki saflarını hesaplamak.
user603

6

Spearman'ın rütbe-sıra korelasyon katsayısının (parametrik olmayan monotonik birliktelik ölçüsü ) yeterli olmamasının bir nedeni var mı ? Tekdüzelik çok "önden yüklendi mi?" Bu farklılıklara dayanıyor ( ) bağımsız oluşturulan saflarında ( ve ) Değişkenleriniz için:di=xiyixiyi

rS=16i=1ndi2n(n21)

Monotonluk ise edilmektedir da bir varsayım sıkı yaklaştığında, ben böyle bile düşünmeyin Reshef (2011, 2013) tarafından önerilen bu gibi maksimal bilgilere dayanarak acaba fonksiyonel arasındaki ilişkileri ve senin ne çizgisinde fazla olabilir aramak?XY


Referanslar

Reshef, D., Reshef, Y., Finucane, H., Grossman, S., McVean, G., Turnbaugh, P., Lander, E., Mitzenmacher, M. ve Sabeti, P. (2011). Büyük veri kümelerinde yeni ilişkilendirmeleri algılama. Science , 334 (6062): 1518–1524.

Reshef, D., Reshef, Y., Mitzenmacher, M. ve Sabeti, P. (2013). Karşılaştırma ile maksimum bilgi katsayısının eşitlik analizi . arXiv , 14 Ağustos.


Her ikisi de çok iyi fikirlere benziyor. Aslında, önerdiğiniz iki yaklaşım birbirini tamamlar . Soruyu biraz açık bırakacağım.
user603
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.