Düzlemdeki bir numunenin medyanı için kabul edilmiş bir tanım var mı yoksa daha yüksek sıralı alanlar var mı?


Yanıtlar:


19

Çok değişkenli bir medyan için kabul edilmiş bir tanım olduğundan emin değilim. Tanıdığım tek şey , Oja'nın ortanca noktasıdır ; bu, nokta alt kümeleri üzerinde oluşturulan basitlik hacimlerinin toplamını en aza indirir. (Teknik tanım için bağlantıya bakınız.)

Güncelleme: Yukarıdaki Oja tanımı için başvurulan site aynı zamanda çok değişkenli bir medyan tanımını kapsayan hoş bir makaleye sahiptir:


1
Güzel referans: teşekkürler. Kapsamlı bir şekilde burada belirtilen her şeyi kapsar.
whuber

Aynı web sitesi ayrıca html'de
Aditya

15

As @Ars söyledi hayır yoktur tanımını kabul (ve bu iyi bir nokta) vardır. Üzerinde kantilleri genelleme yollarından genel alternatifleri ailesi vardır , ben en önemli olduğunu düşünüyorum:Rd

  • Miktarsal işlem genelleme Let deneysel ölçüm (= gözlem oranını olmak A ). Daha sonra, ile A içinde Borel kümeleri iyi seçilmiş bir alt kümesi, R d ve λ gerçek değerli bir tedbir, ampirik miktarsal fonksiyonunu tanımlayabiliriz:Pn(A)AARdλ

    Un(t)=inf(λ(A):Pn(A)tAA)

    Size en az değeri veren bir bulabildiğinizi varsayalım . Ardından grubu (veya setin unsuru) A 1 / 2 - εA 1 / 2 + ε size ortancasını verir ε küçük yeterince yapılır. A = ( ] - , x ] x R ) ve λ ( ] - , x ] ) = x kullanılırken medyan tanımı kurtarılır . ArsAtA1/2ϵA1/2+ϵϵA=(],x]xR)λ(],x])=xCevap herhalde bu çerçeve içine düşer ... Tukey yarım alan konum kullanılarak elde edilebilir ve λ ( lH x ) = X ile ( x R , bir R d ).A(a)=(Hx=(tRd:a,tx)λ(Hx)=xxRaRd

  • Varyasyon tanımı ve M-kestirim Fikir burada olmasıdır -quantile Q a rastgele değişkenin Y'nin de R bir varyasyon eşitlik ile tanımlanabilir.αQαYR

    • En yaygın tanımı kullanarak dilim regresyon fonksiyonu (aynı zamanda tilt kaybı olarak bilinen tahmin neden?) S α = bir r gr inf x R e [ p, α ( Y - X ) ] . Durumda α = 1 / 2 verir ρ 1 / 2 ( y ) = | y | ve l kullanarak daha yüksek boyutta genelleştirebilirsiniz 1ραQα=arginfxRE[ρα(Yx)]α=1/2ρ1/2(y)=|y|l1@Srikant Cevap içinde yapılan mesafeler . Bu teorik medyandır, ancak beklentiyi ampirik beklenti yerine koymanız durumunda size ampirik medyan verir (ortalama).

    • Ancak Kolshinskii yana Legendre-Fenchel dönüşümü kullanılmasını önermektedir burada f ( s ) = 1Qα=Argsups(sαf(s))içins-R. Bunun için çok derin sebepler veriyor (gazeteye bakınız;). Yüksek boyutlara bu yaygınlaştırılması vektörel çalışma gerektirenave değiştirilmesisagöres,aancak sunarα=(1/2,...,1/2).f(s)=12E[|sY||Y|+s]sRαsαs,αα=(1/2,,1/2)

  • Kısmi sipariş Siz quantiles tanımını genelleme yapabiliriz sen (denklik sınıfları ile) kısmi talimatı oluşturmak bulmaz.Rd

Açıkçası, farklı formülasyonlar arasında köprüler var. Hepsi belli değil ...


Güzel cevap, Robin!
ars

12

Medyan kavramını daha yüksek boyutlara genelleştirmenin farklı yolları vardır. Henüz bahsedilmemiş, ancak uzun zaman önce önerilen bir dışbükey gövde inşa etmek, onu soymak ve mümkün olduğu kadar tekrarlamak: son gövdede kalan, tüm aday olan bir takım noktalar. " medians."

“Kafa vurmak” , 2B nokta bulutuna sağlam bir merkez inşa etme girişimidir (yaklaşık 1980). (Bağlantı, ABD Ulusal Kanser Enstitüsünde mevcut olan belgeler ve yazılımlarla ilgilidir.)

Birden fazla farklı genellemenin olmasının ve açık bir çözüm bulunmamasının ana nedeni, R1'in sipariş edilebiliyor olmasıdır, ancak R2, R3, ... olamaz.


Any measure that coincides with the usual median when restricted to R1 is a candidate generalization. There must be a lot of them.
phv3773

phv:> one can ask for 'the' generalization to preserve (in higher dimensions) some of the interesting properties of the median. This severly limits the number of candidates (see the commenting after Srikant's answer below)
user603

@Whuber:> then notion of ordering can be generalized to R^n for unimodal distributions (see my answer below).
user603

@kwak: could you elaborate a little? The usual mathematical definition of an ordering of a space is independent of any kind of probability distribution, so you must implicitly have some additional assumptions in mind.
whuber

1
@Whuber:> You state: "R1 can be ordered but R2, R3, ... cannot be". R2,..,R3 can be ordered in many ways by mapping from Rn to R . One such way is the tukey depth. It has many important properties (robustness to some extend, non parametric, invariance,...) but these only hold for the case of unimodal distributions. Let me know if you want more details.
user603


6

The Tukey halfspace median can be extended to >2 dimensions using DEEPLOC, an algorithm due to Struyf and Rousseeuw; see here for details.

The algorithm is used to approximate the point of greatest depth efficiently; naive methods which attempt to determine this exactly usually run afoul of (the computational version of) "the curse of dimensionality", where the runtime required to calculate a statistic grows exponentially with the number of dimensions of the space.



0

I do not know if any such definition exists but I will try and extend the standard definition of the median to R2. I will use the following notation:

X, Y: the random variables associated with the two dimensions.

mx, my: the corresponding medians.

f(x,y): the joint pdf for our random variables

To extend the definition of the median to R2, we choose mx and my to minimize the following:

E(|(x,y)(mx,my)|

The problem now is that we need a definition for what we mean by:

|(x,y)(mx,my)|

The above is in a sense a distance metric and several possible candidate definitions are possible.

Eucliedan Metric

|(x,y)(mx,my)|=(xmx)2+(ymy)2

Computing the median under the euclidean metric will require computing the expectation of the above with respect to the joint density f(x,y).

Taxicab Metric

|(x,y)(mx,my)|=|xmx|+|ymy|

Computing the median in the case of the taxicab metric involves computing the median of X and Y separately as the metric is separable in x and y.


Srikant:> No. The definition has to have two important feature of the univariate median. a) Invariant to monotone transformation of the data, b) robust to contamination by outliers. None of the extentions you propose have these. The Tukey depth has these qualities.
user603

@kwak What you say makes sense.

@Srikant:> Check the R&S paper cited by Gary Campbell above ;). Best,
user603

@kwak On thinking some more, the taxicab metric does have the features you mentioned as it basically reduces to univariate medians. no?

2
@Srikant:> there are no incorrect answer to phv's questions because there are no 'good answers' either; this area of research is still under development. I simply wanted to point out why it is still an open problem.
user603
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.