Öyleyse ne olmuş? Değilse neden olmasın?
Çizgideki bir örnek için, medyan toplam mutlak sapmayı en aza indirir. Tanımı R2'ye vb. Yaymak doğal görünebilir, ancak daha önce hiç görmedim. Ama sonra uzun zamandır sol alandayım.
Öyleyse ne olmuş? Değilse neden olmasın?
Çizgideki bir örnek için, medyan toplam mutlak sapmayı en aza indirir. Tanımı R2'ye vb. Yaymak doğal görünebilir, ancak daha önce hiç görmedim. Ama sonra uzun zamandır sol alandayım.
Yanıtlar:
Çok değişkenli bir medyan için kabul edilmiş bir tanım olduğundan emin değilim. Tanıdığım tek şey , Oja'nın ortanca noktasıdır ; bu, nokta alt kümeleri üzerinde oluşturulan basitlik hacimlerinin toplamını en aza indirir. (Teknik tanım için bağlantıya bakınız.)
Güncelleme: Yukarıdaki Oja tanımı için başvurulan site aynı zamanda çok değişkenli bir medyan tanımını kapsayan hoş bir makaleye sahiptir:
As @Ars söyledi hayır yoktur tanımını kabul (ve bu iyi bir nokta) vardır. Üzerinde kantilleri genelleme yollarından genel alternatifleri ailesi vardır , ben en önemli olduğunu düşünüyorum:
Miktarsal işlem genelleme Let deneysel ölçüm (= gözlem oranını olmak A ). Daha sonra, ile A içinde Borel kümeleri iyi seçilmiş bir alt kümesi, R d ve λ gerçek değerli bir tedbir, ampirik miktarsal fonksiyonunu tanımlayabiliriz:
Size en az değeri veren bir bulabildiğinizi varsayalım . Ardından grubu (veya setin unsuru) A 1 / 2 - ε ∩ A 1 / 2 + ε size ortancasını verir ε küçük yeterince yapılır. A = ( ] - ∞ , x ] x ∈ R ) ve λ ( ] - ∞ , x ] ) = x kullanılırken medyan tanımı kurtarılır . ArsCevap herhalde bu çerçeve içine düşer ... Tukey yarım alan konum kullanılarak elde edilebilir ve λ ( lH x ) = X ile ( x ∈ R , bir ∈ R d ).
Varyasyon tanımı ve M-kestirim Fikir burada olmasıdır -quantile Q a rastgele değişkenin Y'nin de R bir varyasyon eşitlik ile tanımlanabilir.
En yaygın tanımı kullanarak dilim regresyon fonksiyonu (aynı zamanda tilt kaybı olarak bilinen tahmin neden?) S α = bir r gr inf x ∈ R e [ p, α ( Y - X ) ] . Durumda α = 1 / 2 verir ρ 1 / 2 ( y ) = | y | ve l kullanarak daha yüksek boyutta genelleştirebilirsiniz 1@Srikant Cevap içinde yapılan mesafeler . Bu teorik medyandır, ancak beklentiyi ampirik beklenti yerine koymanız durumunda size ampirik medyan verir (ortalama).
Ancak Kolshinskii yana Legendre-Fenchel dönüşümü kullanılmasını önermektedir burada f ( s ) = 1içins-∈R. Bunun için çok derin sebepler veriyor (gazeteye bakınız;). Yüksek boyutlara bu yaygınlaştırılması vektörel çalışma gerektirenave değiştirilmesisagöre⟨s,a⟩ancak sunarα=(1/2,...,1/2).
Açıkçası, farklı formülasyonlar arasında köprüler var. Hepsi belli değil ...
Medyan kavramını daha yüksek boyutlara genelleştirmenin farklı yolları vardır. Henüz bahsedilmemiş, ancak uzun zaman önce önerilen bir dışbükey gövde inşa etmek, onu soymak ve mümkün olduğu kadar tekrarlamak: son gövdede kalan, tüm aday olan bir takım noktalar. " medians."
“Kafa vurmak” , 2B nokta bulutuna sağlam bir merkez inşa etme girişimidir (yaklaşık 1980). (Bağlantı, ABD Ulusal Kanser Enstitüsünde mevcut olan belgeler ve yazılımlarla ilgilidir.)
Birden fazla farklı genellemenin olmasının ve açık bir çözüm bulunmamasının ana nedeni, R1'in sipariş edilebiliyor olmasıdır, ancak R2, R3, ... olamaz.
Geometric median is the point with the smallest average euclidian distance from the samples
The Tukey halfspace median can be extended to >2 dimensions using DEEPLOC, an algorithm due to Struyf and Rousseeuw; see here for details.
The algorithm is used to approximate the point of greatest depth efficiently; naive methods which attempt to determine this exactly usually run afoul of (the computational version of) "the curse of dimensionality", where the runtime required to calculate a statistic grows exponentially with the number of dimensions of the space.
A definition that comes close to it, for unimodal distributions, is the tukey halfspace median
I do not know if any such definition exists but I will try and extend the standard definition of the median to . I will use the following notation:
, : the random variables associated with the two dimensions.
, : the corresponding medians.
: the joint pdf for our random variables
To extend the definition of the median to , we choose and to minimize the following:
The problem now is that we need a definition for what we mean by:
The above is in a sense a distance metric and several possible candidate definitions are possible.
Computing the median under the euclidean metric will require computing the expectation of the above with respect to the joint density .
Computing the median in the case of the taxicab metric involves computing the median of and separately as the metric is separable in and .