“Medyan hilesini” daha yüksek boyutlara genelleştirmek?


22

Gerçek değerleri alan rasgele algoritmalar için , "medyan hilesi", sadece bir çarpımsal pahasına herhangi bir eşik eşiğindeki başarısızlık olasılığını azaltmanın basit bir yoludur. ek yükü. Yani, eğer 'nın çıktısı olasılıkla (en azından) olasılıkla "iyi aralık" ' ye düşerse , o zaman bağımsız kopyalar ve çıktılarının medyanını alarak , Chernoff / Hoeffding sınırlarının en az olasılığı ile bir değere düşmesine neden olacaktır . δ > 0 t = O ( günlük 1Aδ>0birI=[a,b]2/3A1,...,ATbir1,...,birtI1-öt=O(log1δ)AI=[a,b]2/3A1,,Ata1,,atI1δ

Bu "numara" nın yüksek boyutlara herhangi bir genellemesi var mı, " " deyin , burada iyi aralık şimdi dışbükey bir kümedir (veya bir top veya yeterince iyi ve yapılandırılmış bir küme). Yani, içindeki değerleri bir rasgele algoritma ve bir "iyi set" , Tüm için , biri sadece logaritmik bir maliyetle başarı olasılığını nasıl yükseltir ?bir R d S R d P r { A (x,r)S}2 / 3x1-δ1 / δRdARdSRdPr{A(x,r)S}2/3x1δ1/δ

(İfade ettiği farklı: sabit, arbirary verilen garanti en azından ile ve 'olduğu s , bir prosedür var bir değer çıkarmak ? Öyleyse, verimli bir var mı?)2 tona1,,atRd aiSS2t3aiSS

Ve yukarıdakilerin başarılabilmesi için ihtiyaç duyulan asgari varsayımlar kümesi nedir?S

Üzgünüm, bu önemsiz görünüyorsa - bu soruya bir referans bulamadım ...


3
bir küpoid olduğu özel durumda , medyan hilesini her bir boyutta ayrı ayrı kullanırsanız işe yarar mı? Bu yüzden bir grup noktayı örnekleyin, sonra boyut 1, 2, ..., d'deki koordinatlarının medyanını alın ve sonra . Belki bu stratejiyle örneklerine ihtiyacınız olacak? R d O ( log ( d / ϵ ) )SRdO(log(d/ϵ))
Robin Kothari

1
Bir boyutlu durumda, genellikle biliyorsunuzdur ama kesin aralığı değil ( bile , medyan numara hala işe yarıyor). bildiğimizi varsaymalı mıyız ? Çeviri ve ölçeklendirmeye kadar? b - a SbabaS
Sasho Nikolov

@SashoNikolov Bunun gerçekten de en genel genelleme olacağına inanıyorum (örneğin, yalnızca "çap" iyi bir top " olduğunu biliyoruz ). εSε
Clement C.

1
Thomas'ın cevabında yazdığı şey daha genel: ( cevabındaki ) bilinmeyen bir dışbükey küme olduğunu varsayar . GSG
Sasho Nikolov

Yanıtlar:


17

Aradığın şey neredeyse aynı güçlü bir merkezi eğilimdir : veri noktalarının bir bulutunu tek bir noktaya indirmenin bir yolu, öyle ki, eğer veri noktalarının birçoğu “temel gerçeğe” yakın olsalar da keyfi olarak uzakta olduğunuzda, çıktınız da temel gerçeğe yakın olacaktır. Böyle bir yöntemin "bozulma noktası", tahammül edebileceği keyfi-kötü aykırı değerlerin kesridir. Aradaki fark, sizin durumunuzda, dışbükey kabuğunda "yakın" yerine "değiştirmek istediğinizdir".

Bunu yakalamanın bir yolu Tukey derinliği kavramıdır. Bir nokta, Tukey derinliğine (verilen veri noktası setine göre ) verilmiş olan noktayı içeren her yarım alan aynı zamanda en az veri noktası içeriyorsa . İçinde olmak istediğiniz iyi bir dışbükey alt uzay varsa, Tukey derinliği olan bir nokta, içindeki veri noktalarının en az n'si olduğu sürece içinde olacaktır. Yani bu yöntemin yıkılma noktası , elde edebileceğiniz en büyük değeridir .n p n p ( 1 - p ) n ppnpnp(1p)np

Ne yazık ki bu bozulma noktası , 2'ye yakın değil, hem Tukey derinliği hem de probleminiz için. İşte bu yüzden: eğer verileriniz bir tek taraflı köşelerinin yakınında kümelenmişse , o zaman bunların den az bir kısmı aykırı değerlerdir (ama hangilerini bilmiyorsunuz) simpleks, her zaman aykırı olmayanların dışbükey gövdesi içerisinde olacağından seçim için güvenlidir. Ancak , puanların den fazlası aykırı olabilirse, seçilmesi güvenli olan hiçbir yer yoktur: seçtiğiniz simpleks içindeki hangi nokta olursa olsun, aykırı değerler, en yakın simpleks tepe noktasındaki tüm noktalar olabilir ve aykırı olmayanların kabuğunun dışında olacaktın.d + 1 1 / ( d + 1 ) 1 / ( d + 1 )1/(d+1)d+11/(d+1)1/(d+1)

Eğer varsa sizsiniz, daha benzeri daha kötü bir arıza noktası tahammül etmeye istekli , hem de polinom olan bir derin noktası bulmak için randomize yöntem var ve : my incelemeye bakınn dO(1/d2)nd

Yinelenmiş Radon noktaları ile yaklaşık merkez noktalarına, K. Clarkson, D. Eppstein, GL Miller, C. Sturtivant ve S.-H. Teng, 9. ACM Sempozyumu. Zorunlu. Geom. , San Diego, 1993, sayfa 91-98, Int. J. Comp. Geom. & Uygula 6 (3): 357-377, 1996, http://kenclarkson.org/center/p.pdf


Evet. Ek olarak, eps-net eps-yaklaşımları ve onların çeşitli arkadaşlarını, bu derinlik ölçütlerine iyi yaklaşan küçük bir örneklemenin bir yolu olarak kullanabileceğinden de bahsedeceğim. Tek bir nokta elde edemezsiniz, ancak daha fazla bilgi edinebilirsiniz.
Sarıel Har-Peled

Makalenizin terminolojisiyle, rasyonel sayılar rasyonel sayılar için talep edilen merkezini doğrulamak için bilinen etkili bir yol var mı? βββ

"Etkili" derken, boyuttaki polinomu kastediyorsanız, o zaman böyle bir sonuç bilmiyorum. Makalem sadece bir nokta bulur, size derinliklerin mekansal dağılımı hakkında daha fazla bilgi vermez (Sariel yukarıdaki gibi).
David Eppstein

Teşekkür ederim! Verimlilik konularını bir kenara bırakmak (şimdilik), bu keyfi rastlantısal dışbükey kümeleri için, olasılık olasılığını sabit olasılıkla artırmanın bir yolu olmadığını söylüyor gibi görünüyor? (iyi noktaların ? ' den daha büyük olması gerektiğinden (veya bir şeyi özledim mi - geriye dönüp baktığımda, ikinci formülasyonun yakalamadığı gibi geliyor) her biri en az iyi puan sahip birkaç nokta kümesine sahip olacağımız “bağımsız tekrarlar” fikri .) 2/311d+12/3
Clement C.

1
Bir nokta, birkaç nokta, ya da bilmediğiniz tek şey bir dışbükey kümesinin var olduğu, ancak nerede olmadığı ve d / (d + 1), o zaman simpleks örneğin etrafını dolaşmak için iyi noktaların kesirinin en az d / (d + 1) olması gerekir. Aksi takdirde, bir rakip size bir simpleks biçiminde veri verebilir ve rastgele bir şekilde dışbükey küme olarak simpleksin bir yüzünün bir epsilon mahallesini seçebilir; simpleksin tepe noktasına yakın bir noktayı rastgele rasgele olarak tahmin etseniz bile, en az 1 / (d + 1) yanlış seçme olasılığınız olacaktır.
David Eppstein

14

Bu güzel bir soru ve daha önce de düşündüm. İşte karşımıza çıkanlar:

çıkışlarını elde etmek için algoritmanızı kere çalıştırın ve yüksek olasılıkla nin büyük bir kısmının iyi bir setine girdiğini biliyorsunuz . ne olduğunu bilmiyorsun , sadece dışbükey. İyi haber şu ki, hakkında daha fazla bilgi sahibi olmayan bir noktaya bir yolu var. Bu noktaya .x 1 , , X , nR d x ı G G G f ( x 1 , , X , n )nx1,,xnRdxiGGGf(x1,,xn)

Teorem. Tüm doğal sayılar ve , aşağıdakilerin işlevi vardır . Bırakın ve dışbükey bir set olmasına izin verinSonra . Ayrıca, zaman polinomunda hesaplanabilir . d f : ( R, d ) n-R d x 1 . . . X , nR d G R d 1ndf:(Rd)nRdx1...xnRdGRdf(x1,...,X, n)Gf, nd
1n|{i[n]:xiG}|>dd+1.
f(x1,...,xn)Gfnd

için medyan olarak ayarlayabileceğimize dikkat edin. Bu, medyanın için nasıl genelleştirileceğini gösterir .f d > 1d=1fd>1

Bu sonucu kanıtlamadan önce, bunun sıkı olduğuna dikkat edin: ve standart temel öğeler olsun ve . Herhangi bir alt kümesi, noktaları benzeşik bir alan içinde bulunan boyut, (özgün bu nokta ile tanımlanır). Ancak bu affine alanların hepsinde hiçbir nokta yoktur. Bu nedenle , noktaları içeren, ancak ne olursa olsun içermeyen bazı dışbükey vardır .x 1 , , x d x d + 1 = 0 d G d - 1 G n d / ( d + 1 ) = d f ( x 1 , , x n )n=d+1x1,,xdxd+1=0dGd1Gnd/(d+1)=df(x1,,xn)

Kanıt. Aşağıdaki sonucu kullanıyoruz.

Helly'nin Teoremi. , dışbükey altkümeleri olsun . Herhangi bir nin kesişiminin boş olmadığını varsayalım . O zaman bütün lerin kesişimi boş değildir.R ' d d + 1 K i K iK1...KmRdd+1 KiKi

Helly'nin Teoreminin bir kanıtı için buraya tıklayın.

Şimdi teoremimizi kanıtlamak için:

Let , bir üst olmayan noktaların sayısına bağlı olarak . Tüm kapalı yarı boşlukları göz önünde bulundurun , sınırlarında en fazla puan içeren en az noktası içeren (her bir , tarafından tanımlandığı gibi, sınırlı sayıda yarım puan).G K 1 . . . K mR d , n - k K ı d + 1k<n/(d+1)GK1...KmRdnkKid+1

Her bir tamamlayıcısı en fazla noktası içerir . Bir bağlı olarak, herhangi bir nin kesiştiği en az > 0 puan içerir. Helly'nin teoremi ile (yarım uzaylar dışbükey olduğundan), tüm kesişiminde bir nokta var . Biz izin kesiştiği bir keyfi noktası hesaplayan bir fonksiyon olmak s. k d + 1 K i n - k ( d + 1 ) K i s f K iKikd+1 Kink(d+1)KisfKi

Geriye kalan tek şey nin kesişme noktasının . GKiG

Genel kaybı olmadan, , tam rütbeli nokta alt kümesinin dışbükey gövdesidir. Yani, içerdiği noktaların dışbükey gövdesiyle değiştirebiliriz . Eğer bu tam dereceye sahip değilse, teoremimizi daha düşük boyutta uygulayabiliriz.GGG

Her bir yüzü, bir halfspace tanımlar , bu halfspaces kesişmesidir. Bu yarım alanların her biri ve dolayısıyla en az noktaları içerir . Bu yarım boşluklardan birinin sınırı bir yüzünü içerir ve bu nedenle bir dizi maksimum derece içerir. Dolayısıyla bu yarım alanların her biri bir . Bu nedenle, tüm kesişme s içerdiği gerektiği gibi.G G n - k G K i K i GGGGnkGKiKiG

İşlem için lineer kısıtlamalar uygun doğrusal bir program kurmak tüm kesişme bir noktaya ler ve uygun bir çözüm tekabül s. QEDK i K ifKiKi

Ne yazık ki, bu sonuç, yüksek boyutlu ortamda çok pratik değildir. İyi bir soru hesaplayabilir olup olmadığıdır daha verimli:f

Açık Sorun Ek Sonuç olarak yukarıda teoremi kanıtlamak zaman polinom olarak hesaplanabilir ve . n dfnd

Kenara: Verimli bir çözüm elde etmek için problemi de değiştirebiliriz: , bunların yarısından fazlasının bir topunda , o zaman bir noktası bulabiliriz. ve deki zaman polinomundaki yatmaktadır . Özellikle, ayarlayabilir keyfi bir için tür noktaları kesinlikle fazla yarısı olduğu . B ( y , ε ) z B ( y , 3 ε ) n d z = x i i B ( z , 2 ε )x1,,xnB(y,ε)zB(y,3ε)ndz=xiiB(z,2ε)


Sanırım Tukey derinliğini temel olarak David Eppstein'ın aşağıda ana hatlarıyla açıkladığı gibi yeniden icat ettiniz :)
Suresh Venkat

7

Çeşitli adlar altında bilinen yüksek boyutlarda ve genel normlarda bir nokta kümesinin medyanı kavramı vardır. Bu, kümedeki tüm noktalara olan mesafelerin toplamını en aza indiren noktadır. Mesafede ufak bir çoğalma artışıyla olağan medyan ile benzer bir güven arttırma özelliğine sahip olduğu bilinmektedir. Detayları bu yazının 3.1 numaralı teorisinde bulabilirsiniz: http://arxiv.org/pdf/1308.1334.pdf

Bu yazının gösterdiği güzel bir şey, keyfi olarak yüksek (ancak sabit <1) bir güvenden yükseltebiliyorsanız, mesafenin artma faktörünün herhangi bir sabit> 1 yapılabileceğidir.

Düzenleme: Hsu tarafından konuyla ilgili başka yeni kağıt vardır ve Sabato http://arxiv.org/pdf/1307.1827v6.pdf Çoğunlukla analizleri ve prosedürü uygular hangi kalanına en küçük medyan mesafe ile sette noktası noktalardan kullanılır. Bu prosedür herhangi bir metrik ile kullanılabilir, ancak yalnızca yaklaşık 3 olan bir faktör verir.


Teşekkürler, bu güzel görünüyor! Sadece şimdiye dek yağmaladım, ancak (yanlış ya da çok hızlı atlanmadığım sürece), bir -ball olayıyla ilgileniyor ; bu doğru mu? pSp
Clement C.

1
Pek sayılmaz. Sonuç tüm Banach alanları için belirtilmiştir. Merkezi merkezli ve merkezi etrafında simetrik olan herhangi bir vücut için, bu gövdenin birim top olduğu ilgili bir norm vardır. Sorunuzun amaçları için, genelliği kaybetmeden dışbükey cismin orijin merkezli olduğunu varsayabiliriz, sonuçta merkezi olarak simetrik olan her bir dışbükey cisim için elde ettiğimiz sonucu elde ederiz. Belki hafif bir çaba ile sonuç genel dışbükey gövdelere genişletilebilir.
Vitaly

1
Bu norm için en aza indirgeyiciyi hesaplamak için normu bilmeniz gerekir, ancak - eğer sadece bir norm olduğunu bilirsiniz ama ne olduğunu değil, şansınız kalmaz.
David Eppstein

1
Haklısın David. Normu bilmelisin. (Bu dışbükey cesedi merkeze kadar bilmek ve ölçeklendirmek anlamına gelir).
Vitaly

Bu yaklaşımı düşünüyordum, ancak sonra keyfi dışbükey kümeleri için bu karşı örneği düşündüm. Bu sonuçlara nasıl katılıyor? düzlemde şu şekilde dağılmasına izin verin : olasılıkla , ve eşit, olasılık ile eşit . Dışbükey "iyi" küme ile arasındaki çizgidir . Ancak çok sayıda örnek alırsak, genelleştirilmiş medyan bulunan örneklenmiş noktalardan biri olacaktır . Bir hiper düzlem ve biraz ofsetli bir nokta kullanarak bunu kolayca daha yüksek boyutlara genellendirin. 0.9 ( - 1 , 0 ) ( + 1 , 0 ) 0.1 ( 0 , 0.0001 ) ( - 1 , 0 ) ( 1 , 0 ) ( 0 , 0.0001 )X0.9(1,0)(+1,0)0.1(0,0.0001)(1,0)(1,0)(0,0.0001)
usul
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.