Ben ters bir şey göstererek önceki hatamı kefaret etmeye çalışacağım - örnekleri yeterli (alt sınır neredeyse sıkı)! Ne düşündüğünüzü görün ....Θ~(1ϵ2)1/ϵ2
Anahtar sezgi iki gözlemden başlar. İlk olarak, dağılımların mesafesinin olması için yüksek olasılıklı noktalar olmalıdır ( ). Örneğin, olasılık olsaydı, .L2ϵΩ(ϵ2)1/ϵ3ϵ3∥D1−D2∥2≤1ϵ3(ϵ3)2−−−−−−√=ϵ3/2<ϵ
İkincisi, mesafeli düzgün dağılımları düşünün . Biz ise olasılığı noktaları , daha sonra her birinin farklı olacaktır ve örnekler yeterli olacaktır. Öte yandan, noktalarımız olsaydı, her birinin ve yine örnekleri ( noktası) yeterlidir. Bu nedenle, daha önce bahsedilen yüksek olasılıklı noktalar arasında, çizdiği her zaman "yeterince" farklı olan bir noktanın onu ayırt etmesini umabiliriz .L2ϵO(1)O(1)O(ϵ)1/ϵ2O(1/ϵ2)O(ϵ2)O(1/ϵ2)O(1/ϵ2)
Algoritma. ve güven parametresi verildiğinde , . Her dağıtımdan örnek çizin . Let ilgili daha yüksek noktası için numune daha az sayıda olabilir . de ve olan herhangi bir noktası varsa , farklı dağılımlar. Aksi takdirde, bunları aynı şekilde beyan edin.ϵMX=Mlog(1/ϵ2)Xϵ2ai,biii∈[n]ai≥X8ai−bi≥ai−−√X√4
Doğruluk ve güven sınırları ( ), mesafesindeki tüm sapmaların olasılıkları farklılık gösteren noktalardan geldiğini belirten aşağıdaki .1−e−Ω(M)L2Ω(ϵ2)
İddia. Diyelim ki . Let. Let . Sonra
∥D1−D2∥2≥ϵδi=|D1(i)−D2(i)|Sk={i:δi>ϵ2k}
∑i∈Skδ2i≥ϵ2(1−2k).
Kanıt . Biz
İkinci toplamı sınırlayalım; en üst düzeye çıkarma isteyen tabi . İşlev yana katı konveks ve, herhangi bir alarak amacı artırabilir artmaktadır ve artan ile düşürürken ile . Böylece, amaç maksimum değerlerinde olabildiğince çok terimle, geri kalanı ise maksimize edilecektir.
∑i∈Skδ2i + ∑i∉Skδ2i≥ϵ2.
∑i∉Skδ2i∑i∉Skδi≤2x↦x2δi≥δjδiγδjγ0. Her terimin maksimum değeri dır ve bu değerin en fazla terimi vardır (en fazla ). So
ϵ2k2kϵ22∑i∉Skδ2i≤2kϵ2(ϵ2k)2=2ϵ2k. □
İddia . Bırakın . Eğer , en az bir nokta vardır ile ve .pi=max{D1(i),D2(i)}∥D1−D2∥2≥ϵi∈[n]pi>ϵ24δi≥ϵpi√2
Kanıt . İlk olarak, tüm noktalar mı tanımı gereği (ve için boş olamaz önceki isteme göre).Skpi≥δi>ϵ2kSkk>2
İkinci olarak, ,
veya yeniden düzenleme,
dolayısıyla eşitsizlik
, içinde en az bir nokta . Şimdi . ∑ipi≤2
∑i∈Skδ2i≥ϵ2(12−1k)∑i∈Skpi,
∑i∈Sk(δ2i−piϵ2(12−1k))≥0,
δ2i≥piϵ2(12−1k)
Skk=4□
İddia (yanlış pozitifler) . Eğer , bizim algoritma en fazla olasılık ile onları farklı beyan .D1=D2e−Ω(M)
Eskiz . İki durumu düşünün: ve . İlk durumda, örnek sayısı her iki dağıtımdan da aşmayacaktır : Ortalama örnek sayısı ve bir kuyruk bağlı olduğunu söylüyor , örnekleri bir katkı maddesi ortalamalarını aşmaz ; kuyruktaki değerini bağlı tutmaya dikkat edersek, kaç tane nokta olursa olsun, bunların üzerinde (sezgisel olarak, sınır olası noktaların sayısında katlanarak azalır).pi<ϵ2/16pi≥ϵ2/16iX/8<X/16e−Ω(X/pi)=ϵ2e−Ω(M/pi)iX/16pi
Durumda , bir Chernoff bağlı kullanabilir: aldığımız zaman, söylüyor örnekleri ve bir yönlü bir olasılık ile çizilir , bunun ortalama farklılık olasılığı ile en fazla . Burada, bırakın , böylece olasılık ile sınırlandırılmıştır .pi≥ϵ2/16mppmcpm−−−√e−Ω((cpm√)2/pm)=e−Ω(c2)c=X√16e−Ω(X)=ϵ2e−Ω(M)
Böylece olasılıkla , (her iki dağılımlar için) örnek sayısı, içinde Ortalama in . Bu nedenle, testimiz bu noktaları yakalamayacaktır (birbirlerine çok yakındır) ve hepsine . 1−ϵ2e−Ω(M)ipiXϵ2−−−−√X√16piXϵ216/ϵ2□
İddia (yanlış negatifler) . Eğer , bizim algoritma en fazla olasılık ile onları özdeş beyan .∥D1−D2∥2≥ϵϵ2e−Ω(M)
Eskiz . ve olan bir nokta vardır . Önceki istemdeki ile aynı Chernoff, olasılığı ile örneklerinin sayısının ortalama en fazla . Bu olan (WLOG) dağılımı ; fakat dağıtım örnek sayısı daha düşük bir olasılık varipi>ϵ2/4δi≥ϵpi−−√/21−ϵ2e−Ω(M)ipimpim−−−√X√161pi=D1(i)=D2(i)+δii2 bu katkı maddesi miktarından ortalamasından farklı (ortalama ve varyans daha düşük olduğu için).
Bu nedenle, yüksek olasılıkla, her bir dağılımdan örneği sayısı ortalamasının ; ancak olasılıkları farklılık gösterir , bu nedenle ortalamaları
ipiXϵ2−−−√X√16δi
Xϵ2δi≥Xpi−−√2ϵ=piXϵ2−−−−√X−−√2.
Dolayısıyla, yüksek olasılıkla, noktası için , örnek sayısı en az farklılık gösterir . i#samples(1)−−−−−−−−−−−√X√4□
Eskizler tamamlamak için, biz daha titiz bir şekilde göstermek gerekir, için yeterince büyük, örnek sayısı onun ortalama yakın yeterli olduğu kanaatine zaman algoritma kullanır yerine , hiçbir şeyi değiştirmez (sabitlerde biraz kıpır kıpır boşluk bırakarak açık olması gerekir).Mi#samples−−−−−−−−√mean−−−−−√