İki yinelemeli çağrı ile yineleme ilişkisini çözme

Ben bir şeyi asla koşulu altında hızlı sıralama kötü durum çalışma zamanını okuyorum çok tanımlarını değişen için dengesiz bölüm çok .

Bunu yapmak için kendime çalışma zamanı ne olduğu sorusunu sormak quicksort her zaman bazı fraksiyon içinde bölüm olur durumda olurdu öyle ki öğeleri sol ve sağ ( öğe, pivot, ortada bırakılır ). $T(n, p)$ $0 < p \leq {1\over 2}$ $\lfloor{p(n-1)}\rfloor$ $\lceil(1 - p)(n - 1)\rceil$ $1$

Görmek zordur olmamalıdır bir üst en kötü durum için bağlanmış verir fraksiyonu ile bir bölüm olarak, maksimum dengesiz izin bölümdür daha dengeli ve daha küçük bir çalışma zamanı sahip olacaktır, ve fraksiyonuna izin verilmez. $T(n, p)$ $p$ $> p$ $<p$

Bu aşikardır iyi durumda ve quicksort en kötü durumdur. Her ikisinin de herhangi bir eğitim kaynağında bulunan kolay tekrarlama ilişkileri vardır. Ancak genel olarak üzerinde çalışmanın hiçbir fikri yok . Bariz ilişki şu olurdu: $T(n, {1 \over 2})$ $T(n, 0)$ $T(n, p)$

T (n, p) = n + T (⌊ p (n - 1) ⌋, p) + T (⌈ (1 - p) (n - 1) ⌉, p)

$T(n, p) = n + T(\lfloor{p(n-1)}\rfloor, p) + T(\lceil(1 - p)(n - 1)\rceil, p)$

Burada takıldım. Etrafa arama denedim ama böl ve fethet algoritmaları hakkında anlayabileceği tüm literatür kelimenin tam anlamıyla "böl" aldı ve "hile" bölümleri her zaman bir kere a terimlerini birleştirme, büyüklüğü eşit olduğu gerçeğini kullanarak analiz sabit.

İki özyinelemeli çağrı ile nasıl başa çıkacağımı bilmiyorum ve yuvarlamayı kaldırmanın güvenli olup olmadığını bilmiyorum. Bu analitik olarak çözülebilir mi ve eğer evetse, nasıl?

Not: Asimptotikle ilgilenmiyorum ( herhangi bir sabit için göstermek kolaydır ). Ben küçüldükçe ne kadar yavaş quicksort ne kadar ilgileniyorum , örneğin ben oranı ile ilgileniyorum . $\Theta(n \log n)$ $p$ $p$ $T(n, 0.25) \over T(n, 0.5)$

PPS: Bir lisans öğrencisi olarak, çok uzun veya az açıklanamayan önemsizlikleri açık bir şekilde yaptığım için özür dilerim. Ve burada diğer SE siteleri kadar aşağıya bakıp bakmadığımı bilmesem de, bunun ödev değil kişisel ilgi olduğunu not edeceğim.

algorithm-analysis runtime-analysis recurrence-relation

— orlp
kaynak

Bahsettiğiniz gibi, Akra-Bazzi teoremi nüksün çözümünü gösterir $T(n,p)$ dır-dir $O(n\log n)$ hepsi için $p \in (0,1)$ . Bununla birlikte, bu, bağımlılığın doğasını ortaya çıkarmaz $p$ . İkincisini belirlemek için bir özyineleme ağacı yaklaşımı kullanabiliriz.

Özyineleme ağacının kökünde aralık $\{1,\ldots n\}$ . İki çocuğu aralıklar $\{1,\ldots,pn\}$ ve $\{pn+1,\ldots,n\}$ , toplam uzunluğu tekrar olan $n$ . Bu düğümlerin her birinin iki çocuğu vardır ( $n$ yeterince büyük), vb. Basitlik için yuvarlama hatalarını görmezden geliriz, yani $pn$ bir tamsayıdır; bu sadece bir tekniktir ve bunun için endişelenmezdim. Bir düğümün uzunluğu en fazla olduğunda işlemi durdururuz $1$ . Algoritmanın karmaşıklığı, ağaçtaki toplam aralıkların uzunluğu ile orantılıdır. Ne zaman $p \neq 1/2$ , yapraklar (süreci durdurduğumuz düğümler) farklı derinliğe sahiptir ve bu da genel karmaşıklığı belirlemeyi zorlaştırır.

Ağacın en fazla olduğunu belirterek basit bir üst sınır elde edebiliriz $\log_{1-p} (1/n)$ seviyeleri: her düğüm en azından $1-p$ ebeveynden daha küçük. Tıpkı analizdeki gibi $p = 1/2$ , herhangi bir düzeydeki aralıkların toplam uzunluğu en fazla $n$ ve biz bir üst sınır elde $O(n\log_{1-p} (1/n))$ çalışma süresi. Dan beri $\log_{1-p} (1/n) = \log n/\log (1-p)^{-1}$ ve $\log (1-p)^{-1} = -\log (1-p) = p \pm O(p^2)$ küçük için $p$ , bunu şöyle yazabiliriz $O(n\log n/p)$ .

İşte daha doğru bir hesaplama. Seviyeyi düşünün $t$ . Küçük bir aralığa ulaştıktan sonra süreci durdurmadığımızı varsayalım. Alarak rastgele bir tepe noktası oluşturabiliriz. $t$ adımlar, her birinde olasılıkla sola gidiyoruz (diyelim) $p$ ve olasılıkla doğru (söyle) $1-p$ . Her sol adımda aralığın uzunluğunun günlüğü $-\log p$ ve her doğru adımı attığımızda, $-\log (1-p)$ . Bir tepe noktası, uzunluk kütüğünün gerçek ağacında en fazla azaltılmış $\log n$ . Seviyedeki aralıkların toplam ağırlığı $t$ Ağacın tam olarak bu işleme göre üretilen bir tepe noktasının en fazla azalmaya karşılık gelme olasılığıdır. $\log n$ . Yani, eğer $D$ eşit olan dağılımdır $-\log p$ olasılıkla $p$ ve $-\log(1-p)$ olasılıkla $1-p$ , ve $X_1,\ldots,X_t \sim D$ bağımsızdır, o zaman toplam ağırlık $t$ dır-dir $\Pr[X_1+\cdots+X_t \leq \log n]$ . Süper sabit için $t$ , rastgele değişken $X_1+\cdots+X_t$ kabaca normal olarak ortalama ile dağıtılır $[-p\log p-(1-p)\log(1-p)]t$ ve varyans doğrusal $t$ , için böylece $t$ doyurucu $[-p\log p-(1-p)\log(1-p)]t \leq (\log n)/2$ diyelim ki olasılık çok yakın olacak $1$ , süre için $t$ doyurucu $[-p\log p-(1-p)\log(1-p)]t \geq 2\log n$ diyelim ki sıfıra çok yakın olacak. tanımlanması $h(p) = -p\log p-(1-p)\log(1-p)$ (ikili entropi fonksiyonu olarak bilinir), çalışma süresinin $\Theta(n\log n/h(p))$ (üniformalı $p$ , gibi $n\to\infty$ ). Gibi $p\to 0$ sahibiz $h(p) \approx -p\log p$ ve bu yüzden önceki tahminimiz sıkı değildi.

Aynı analize bakmanın bir başka yolu, sonsuz bağımsız değişken değişken dizisine sahip olmaktır $X_1,X_2,\ldots$ eskisi gibi ve bir durma süresi tanımlamak $T$ ilk kez olmak $t$ öyle ki $X_1 + \cdots + X_t \geq \log n$ . Çalışma süresi daha sonra $n\mathbb{E}[T]$ . Temel yenilenme teoremi daha sonra belirtiyor $\lim_{n\to\infty} \mathbb{E}[T]/\log n = 1/\mathbb{E}[D] = 1/h(p)$ , aralıkların toplam boyutunun $(1+o(1))n\log n/h(p)$ . Daha doğru, her sabit için $p$ toplam aralık boyutu $(1+\alpha_p(n))n\log n/h(p)$ , nerede $\alpha_p(n) = o(n)$ . Temel yenileme teoremindeki yakınsama zaman parametresinde üsteldir - $\log n$ bizim durumumuzda - bu yüzden polinom olmalı $n$ , yani, $\alpha_p(n) = O(n^{-C_p})$ . Yakınsama muhtemelen $p \in (\delta,1-\delta)$ herhangi $\delta > 0$ .

Özet olarak, özyineleme ağacındaki çalışma süresiyle orantılı toplam aralık uzunluğu, her biri için aşağıdaki formdadır $p$ :

T (n, p) = (1 + o (1)) n log n h ( p ),

$T(n,p) = (1+o(1)) \frac{n\log n}{h(p)},$ nerede

logn $\log n$ ve

h(p)=−plogp−(1−p)log(1−p) $h(p) = -p\log p-(1-p)\log(1-p)$ aynı tabana götürülür ve

o(1) $o(1)$ bağlı bir işlevdir

p $p$ ve eğilimi

0 $0$ ile

n $n$ .

Dahası, muhtemelen herhangi biri için doğrudur $\delta > 0$ Ve herhangi biri $p \in (\delta,1-\delta)$ toplam aralık uzunluğunun formda olduğu doğrudur

T (n, p) = (1 + O (n - C δ)) n log n h ( p ),

$T(n,p) = (1+O(n^{-C_\delta})) \frac{n\log n}{h(p)},$ nerede

Cδ>0 $C_\delta > 0$ ve gizli büyük O sabiti sadece

δ $\delta$ . Özellikle, tüm sabitler için

p1,p2 $p_1,p_2$ ,

lim n \to \infty T ( n , p 1 ) T ( n , p 2 ) = h ( p 2 ) h ( p 1 ),

$\lim_{n\to\infty} \frac{T(n,p_1)}{T(n,p_2)} = \frac{h(p_2)}{h(p_1)},$ ve yakınsama polinom olarak hızlıdır.

— Yuval Filmus
kaynak

Hızlı cevabınız için teşekkürler Yuval. Kullandığın gerçeği ile biraz kafam karıştı

Θ $\Theta$ özetinde.

h(p) $h(p)$ sabittir ve bunun altında alakasız olduğu anlamına gelmez.

Θ $\Theta$ ? Ben yazmaya karar küçük bir test programı için olduğunu gösterdi

n=100000000000000 $n = 100000000000000$ karşılaştıran

T(n,0.1)/T(n,0.5) $T(n, 0.1) / T(n, 0.5)$ analitik yöntem ile hesaplamalı yöntem arasında 0.03 hata verdi. Bu oldukça büyük görünüyor ya da bu beklenecek mi?

— orlp

The constant in the

Θ $\Theta$ is uniform in

p $p$ . More accurately, for some constants

c,C $c, C$ it is the case that for each

p $p$ there exists

Np $N_p$ such that for

n≥Np $n\geq N_p$ ,

cnlogn/h(p)≤T(n,p)≤Cnlogn/h(p) $cn\log n/h(p) \leq T(n, p) \leq Cn\log n/h(p)$ . You can probably get an even stronger statement of the form

T(n,p)=(1+o(1))Cnlogn/h(p) $T(n, p)=(1+o(1))Cn\log n/h(p)$ for each fixed

p $p$ , where the little o is with respect to

$n$ (but could depend on

$p$ );

$C$ should not depend on

$p$ .

— Yuval Filmus

Convergence to the limit depends on

$\log n$ , so you might need

$\log n$ to be large in order to get a really good approximation. On the other hand, a relative error of 0.03 doesn't sound so large. You can try to fix

$n$ and plot the running time as a function of

$p$ , comparing it to

$1/h(p)$ .

— Yuval Filmus

Oh I'm sorry, I didn't mean a relative error of 0.03, but an absolute one (2.13222 vs 2.10339). Plotting

$T(n, p)$ as a function of

$p$ , relative to

$1 / h(p)$ gave a relative difference of 4%, with

$T(10^{11}, 0.05) * h(0.05)$ being 96% of

$T(10^{11}, 0.4) * h(0.4)$ .

— orlp

Super-constant is a function tending to infinity with respect to the relevant variable (in this case

$n$ ). It is the same as

$\omega(1)$ .

— Yuval Filmus