Ortalama

Ortalama $\mathrm{lg}(n!)+o(n)$ karşılaştırmaları kullanan karşılaştırma tabanlı bir sıralama algoritması var mı?

En kötü durum $\mathrm{lg}(n!)+o(n)$ karşılaştırma algoritmasının varlığı açık bir sorundur, ancak ortalama durum her girdi için beklenen $\mathrm{lg}(n!)+o(n)$ karşılaştırmaları olan rastgele bir algoritma için yeterlidir . Önemi $\mathrm{lg}(n!)+o(n)$ o şekilde $o(n)$ tek bir ortalama israf, en uygun olan karşılaştırmalar $o(1)$ element başına karşılaştırmalar.

Zaten böyle bir algoritmaya sahip olduğum için, bunu bir cevap olarak ekliyorum ( Q / A formatını kullanarak ), ancak böyle bir algoritmanın zaten bilinip bilinmediği, $o(n)$ ve en kötü- kasa $\mathrm{lg}(n!)+o(n)$ .

Önceki çalışma:
Birleştirme sıralaması karşılaştırmaları kullanır (en kötü durumda bile). Sort (aynı zamanda sıralama Ford-Johnson olarak da bilinir) Birleştirme-yerleştirme de kullanır karşılaştırmalar ancak çok daha küçük bir sabiti ile . Karşılaştırma Tabanlı Sıralama için Geliştirilmiş Ortalama Karmaşıklık (Kazuo Iwama ve Junichi Teruyama tarafından) - (1,2) Ekleme algoritması, aşağıdaki cevabımın bir kısmına benziyor. $\mathrm{lg}(n!)+ Θ(n)$
$\mathrm{lg}(n!)+ Θ(n)$ $Θ(n)$

cc.complexity-theory ds.algorithms sorting

— Dmytro Taranovsky
kaynak

Bu soru Optimal rasgele karşılaştırmalı sıralama ile örtüşüyor , ancak farklı vurgu (burada spesifik asimtotik davranış - genel bilgi durumu, tüm girdi boyutları ve en kötü durumdan farkı) göz önüne alındığında, yeni bir soru kullanmaya karar verdim.

— Dmytro Taranovsky

Güncelleme: Bu cevabı, ortalama karşılaştırmalarıyla $\mathrm{lg}(n!)+o(n)$ bir kağıda genişlettim .

Evet, böyle bir algoritma var. Sadece bağlı olduğunu kanıtlayacağım , ancak olası bir randomizasyon varsayımı altında . Ayrıca ve için bir girişim açıklayacağım . $\mathrm{lg}(n!)+o(n)$ $\mathrm{lg}(n!)+O(n^{1-ε})$ $n^{0.5+o(1)}$ $O(n^{0.5-ε})$

Gerekirse açıklama ekleyerek tüm öğelerin farklı olduğunu varsayabiliriz; ortalama durumda farklı öğeler rastgele sırayla kullanılır. Adil bir jeton kullanmaya göre her karşılaştırma için entropi kaybını ekleyerek ortalama karşılaştırma sayısını hesaplayabiliriz.

Başlangıç noktası, sıralanan alt kümeye ( sonraki öğenin nereye ekleneceğine karar vermek için ikili aramalı ekleme sıralamasıdır . Tüm , bir ekleme ( entropi açısından) bir katkı faktörüne (ve ortalama-kasa karmaşıklığı için, de çalışır). Şimdi, ne zaman2 gücüne yakın olmadığında, öğesinin eklenmesi yetersizdir (ortalama durumda ve her sorguyu nasıl dengelediğimize bakılmaksızın), ancak karşılaştırmalarını boşa harcarsak, yaklaşık olarak eşit bir dağılıma yönlendirebiliriz aralıklarla $S$ $(1-ε)2^m ≤ |S| ≤ 2^m-1$ $m$ $O(ε)$ $2^m ≤ |S| ≤ (1+ε) 2^m$ $|S|$ $A$ $o(1)$ $A$ $S$ uzunluğuna yakın bir 2 gücüne, istenen optimumluğa sahibiz.

Bunu, gruplar halinde elementler ekleyerek ve bazen partinin elemanlarını birbirleriyle verimli bir şekilde karşılaştırarak başarırız, böylece bir element karşılık gelen aralığı yarı rastgele bir şekilde azalır (ve aralık içindeki olasılık dağılımı ile neredeyse eşit) ve aralık uzunluğu 2 gücüne yeterince yakın olduğunda, eklemek için ikili aramayı yapın . $S$ $A$ $A$ $A$

Ortak yapılar

Biz bir alt kümesi tutacak sıralı elemanlarının ve her sıralanmamış eleman için biz, en az aralık takip eder ait bulunduğu için bilinir. uzunluğu ; aralıkların kimliğidir. $S$ $A$ $I_A$ $S$ $A$ $|I_A|$ $I_A$ $I_A=I_B$

Let : ile karşılaştırın ve sonra (rastgele sırada) aralıkları kesilene (veya uzunluk 1'e sahip oluncaya kadar ) ve karşılık gelen elemanlarıyla karşılaştırın . unsuru ( tutarlı bir şekilde) çağrıldığında, üzerinde eşit olarak dağıtıldığı varsayılarak karşılaştırma olasılıklarını mümkün olduğunca 1/ yakın hale getirmek için seçilir (tutarlı bir şekilde). . Sonundaki ayrıklık nedeniyle tekdüzelik varsayımını korur. $\mathrm{Compare}(A,B)$ $A$ $B$ $A$ $B$ $S$ $S$ $\mathrm{Compare}$ $(A,B)$ $I_A⨯I_B$ $\mathrm{Compare}$

Aşağıdaki bölümler birbirinden bağımsız olarak okunabilir.

A algoritması $\mathrm{lg}(n!)+o(n)$

Verilen: Sıralı bir liste ve bir grup sıralanmamış eleman; ; ayrılmamış elemanlar göre rastgele . $S$ $m$ $m∈ω(1)∩o(|S|)$ $S$

Mümkünse (1) - (3) ' tekrarlayın:
1. ile iki ve elemanı seçin (herhangi bir seçenek çalışacaktır). 2. çalıştırın . 3. Eğer2 gücüne yeterince yakınsa ^{(not 1)} partiden çıkarın ( unutmadan ); ve ile benzer şekilde yapın . Son olarak: Tüm öğeleri ve sıralamayı tamamlayın. $A$ $B$ $I_A=I_B$
$\mathrm{Compare}(A,B)$
$|I_A|$ $A$ $I_A$ $B$
$S$

Not 1: "Yeterince yakın" için, göreceli hata ( bir fonksiyonu olarak , adım (4) 'te elemanlar kaldırılacağı sürece çalışır (not 2 ile mümkündür). Beklenen bir randomizasyon varsayımı altında, göreli hatası öğelerini kullanarak ortalama karşılaştırma sıralama algoritması. $o(1)$ $m$ $m-o(m)$ $c \log \log m / \log m$ $m(1-\log^{-Θ(c)}m)$ $\mathrm{lg}(n!)+O(n \log \log n / \log n)$

Not 2: Aynı karşılaştırma dizisi aynı sınırlama aralığına yol açtığından, hemen hemen tüm elemanlar adım (1) kez geçecektir (adım 4'te kaldırılmadığı sürece). Eğer Başlangıçta, ve çekme , Karşılaştırdıpımız elemanı karşı , ve aşama (3), her bir uygulama vardır azalma olasılığıiçinde kat. Şimdi 2 rasyonel gücü olmayan her oranı ve böylece $Ω(\log m)$ $A < B$ $A$ $A$ $S[≈(1-1/\sqrt{2})|S|]$ $A$ $O(1)$ $|I_A|$ $≈1/(1-1/\sqrt{2})$ $a>1$ $∀ε>0 ∀d>0 ∃m,n∈\mathbb{N} \,\, 1-ε < \frac{a^m}{d2^n} < 1+ε$ $o(n)$ ciltli.

Olası bir algoritması $\mathrm{lg}(n!)+O(n^{1-ε})$

Modulo bir randomizasyon varsayımı olarak, ortalama karşılaştırmaları aşağıdaki gibi elde edebiliriz. $\mathrm{lg}(n!)+O(n^{1-ε})$

Öğeleri rastgele karıştırın ve ikinci yarıyı ayrılmamış bir grup olarak tutarken ilk yarıyı listesine ayırın. $S$
Parti boşalana kadar tekrarlayın:
Rastgele . Let . Eğer boş kaldırmak içine kesikli ve insertten . Aksi takdirde: $A∈\text{batch}$ $G = \{ B∈\text{batch}: |P(A < B) - 0.5| < n^{-0.51ε} \}$ $G$ $A$ $S$
1. Varsa öyle ki olasılığıyla (≥0.05 demek), yapariçinde 2'nin kuvvetlerine göreli hata, koşmak ve eğer başarılı (yani içindedir 2'nin kuvvetlerine göreceli hata) kaldırmak içine kesikli ve insertten . $B∈G$ $Θ(1)$ $\mathrm{Compare}(A,B)$ $|I_A|$ $n^{-ε}$ $\mathrm{Compare}(A,B)$ $|I_A|$ $n^{-ε}$ $A$ $S$
2. Böyle bir , rastgele bir için . $B∈G$ $\mathrm{Compare}(A,B)$ $B∈G$

Randomizasyon varsayım çalışır sonra işlemin çok boyunca, tipik bir (aralık uzunlukları ve pozisyonları, yani dağıtım rastgele yeterlidir) etkin bir şekilde bir seçim ile karşılaştırılabilir ile elemanların ( farklı aralık uzunlukları). Böylece, tipik olarak yukarıdaki (1) için bir karşılaştırma seçebiliriz ve karşılaştırma sonucuyla , hala şansı elde ederiz , böylece ( yeterince küçükse, 0.01 diyelim) a -karşılama algoritması. Bazı değişiklikler ve yaklaşımlarla, toplam hesaplama yarı doğrusal yapılabilir: elementi verilir $A$ $n^{Θ(1)}$ $n^{Θ(1)}$ $Θ(\log n)$ $ε$ $\mathrm{lg}(n!)+O(n^{1-ε})$ $A$ , Aralık uzunlukları vaat hesaplamak ve sonra bakmak sağ Yaklaşık merkez aralık uzunlukları ile s. $B$

Karşılaştırmaları optimize etmenin birkaç yolu vardır, ancak engel, her karşılaştırmanın şanssız olabileceği ve sınırlı sayıda karşılaştırmamızın olmasıdır. Optimizasyondan sonra ortalama 4 karşılaştırma yapar ve 1/4 olasılıkla 'başarılı' , elde . $\mathrm{Compare}(A,B)$ $ε≈(1-ε)/4/\log_{4/3} 2 ≈ 0.09$

Belki de çok daha iyi bir yaklaşım, bir aralık 2 gücüne yakın olana kadar beklemek, bireysel aralık uzunluklarını değil, uzunluk dağılımlarını kontrol etmektir.

algoritmasında deneme $\mathrm{lg}(n!)+n^{0.5+o(1)}$

Varsayalım o ve biz bir sıralanmamış toplu verilir aralıklarla elemanları ile de verilmişgenellikle ve eşit olarak dağıtıldı (rastgele bir hataya kadar ve üzerinde koşullandırılmış olsa bile yeterli hassasiyetle tutma ). Ardından, ortalama karşılaştırmasını boşa harcayan öğeleri şu şekilde sıralayabiliriz : (*) Tüm öğeleri ilk . Bu şekilde, aralık uzunluğu 2 güce yakın olduğunda tüm elemanlar eklenir. $|S|=n$ $n$ $I_A$ $|I_A|$ $n^{1-o(1)}$ $\frac{|I_A|}{2^{\lfloor \mathrm{lg} |I_A| \rfloor}}$ $A < S[i]$ $n^{0.5+o(1)}$
$\frac{|I_A|}{2^{\lfloor \mathrm{lg} |I_A| \rfloor}}$

Sıralama algoritması şu olacaktır: Listeyi rastgele karıştır ve ilk yarısını sırala . İkinci yarıyı eklemek için dağıtımı doğru yapın ve yukarıdaki (*) işlemini yapın. $S$

Yapmak için dağıtım hakkı, 'rastgele' bir dağıtım yapabilir ve sonra her bir (gerekirse tekrarlayın). Ancak, bu global olarak, gerekli hassasiyetle yerel olarak kontrol edilip edilemeyeceğini bilmiyoruz (dolayısıyla yukarıdaki "girişme" kelimesi). $\frac{|I_A|}{2^{\lfloor \mathrm{lg} |I_A| \rfloor}}$ $|I_A|/2^{\lfloor \mathrm{lg} |I_A| \rfloor}$ $\frac{|I_A|}{2^{\lfloor \mathrm{lg} |I_A| \rfloor}}$

'Rastgele' bir dağılım yapmak için ile rastgele kullanabiliriz , ancak ilk hepsi aynı olduğunda, bir sublogaritmik derinlikte rastgele birleştirme beklemiyoruz (yani yeterince uzun bir ile ). Bununla birlikte, ile elementlerin genellemelerini (muhtemelen herhangi bir makul seçim işe yarayacak şekilde) kullanarak bir sublogaritmik derinlikte randomizasyon elde ettiğimize inanıyorum : öğelerinin birbirine karışmasını (yani karşılaştırma sonuçları kullanılarak bağlandıysa), ile yapılan her bir karşılaştırma için yaklaşık seçeneklere sahip olmalıyız . Bu $\mathrm{Compare}(A,B)$ $P(A < B)≈0.5$ $I_A$ $I_A$ $\mathrm{Compare}$ $k=ω(1)$ $k=ω(1)$ $k$ $S$ $O(\log_k n + \log k)$ İstediğiniz gibi rasgeleleştirme derinliği elemanlarının ayrıştırılması için depth derinliğine ihtiyacımız olduğu için çok büyük olmadığı varsayılarak ). Yeterince küçük bir kullanılırsa, hesaplamanın yarı doğrusal yapılabileceğini umuyorum . $k$ $Θ(\log k)$ $k$

1/2 evet olasılığı ile sadece entropiyi boşa harcadığından, başlangıç rasgeleleştirme ve sınırlama aralıklarındaki elemanların hafif tekdüzeliği sadece entropi kaybı. Dağılım şekillendirmesi yeterince başarılı olursa, entropi atığı esasen (*) sırasında aralık uzunluğundaki uyumsuzluklardan kaynaklanır (dolayısıyla ). $1/2+n^{-0.5}$ $O(1/n)$ $n^{o(1)}$ $n^{0.5+o(1)}$

Olası bir kombinasyonu: $\mathrm{lg}(n!)+O(n^{0.5-ε})$ Dağıtım şekillendirme yeterince iyi çalışıyorsa ve toplu iş boyutunu ve öğelerini (*) (yukarıda) seçmeli olarak reddederseniz , bu elemanları entropi atık aşağıdaki gibi. Bölünmüş içine sokma esnasında hemen hemen eşit aralıklarla ve zaman bir aralık üzerinde yerleşir, reddetme aralığı dolayısıyla bu aralıkların uzunlukları varyasyonu azaltır, çok uzun (yani yerleşmesini iptal) $|S|+n^{0.5+ε}$ $≈n^{0.5+ε}$ $≈n^{0.5+ε}$ $n^{0.5-ε/2+o(1)}$ $S$ $n^ε$ $I_A$ $Θ(n^{ε/2})$ bu da kez rastgele uzunluk aralıklarının uzunluk değişimlerini azaltır . Şimdi, yukarıda kullanabilir algoritması ile geri kalan elemanları eklemek için atık halinde küçüktür yeter. $n^{1-o(1)}$ $n^{ε/2-o(1)}$ $\mathrm{lg}(n!)+O(n^{1-ε})$ $O(n^{0.5-ε'})$ $ε$

En kötü durum sıralama karmaşıklığı: Büyük olasılıkla, en kötü durum karşılaştırmaları olan bir sıralama algoritması vardır . Ortanca bulmak için ortalama vaka ( karşılaştırması) ve en kötü durum (en az karşılaştırması) arasında doğrusal bir boşluk vardır . Bununla birlikte, sıralama için, karşılaştırmaları düzenleme ve yeni sıralama algoritmaları bulma konusunda bolca özgürlük vardır. $\mathrm{lg}(n!)+o(n)$ $1.5n+o(n)$ $(2+ε)n-O(1)$

— Dmytro Taranovsky
kaynak

Bence bunu bir kağıt olarak yazmalısın.

— Emil Jeřábek

@ EmilJeřábek Kabul etti. Araştırma düzeyinde bir site olarak, burada birçok soru ve cevap mini makalelerdir, ancak burada uzunluk ve önem ile resmi bir makale istenmektedir. Makalede hangi parçaların genişletilmesi gerektiği konusunda (dmytro@mit.edu adresinden) bana bildirmekten çekinmeyin (bu cevap kısa bir versiyon olarak kalır).

— Dmytro Taranovsky