Ben wikipedia sayfasını araştırırken bu cevap önemli değişiklikler geçirdi. Cevapları büyük ölçüde oldukları gibi bıraktım, ancak onlara eklendiğim için, şu anda bu bir anlayış ilerlemesi; son kısımlar en iyi bilginin olduğu yerlerdir.
Kısa cevap: wikipedia sayfası - ve aynı görünen OP'nin formülü - en az üç farklı nedenden dolayı yanlış. Orijinal tartışmamı bırakacağım (bu OP ve wikipedia'nın doğru olduğunu varsaydı) çünkü bu bazı sorunları açıklıyor. Daha sonra tartışma daha iyi olur. Kısa tavsiye: Doane'yi unutun. Eğer varsa gerekir kullanmak, wikipedia diyor kullanmak artık (tamir ettim).
Formülün fazla basıklık anlamına gelmesi gerektiğine inanıyorum; bunun nedeni normal olmayan verileri hesaba katmak için normal veriler için bir formülde değişiklik yapmasıdır. Böylece, değiştirilmemiş olanı normalde çoğaltmasını beklersiniz. Aşırı basıklık kullanırsanız bunu yapar.
Ancak bu, günlükteki terimin büyük örneklerle negatif olabileceği sorununu doğurur (gerçekten de, oldukça küçük ). Olumsuz aşırı basıklık ile kullanmamanızı öneririm (yine de unimodality'nin ötesinde kullanmam; her şey multimodal olsun, aşırı kurtosis fikrini her modda uygulamak istiyorsunuz , üzerlerinde yumuşak değil!) fazla basıklık sadece 0'dan az) ve mütevazı örnek boyutları büyük bir sorun olmayacaktır.≤ 0n
Ayrıca, her durumda, büyük örnek boyutlarında, istendiği gibi çalıştığında bile çok az sayıda kutu vereceğini öneririm.
Bu makaleyi bulabilirsiniz (normal CVer Rob Hyndman tarafından ):
http://www.robjhyndman.com/papers/sturges.pdf
bazı ilgi. Sturges'in argümanı yanlışsa, Doane'nin formülünün sorunu aynıdır ... Rob gazetede açıkça belirttiği gibi.
Bu makalede (ve bu cevapta ) Freedman-Diaconis kuralına başını salladı. Makalede ayrıca Matt Wand tarafından belirtilen yaklaşıma da işaret ediyor (çevrimiçi görünmeyen çalışma kağıdını ifade ediyor, ancak erişiminiz varsa sonraki makale kullanılabilir):
http://www.jstor.org/discover/10.2307/2684697
[Düzenle: aslında çalışma kağıdına bağlantı sitenin sayfasında ]
Bu yaklaşım, altta yatan yoğunluğu tahmin etmek için yaklaşık optimal (ortalama entegre kare hata, MISE) kutu genişliklerinin elde edilmesi için belirli işlevlerin tahmin edilmesini içerir. Bunlar iyi çalışıyor ve genel olarak Sturges veya Doane'den daha fazla kutu verirken, bazen yine de daha fazla kutu kullanmayı tercih ederim, ancak genellikle çok iyi bir ilk girişimdir.
Açıkçası Wand'ın yaklaşımının (ya da en azından Fredman Diaconis kuralının) neden hemen hemen her yerde bir varsayılan olmadığını bilmiyorum.
R en azından kutu sayısının Freedman-Diaconis hesaplamasını sunar:
nclass.FD(rnorm(100))
[1] 11
nclass.FD(runif(100))
[1] 6
nclass.FD(rt(100,1))
[1] 71
Görmek ?nclass.FD
Şahsen, benim için en azından ilk iki durumda çok az sayıda çöp kutusu; Optimalden biraz daha gürültülü olabilmesine rağmen, ikisini de ikiye katlardım. N büyüdükçe, çoğu durumda çok iyi olduğunu düşünüyorum.
Düzenleme 2:
@PeterFlom 'un haklı olarak şaşkınlıkla ifade ettiği çarpıklık ve basıklık sorununu araştırmaya karar verdim.
Ben sadece (daha önce okudum .... ama bu neredeyse 30 yıl önce oldu) bağlı Doane kağıt wiso bir göz vardı - bu sadece çarpıklık, basıklık hiçbir referans yapar.
Doane'nin gerçek formülü:Ke= l og2( 1 +g1σg1)
nerede Keeklenen kutu sayısı, 3. andaki çarpıklıktır. [Aslında, Doane, zamanın oldukça yaygın kullanımını takiben , imzalı (!) 3. an çarpıklığı için kullanıyor (bu özellikle birleştirici olmayan kötüye kullanımın kökeni oldukça eski ve takip etmeyeceğim Neyse ki şimdi çok daha az sıklıkta göründüğünü söylemek dışında).]g1b1--√
Şimdi normalde,
(n yaklaşık 100'ü geçene kadar bu yaklaşım oldukça zayıf olsa da; Doane ilk formu kullanır)σg1=6 ( n - 2 )( n + 1 ) ( n + 3 )--------√≈6n--√
Bununla birlikte, birisinin onu basıkçığa adapte etmeye çalıştığı gibi görünüyor (bu Vikipedi yazarken basıklık açısından var , ve bunu yaptıklarını sanmıyorum) - ama açık bir sebep var formülün basitçe yanlış olduğuna inanmak için (kullanılan standart hatanın, yukarıda verdiğim çarpıklık için nihai yaklaşım olduğunu unutmayın). Bence bu bastosis kullanımını wikipedia dışında çeşitli yerlerde gördüm, ancak Doane'nin gazetesinde olmanın yanı sıra, Scott'ın gazetesinde, işaret ettiğim Hyndman gazetesinde veya Wand'ın gazetesinde bulunmuyor. Ancak bir yerden gelmiş gibi görünüyor (yani wikipedia için orijinal olmadığından eminim), çünkü Doaneσg1. Orada sona ermeden önce birkaç kez oynanmış gibi görünüyor; Birisi onu bulsaydı ilgilenirim.
Bana Doane'in argümanının mutlu bir şekilde basıklık derecesine uzanması gerektiği gibi görünüyor , ancak doğru standart hatanın kullanılması gerekiyordu.
Bununla birlikte, Doane, Sturges ve Sturges'in argümanı kusurlu gibi göründüğünden, belki de tüm işletme mahkumdur. Her halükarda, wikipedia'daki Histogram konuşma sayfasını hatayı not ederek düzenledim.
---
Edit 3: Vikipedi sayfasını düzelttim (ancak çarpıklığın mutlak değerini alma özgürlüğünü aldım, aksi halde Doane'nin orijinal formülü durduğu gibi sol eğimli dağılımlar için kullanılamaz - açıkça işaretler çarpıklık önemsizdir). Kesin olarak, formülü orijinal (yanlış) formda sunmalıydım ve sonra neden mantıklı olmadığını açıklamalıyım, ancak bunun birkaç nedenden dolayı sorunlu olduğunu düşünüyorum - en azından insanların sadece formülü kopyalayıp görmezden gelme eğiliminde olacağı açıklama. Aslında Doane'nin orijinal niyetini kapsadığına inanıyorum. Her durumda, orijinalindeki saçmalık üzerinde büyük bir gelişme. (Lütfen orijinal makaleye erişebilen, bu makaleye ve nasılb1--√ tanımlanır ve makul olduğundan emin olmak için wikipedia'daki değişikliklerimi kontrol edin - yanlış en az üç şey vardı - basıklık, standart hata ve yanlış günlük tabanı, artı Doane'nin kendi küçük hatası.)