Tek biçimli çöp kutusu histogramı, tek biçimli olmayan çöp kutusundan ne zaman daha iyidir?
Bu, optimize etmek istediklerimizin bir çeşit tanımlanmasını gerektirir; birçok kişi ortalama entegre ortalama kare hatasını optimize etmeye çalışır, ancak birçok durumda bir histogram yapma noktasını bir şekilde özlediğini düşünüyorum; sık sık (gözüme göre) 'aşırı'; histogram gibi bir keşif aracı için, daha fazla pürüzlülüğü tolere edebilirim, çünkü pürüzlülüğün kendisi bana gözle nasıl "düzleştirmem" gerektiği hissini verir; Bu tür kurallardan olağan kutu sayısını en azından iki katına çıkarma eğilimindeyim, bazen çok daha fazla. Andrew Gelman'la bu konuda hemfikirim ; gerçekten ilgimi gerçekten iyi bir AIMSE alıyorsanız, muhtemelen bir histogram düşünmemeliydim.
Bu yüzden bir kritere ihtiyacımız var.
Eşit olmayan alan histogramlarının bazı seçeneklerini tartışarak başlayayım:
"Yoğun alan" veya "eşit sayım" histogramları gibi, daha düşük yoğunluklu alanlarda daha düzgün (daha az sayıda, daha geniş bölme) yumuşatma yapan ve daha yüksek yoğunlukta daha dar bölmelere sahip olan bazı yaklaşımlar vardır. Düzenlenen sorunuz eşit sayım olasılığını düşünüyor gibi görünüyor.
histogram
R'ın işlev lattice
paket, yaklaşık olarak eşit-alan çubuklar üretebilir:
library("lattice")
histogram(islands^(1/3)) # equal width
histogram(islands^(1/3),breaks=NULL,equal.widths=FALSE) # approx. equal area
Dördüncü kökleri alırsanız, en soldaki bölmenin hemen sağındaki bu dalış daha da nettir; eşit genişlikte kutularda, 15 ila 20 kat daha fazla bölme kullanmadığınız sürece göremezsiniz ve sonra sağ kuyruk korkunç görünür.
Burada , molaları bulmak için örnek nicelikleri kullanan R kodlu eşit sayımlı bir histogram var .
Örneğin, yukarıdaki ile aynı verilerde, her biri (umarız) 8 gözlem içeren 6 kutu:
ibr=quantile(islands^(1/3),0:6/6)
hist(islands^(1/3),breaks=ibr,col=5,main="")
Bu CV soru işaret Denby ve mallows bir kağıt bir versiyonu buradan indirilebilir eşit genişlikte depo ve eşit alan kutuları arasında bir uzlaşma tarif edilmektedir.
Ayrıca bir dereceye kadar sahip olduğunuz soruları da ele alır.
Sorunu belki de parçalı sabit bir Poisson sürecindeki molaları tanımlamaktan biri olarak düşünebilirsiniz. Bu böyle bir işe yol açacaktır . Ayrıca, Poisson sayımlarında kümelenme / sınıflandırma tipi algoritmalara bakma olasılığı da vardır, bunlardan bazıları algoritmaların bir dizi bölme vermesine neden olacaktır. Kümeleme 2D histogramlar (üzerinde kullanılmış olan görüntüleri nispeten homojen olan bölgeleri tespit etmek aslında,).
-
Eşit sayımlı bir histogramımız varsa ve optimize etmek için bazı kriterlerimiz varsa, bölme başına bir dizi sayımı deneyebilir ve ölçütü bir şekilde değerlendirebiliriz. Burada bahsedilen Wand kağıdı [ kağıt veya çalışma kağıdı pdf ] ve bazı referansları (örneğin Sheather ve ark. Kağıtları için) AIMSE'yi optimize etmek için çekirdek yumuşatma fikirlerine dayalı "eklenti" kutu genişliği tahmini; genel olarak konuşursak, bu tür bir yaklaşımın bu duruma uyarlanabilir olması gerekir, ancak bunun yapıldığını hatırlamıyorum.