Üniform ve üniform olmayan kutular ile histogram


10

Bu soru , üniform ve üniform olmayan bir histogram arasındaki temel farkı açıklar. Ve bu soru , histogramın veri örneklerinin çizildiği dağılımı temsil etme derecesini optimize eden (bir anlamda) tek tip bir histogramın kutu sayısını seçmek için temel kuralı tartışıyor.

Üniforma ile üniform olmayan histogramlar hakkında aynı tür bir "iyimserlik" tartışması bulamıyorum. Düzgün olmayan bir histogram sezgisel olarak daha mantıklı olduğu için uzak aykırı değerlerle kümelenmiş parametrik olmayan bir dağılımım var. Ancak aşağıdaki iki sorunun daha kesin bir analizini görmek isterim:

  1. Tek biçimli çöp kutusu histogramı, tek biçimli olmayan çöp kutusundan ne zaman daha iyidir?
  2. Düzgün olmayan bir histogram için iyi sayıda kutu nedir?

Üniform olmayan bir histogram başımızın almak basit bir olgu olarak kabul ediyorum bilinmeyen bir dağılımından örnekleri, sipariş çıkan değerleri ve bunları ayırmak her bin sahiptir, öyle ki kutuları Bunlardan örnekler ( bazı büyük tamsayılar için olduğu varsayılarak ). Aralıklar arasındaki orta alınarak oluşturulmaktadır bin değerlerinin I ve \ dak bin değerleri i + 1 . Burada ve burada bu tip muntazam olmayan histogramları tanımlayan bağlantılar bulunmaktadır.nnkknnckcmaximini+1


Cevaplamak için yeterli bilgi yok (2). Homojen olmama koşulları nelerdir? Beğendiğiniz herhangi bir bölmeyi seçebilir misiniz, yoksa bazı kısıtlamalar var mı? Neyi optimize etmek istersiniz? örneğin ve arasında minimum ortalama entegre kare hatası mı istiyorsunuz ? Veya başka bir şey? ff^
Glen_b -Monica

@ Glen_b Tekdüze olmayan çöp kutusu durumunda düşündüğüm histogramın türünü biraz daha ayrıntılı olarak anlatacağım.
Alan Turing

Düzenlemenizi kontrol edin. Şunu mu demek istedin "cn" yerine "n = cm"? Ayrıca daha sonraki bir yazım hatası var.
Glen_b -Monica

Eğer böyle bir şey iletmek çalışıyorsun bu ?
Glen_b

Ayrıca , bu ve normal histogram arasındaki uzlaşma hakkındaki bu tartışmaya bakın
Glen_b -Reinstate Monica

Yanıtlar:


7

Tek biçimli çöp kutusu histogramı, tek biçimli olmayan çöp kutusundan ne zaman daha iyidir?

Bu, optimize etmek istediklerimizin bir çeşit tanımlanmasını gerektirir; birçok kişi ortalama entegre ortalama kare hatasını optimize etmeye çalışır, ancak birçok durumda bir histogram yapma noktasını bir şekilde özlediğini düşünüyorum; sık sık (gözüme göre) 'aşırı'; histogram gibi bir keşif aracı için, daha fazla pürüzlülüğü tolere edebilirim, çünkü pürüzlülüğün kendisi bana gözle nasıl "düzleştirmem" gerektiği hissini verir; Bu tür kurallardan olağan kutu sayısını en azından iki katına çıkarma eğilimindeyim, bazen çok daha fazla. Andrew Gelman'la bu konuda hemfikirim ; gerçekten ilgimi gerçekten iyi bir AIMSE alıyorsanız, muhtemelen bir histogram düşünmemeliydim.

Bu yüzden bir kritere ihtiyacımız var.

Eşit olmayan alan histogramlarının bazı seçeneklerini tartışarak başlayayım:

"Yoğun alan" veya "eşit sayım" histogramları gibi, daha düşük yoğunluklu alanlarda daha düzgün (daha az sayıda, daha geniş bölme) yumuşatma yapan ve daha yüksek yoğunlukta daha dar bölmelere sahip olan bazı yaklaşımlar vardır. Düzenlenen sorunuz eşit sayım olasılığını düşünüyor gibi görünüyor.

histogramR'ın işlev latticepaket, yaklaşık olarak eşit-alan çubuklar üretebilir:

library("lattice")
histogram(islands^(1/3))  # equal width
histogram(islands^(1/3),breaks=NULL,equal.widths=FALSE)  # approx. equal area

eşit genişlik ve eşit alan karşılaştırması

Dördüncü kökleri alırsanız, en soldaki bölmenin hemen sağındaki bu dalış daha da nettir; eşit genişlikte kutularda, 15 ila 20 kat daha fazla bölme kullanmadığınız sürece göremezsiniz ve sonra sağ kuyruk korkunç görünür.

Burada , molaları bulmak için örnek nicelikleri kullanan R kodlu eşit sayımlı bir histogram var .

Örneğin, yukarıdaki ile aynı verilerde, her biri (umarız) 8 gözlem içeren 6 kutu:

eşit sayı histogramı

ibr=quantile(islands^(1/3),0:6/6)
hist(islands^(1/3),breaks=ibr,col=5,main="")

Bu CV soru işaret Denby ve mallows bir kağıt bir versiyonu buradan indirilebilir eşit genişlikte depo ve eşit alan kutuları arasında bir uzlaşma tarif edilmektedir.

Ayrıca bir dereceye kadar sahip olduğunuz soruları da ele alır.

Sorunu belki de parçalı sabit bir Poisson sürecindeki molaları tanımlamaktan biri olarak düşünebilirsiniz. Bu böyle bir işe yol açacaktır . Ayrıca, Poisson sayımlarında kümelenme / sınıflandırma tipi algoritmalara bakma olasılığı da vardır, bunlardan bazıları algoritmaların bir dizi bölme vermesine neden olacaktır. Kümeleme 2D histogramlar (üzerinde kullanılmış olan görüntüleri nispeten homojen olan bölgeleri tespit etmek aslında,).

-

Eşit sayımlı bir histogramımız varsa ve optimize etmek için bazı kriterlerimiz varsa, bölme başına bir dizi sayımı deneyebilir ve ölçütü bir şekilde değerlendirebiliriz. Burada bahsedilen Wand kağıdı [ kağıt veya çalışma kağıdı pdf ] ve bazı referansları (örneğin Sheather ve ark. Kağıtları için) AIMSE'yi optimize etmek için çekirdek yumuşatma fikirlerine dayalı "eklenti" kutu genişliği tahmini; genel olarak konuşursak, bu tür bir yaklaşımın bu duruma uyarlanabilir olması gerekir, ancak bunun yapıldığını hatırlamıyorum.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.