Bir histogramdaki aralık sayısında bir üst sınır var mı?


10

Bir veri kümesinin histogramı için iyi sayıda aralık (kutu) nasıl seçileceğini açıklayan kitaplardan birkaç makale ve alıntı okudum , ancak nokta sayısına bağlı olarak maksimum sayıda aralık olup olmadığını merak ediyorum bir veri kümesi veya başka bir ölçüt.

Arka plan: Sormamın nedeni, bir araştırma raporundaki bir prosedüre dayalı yazılım yazmaya çalışmam. Prosedürdeki bir adım, bir veri kümesinden birkaç histogram oluşturmak, daha sonra karakteristik bir fonksiyona (kağıdın yazarları tarafından tanımlanan) göre en uygun çözünürlüğü seçmektir. Benim sorunum yazarların test edilecek aralık sayısı için bir üst sınır bahsetmiyorum. (Analiz edilecek yüzlerce veri setim var ve her biri farklı bir "en uygun" kutu sayısına sahip olabilir. Ayrıca, en uygun sayıda kutu seçilmesi önemlidir , bu nedenle manuel olarak sonuçlara bakmak ve iyi bir tane seçmek olmaz iş.)

Maksimum aralık sayısını veri kümesindeki nokta sayısı olacak şekilde ayarlamak iyi bir yol gösterici olabilir mi yoksa tipik olarak istatistiklerde kullanılan başka bir kriter var mı?


Eşit büyüklükteki bidonları mı kastediyorsunuz (yani, aynı aralığa sahip bidonlar)?
Adam Ryczkowski

Cevabın uygulamaya çalıştığınız algoritmaya bağlı olacağına inanıyorum. Bu araştırma makalesine bir bağlantı sağlamazsanız, sorunun eksik olduğunu düşünüyorum.
Adam Ryczkowski

Nokta sayısı kesinlikle teorik bir maksimumdur, ancak bu neredeyse bir histogram değildir, garip biçimlendirilmiş bir şerit arsa veya halı arsa olacaktır.
Peter Flom

1
Aslında, puan sayısı gerçekten maksimum değil, üzgünüm, yeterli kahve yoktu! Kutuların bazıları 0 olacaktır. Örneğin (gülünç derecede basit bir örnek için) 3 puanınız olduğunu varsayalım: 1.02 2.21 ve 5.92. Gerçekten maksimum sayıda kutu istiyorsanız, açıkça 3'ten fazla.
Peter Flom

1
@whuber: Değerler, bir nesnenin ana hattının kendi sentroidinden, [0, 1] 'e normalize edilmiş mesafe ölçümleri kümesidir. Makale, bu mesafelerin bölmelerine bölüştürülmesini kullanır ve nicemleme hatasının (bölmeden itibaren) artı histogramın pdf'sini en aza indirerek optimum bulur . Anladığım kadarıyla. 2JJ
Wayne

Yanıtlar:


6

Gerçekten zor bir üst sınır yoktur, ancak öte yandan, çoğu durumda, kendi kutularında tüm benzersiz gözlemleri aldıktan sonra, daha ince bidonlar, konumlarını çok daha fazla iletmeden sadece daha kesin olarak tespit etmeye yarar. örneğin bunları karşılaştırın:

30 bölmeli histogram
100 bölmeli histogram

Bazı çok özel durumlar dışında, ikinci arsada pratik bir yararı olmayacak ve ilkinde o kadar fazla olmayacaktır. Verileriniz sürekli ise, bu muhtemelen yararlı sayıda kutunun çok ötesindedir.

Çoğu durumda, bu en azından pratik bir üst sınır gibi görünüyor - kendi çöp kutusundaki her benzersiz gözlem.

(Orada varsa olduğunu benzersiz gözlem başına birden fazla kutularına yararı, muhtemelen bilgi bu tür almak için bir rugplot veya titreşimli bir stripchart yapıyor olmalı) - bu histogramlar kenarlarında yaptıklarından gibi bir şey:

histogram rugplot ile jitter
çubuk grafik ile histogram

(Bu histogramlar bu cevaptan sonuna kadar alınır)


5

Bir histogramın detayının gürültü değil, ilginç veya önemli ince yapı olacağından şüphelenildiğinde, çok sayıda kutuya, örneğin olası her değere sahip kutulara sahip olmak için iyi bir durum vardır.

Bu, doğrudan bu soru için kesin motivasyonla bağlantılı değildir, bazı optimum sayıda kutu için otomatik bir kural ister, ancak bir bütün olarak soruyla ilgilidir.

Hemen örneklere geçelim. Demografide bildirilen yaşların yuvarlanması yaygındır, ancak sadece sınırlı okuryazarlığı olan ülkelerde değil. Ne olabilir ki, birçok insan doğum tarihini tam olarak bilmiyor ya da yaşlarını abartmak veya abartmak için sosyal veya kişisel nedenler var. Askeri tarih, silahlı kuvvetlerde kaçınılması ya da hizmet araması için yaşlarıyla ilgili yalan söyleyen insanların örnekleriyle doludur. Gerçekten de birçok okuyucu, bir nüfus sayımına yalan söylemeseler bile, yaşları hakkında çok çekingen veya başka türlü oldukça doğru olmayan birini tanıyacaktır. Net sonuç değişir, ancak daha önce de ima edildiği gibi genellikle yuvarlanır, örneğin 0 ve 5 ile biten yaşlar bir yıl veya daha uzun yaşlardan çok daha yaygındır.

Rakam tercihine benzer bir fenomen oldukça farklı problemler için bile yaygındır. Bazı eski moda ölçüm yöntemlerinde, bildirilen bir ölçümün son basamağı, derecelendirilmiş işaretler arasındaki enterpolasyon ile gözle ölçülmelidir. Bu cıva termometreleriyle meteorolojide uzun bir standarttı. Toplu olarak bildirilen bazı rakamların diğerlerinden daha yaygın olduğu ve bireysel olarak çoğumuzun imzalara, diğerlerinden ziyade bazı rakamları tercih eden kişisel bir kalıba sahip olduğu bulunmuştur. Buradaki olağan referans dağılımı eşittir, yani olası ölçüm aralığı "ölçüm biriminden" kat daha fazla olduğu sürece, son basamakların eşit frekansta gerçekleşmesi beklenir. Dolayısıyla, rapor edilen gölge sıcaklıkları bir dizi (örneğin) 50C'nin son on basamağı, .0, .1, , .8, .9 derece kesirlerinin her biri 0.1 olasılıkla gerçekleşmelidir. Bu yaklaşımın kalitesi daha sınırlı bir aralıkta bile iyi olmalıdır.

Bu arada, raporlanan verilerin son hanelerine bakmak, Benford Yasası'na hitap eden ilk basamakların şu anda modaya uygun incelemesinden daha kolay ve daha az sorunlu olan, uydurulmuş verileri kontrol etmek için basit ve iyi bir yöntemdir.

Histogramların yukarı çıkışı artık açık olmalıdır. Spike benzeri bir sunum, bu tür ince yapıları göstermeye veya daha genel olarak kontrol etmeye yarayabilir. Doğal olarak, ilgilenilen hiçbir şey farkedilmezse, grafik çok az işe yarayabilir.

Bir örnek 1960 için Gana nüfus sayımından yaşlanmayı göstermektedir. Bkz. Http://www.stata.com/manuals13/rspikeplot.pdf

Son rakamların dağılımları iyi bir şekilde incelendi.

Preece, DA 1981. Nihai hanelerin verilerdeki dağılımı. İstatistikçi 30: 31-60.

Terminoloji üzerine bir not: Bazı insanlar, bir değişkenin farklı değerleri hakkında daha iyi konuştuklarında bir değişkenin benzersiz değerleri hakkında yazmaktadır. Sözlükler ve kullanım kılavuzları "benzersiz" ifadesinin yalnızca bir kez gerçekleşmesi anlamına geldiğini belirtmektedir. Dolayısıyla, bir nüfusun rapor edilen farklı yaşları, 0, 1, 2 vb. Yıllarda olabilir, ancak bu yaşların büyük çoğunluğu bir kişiye özgü olmayacaktır.


4

Bir histogramdaki çöp kutularının sayısı için zor bir maksimum yoktur. Eğer çizilen değişken sürekli ise, o zaman sonsuz sayıda kategori için bir argüman yapılabilir (ve histogram temel olarak bir halı grafiği haline gelir).

Veri kümesindeki nokta sayısı uygun bir üst sınır değildir. İki değer içeren bir veri kümesi düşünün: 1 ve 1000. İki bölmeye sahip olmak uygun olmaz.

Bir üst sınırı belirlemek için iki pratik yöntem şunlardır: a) Verilerin altında yatan yuvarlamanın belirlenmesi. Örneğin, veri tamsayı ise, tamsayı genişliğinde kutular olması mantıklıdır. b) Görünür maksimum çözünürlüğe bakarak (örneğin, yatay boyutta çizim için kullanılabilecek piksel sayısı).

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.