Sayısal verileri doğal olarak oluşturulmuş “parantezler” halinde nasıl gruplandırabilirim? (örneğin gelir)

Aşağıdaki, neyi başarmaya çalıştığımı açıklıyor, ancak alternatif bir sorun ifadesi hedefimi tanımlayabilir:

istiyorum

aşağıdaki sayıları, her gruptaki sayıların varyanslarının çok büyük olmadığı ve grupların ortalamaları arasındaki farkların çok küçük olmadığı gruplara ayırın
sonuçta elde edilen dağılımı "mükemmel" olanlarla karşılaştırır ve mükemmel olmaktan ne kadar "farklı" olduğunu görür.

Layman'ın hedef açıklaması

Gelir dağılımını hesaplamaya çalışıyorum ve her nüfusun içinde yer alan "gelir dilimlerini" belirlemeye çalışıyorum . Gelir diliminin girdi verilerine göre kendi kendini ayarlaması gerekiyordu.

Amacım, sonuç olarak gelir dilimleri arasındaki farkı ölçmek veya hesaplamaktır. Birçok parantez olacağını ve her katmanın ne kadar "ayrı" olduğunu görmek istiyorum.

Aşağıda, 20 kişilik bir nüfus seti ve toplam 3587 gelir için saatlik gelir örneği verilmiştir:

Population= 10                   pop=2   population=5              population =3
10, 11,13,14,14,14,14,14,15,20,  40,50  ,90,91,92,93,94      999,999,900

Belirli bir popülasyonda gelir dağılımı gibi davranan verileri gruplandırmak, sıralamak ve analiz etmek için matematiksel kavramları nasıl kullanabilirim?

Hesaplamanın sonunda, mükemmel bir dağılımın (şuna) benzeyeceği katmanlı gelir dağılımını belirlemek istiyorum

(each person makes $10 more per hour than the previous; total is 3587)
89, 99, 109, 119, 129, 139, 149, 159, 169, 179, 189, 199, 209, 219, 229, 239, 249, 259, 269, 279

veya bu:

(evenly distributed groups of people make the same per hour) 
(gaps between income groups is consistent and not "too far")
(income total is 3587)
99 99 99   129 129 129   159 159 159   199 199 199  229 229 229  269 269 269

Soru

Nüfus gruplarını nasıl analiz etmeliyim ve boşluğu, yukarıda listelenen son iki model seti gibi daha fazla yapmak için ne kadar gerekli olduğunu söyleyecek şekilde ölçmeliyim?

clustering relative-distribution

— goodguys_activate
kaynak

Öneri için @svidgen teşekkürler yerine Programmers.SE burada post

— goodguys_activate

Not: Bu soruyu sorarken bu geri bildirimi aldım:

It may seem you are interested in cluster analysis, but the problem with real-life distributions is they are nearly continuous, and hence the straightforward clusterization won't apply.

— goodguys_activate

İhtiyacım olana çok benzer bir şey buldum gibi görünüyor ... binning veri denir: msdn.microsoft.com/en-us/magazine/dn342876.aspx

— goodguys_activate

Evet, lütfen soruyu taşıyın (ve mümkünse yorumlardan daha iyi bir açıklama ekleyin).

— goodguys_activate

Gelir dağılımındaki boşlukları arayın, eğer şanslıysanız, daha sonra parantez olarak kullanabileceğiniz (biraz yapay) zirveler bulabilirsiniz. Bu muhtemelen daha düşük gelirler için nispeten iyi çalışır.

— Marc Claesen

Yanıtlar:

Tek değişkenli küme analizi, değerlerin düzenlenebileceği bir boyut olduğunda mükemmel bir anlam ifade eder. Bu bir ölçüm ölçeği , zaman veya boşluk olabilir .

Bazı ölçüm skalasında sıralı veriler göz önüne alındığında , bir frekans dağılımı (bir terminolojide antimodlar) içinde göreli molalar aramaya ilgi duyulabilir.

Dikkat notu: Bununla birlikte, keyfi olan veya görülebilen çöp kutularını tanımlayan molalar, istatistik biliminin çeşitli alanlarında yaygın bir şekilde engellenir ve eşit aralıklarla binning için yaygın olarak ve belirgin bir şekilde tercih edilir ve mümkünse binlingden kaçınmak için sıklıkla tercih edilir . Bu kısmen bir tat meselesi, kısmen de bir sözleşmedir: veri kümelerinin bütünüyle saklanması kolaylaştıkça uygulamalar değişmiştir.

Bir zaman serisi büyü, dönem, dönem, her neyse, ideal olarak, alt-yapılar arasında nispeten küçük farklılıklar ve alt-sistemler arasında nispeten büyük farklılıklar ile bölünebilir. Aynı sorun ortaya çıkmaktadır alan (yatay veya dikey) tek uzamsal boyuta alt bölümlere ayrılması olduğu zaman. Jeolojik ve diğer bilimlerde bu genellikle bölgeleme başlığı altında incelenir.

Herhangi bir resmi kümelemeye her zaman verinin uygun şekilde çizilmesi (örneğin, bir nokta veya kantil veya çizgi grafiği kullanarak) eşlik etmesi gerektiğini unutmayın; bu, kesinti ya açıktır (resmî kümelemenin sadece dekoratif olması için) ya da inandırıcı molalar yoktur (böylece resmi kümelenmenin anlamsız olabilmesi).

Büyüklüğüne göre sıralanan değerlerin oyuncak örneğini düşünün:

    14 15 16 23 24 25 56 57 58

burada üç gruplu bir kümelemenin

    14 15 16 | 23 24 25 | 56 57 58

mantıklı. Sıralama değerlerin kendisinde mi, yoksa zamanında mı yoksa uzayda mı, veriler her zaman tek bir boyutta düzenlenebilir ve bu da soruna özel bir yapı kazandırır. Bu nedenle, daha genel kümeleme yöntemleri kullanılabilmesine rağmen, bu özel yapı ideal olarak kullanılmalıdır. değerleri için tasarlanan grupları , işaretleri (yukarıdaki örnekte, ) yerleştirilerek tanımlanır ; yerleştirilecek olası yer var. Böylece olası kümelenmeler vardır. Bununla birlikte, değişmekte özgürse, olası toplam küme sayısı $k$ $n$ $k - 1$ $k - 1 = 2$ $n - 1$ $n - 1 \choose k - 1$ $k$ $2^{n - 1}$ çünkü her değer her bir komşu ile aynı grupta olabilir veya olmayabilir. Mütevazı için bile , bu çok sayıda. $n$

Sorun, belirli sayıda grup için, en aza indirmek için işaretleyiciler yerleştirerek kesinleştirilebilir (Fisher 1958; Hartigan 1975).

sum over groups of variability around group centres .

$\text{sum over groups of variability around group centres}.$

Grup araçlarından kare şeklinde sapmaların toplamı en belirgin olasılık olarak akla gelecektir. Grup medyanlarından mutlak sapmaların toplamı ve diğer önlemler iyi bir şekilde eğlendirilebilir.

Hartigan (1975) dinamik bir programlama yaklaşımının bu hesaplamayı nasıl basitleştirdiğini gösterdi ve Fortran kodunu sundu. SSC'den bir Stata uygulaması (Cox 2007) group1dkurulacaktır.

Cox, NJ 2007. GROUP1D: Bir boyutta gruplama veya kümeleme için Stata modülü. http://ideas.repec.org/c/boc/bocode/s456844.html

Fisher, WD 1958. Maksimum homojenlik için gruplandırmada. Journal, Amerikan İstatistik Derneği 53: 789-98.

Hartigan, JA 1975. Kümeleme algoritmaları. New York: John Wiley. Ch.6.

Postscript Bu yaklaşım belirli sorunun ilk kısmı ile eşleşiyor gibi görünüyor. Genel olarak, formülasyonun genel bir ilgi alanı olduğunu düşündüğüm için (ve Cox 2007 belgelerinin bir kısmını geri dönüştürmem kolay olduğu için). Ama eğer belirli bir hedef, gelir dağılımını referans tekdüzen dağılımla karşılaştırmaksa, binning'in oynayacak herhangi bir rolü olmadığını görmüyorum. Bu, Lorenz eğrileri ve eşitsizlik önlemlerinin başlangıç noktaları olduğu ekonomide standart bir sorundur. Özünde, kantil ile kantil veya yüzde nokta ile yüzde nokta arasında karşılaştırma yapabilirsiniz.

— Nick Cox
kaynak

Jenks Natural Break'e bir göz atın:

https://en.wikipedia.org/wiki/Jenks_natural_breaks_optimization

Sanırım ihtiyacınız olan şey bu ve birçok dilde uygulamalar var.

— ftfarias
kaynak

Her ne kadar hemen belli olmasa da, bu tam olarak Nick Cox'un "grup araçlarından kare sapmaların toplamının en bariz olasılık olarak akla geleceği" önerisidir. Kısmen bundan daha genel (şüpheliyim) çünkü gelirler için bu kötü bir çözüm olacaktır: biri genellikle günlük gelirleri açısından hesaplama yapmaktan daha iyidir.

— whuber