Yüzde 99, veya yüzde 100 Ve bunlar sayı grupları mı, yoksa tek tek sayılara bölücü veya işaretçiler mi?


27

Yüzde 99, veya yüzde 100 Bunlar sayı grupları mı, ayırma çizgileri mi, yoksa bireysel sayılara işaretçiler mi?

Sanırım aynı soru, çeyreklik veya herhangi bir miktar için de geçerlidir.

Belirli bir yüzdelik (p) 'deki bir sayı indeksinin n maddelerinin verildiğini okudum. i = (p / 100) * n

Bu bana 100 yüzde olduğunu gösteriyor ... çünkü 100 sayıya sahip olduğunuzu varsayalım (i = 1 ila i = 100), o zaman her birinin bir dizini (1 ila 100) olur.

200 numaranız olsaydı, yüzde 100 olmuştu, ancak her biri iki rakamdan oluşan bir gruba atıfta bulunacaktı. Veya uzak veya sol sağ sağ bölücü hariç 100 bölücü 'çünkü aksi takdirde 101 bölücü elde edersiniz. Veya bireysel sayılar için işaretçiler, böylece ilk yüzdelik ikinci sayıya, (1/100) * 200 = 2 ve yüzdelik yüzdelik, 200'üncü sayıya (100/100) * 200 = 200

Bazen yüzde 99'luk olduğunu duydum.

Google, yüzdelik diyen oxford sözlüğünü gösteriyor - "bir popülasyonun belirli bir değişkenin değerinin dağılımına göre bölünebileceği 100 eşit grubun her biri". ve "bir frekans dağılımını bu gibi 100 gruba bölen rastgele bir değişkenin 99 ara değerinin her biri".

Wikipedia, "20. yüzdelik, gözlemlerin% 20'sinin bulunabileceği değerin altında olduğunu" söylüyor. Ancak, "gözlemlerin% 20'sinin bulunabileceği değerin altında veya buna eşit olduğu anlamına mı geliyor?" Değerlerin% 'si <= it "dir. Sadece <ve <= olmasaydı, o zaman, bu nedenle, 100'üncü yüzdelik, değerlerin% 100'ünün altında bulunabileceği değerdi. Bunun yüzde yüzdelik olamayacağı argümanı olarak duydum, çünkü altındaki sayıların% 100'ünün olduğu bir sayıya sahip olamazsınız. Fakat bence yüzde yüzdelik bir ifadeye sahip olamayacağınız iddiası yanlıştır ve yüzde yüzdelik tanımının <= değil <olduğu bir hatadır. (veya> = değil>). Yani yüzdelik yüzdelik son sayı olurdu ve


4
Aşırı derecede asimetrik muameleden dolayı 100 ihtimalin makul bir cevap olamayacağını düşünüyorum. Kutuları veya 101 (eğer alıntı tanımında olduğu gibi) ya 99 için yapılabilir
whuber

4
Tarihsel olarak nicemler - şimdi genel olarak söylediğimiz gibi - ilk özet noktaları ve daha sonra sınırlandırdıkları kutuları, sınıfları veya aralıkları genişleterek. Bu nedenle, medyan dahil üç çeyrek, dört çöp kutusu ve benzerlerini tanımlar.
Nick Cox

1
@whuber "Aşırı derecede asimetrik muamele nedeniyle 100 ihtimalin makul bir cevap olacağını düşünüyorum." <- bunun hakkında ayrıntılı bilgi verebilir misiniz?
barlop

3
Çeşitli nicelik terimlerinin erken kullanımlarını stats.stackexchange.com/questions/235330/… adresinde listeliyorum . OED veya jstorun içine bakarsanız, tarihi kullanım örnekleri alacaksınız.
Nick Cox

2
@whuber Evet, atıfta bulunduğum şeye düzgün bir şekilde "yüzdelik rütbe" adı verildi, test puanı raporlarında kullanıldı & c .: en.wikipedia.org/wiki/Percentile , en.wikipedia.org/wiki/Percentile_rank , ncme .org / kaynaklar / sözlük . Karışıklık eklemek için özür dilerim. Savunmamda, fark, "ve" in "deki" edatların kullanımına bağlı görünüyor (1. bağlantıya bakın).
Jeff Y,

Yanıtlar:


32

Bu yüzdelik , dörtlü vb. Duyuların her ikisi de yaygın olarak kullanılmaktadır. Çeyrekliklerle farkı göstermek en kolayı:

  1. “bölücü” duygusu - dağılımı (veya numuneyi) 4 eşit parçaya bölen değerler olan 3 çeyrek var:

       1   2   3
    ---|---|---|---
    

    (Bazen bu, dahil olan maks ve min değerleri ile kullanılır, bu nedenle 0-4 numaralı 5 çeyrek vardır; bunun yukarıdaki numara ile çakışmadığını, sadece genişlettiğini unutmayın.)

  2. “bin” anlamı: 4 çeyrek var, bu 3 değerin dağılımı (veya örneği) böldüğü altkümeler var.

     1   2   3   4
    ---|---|---|---
    

Her ikisinin de kullanımı makul olarak “yanlış” olarak adlandırılamaz: her ikisi de birçok deneyimli pratisyen tarafından kullanılır ve her ikisi de çok sayıda yetkili kaynakta (ders kitapları, teknik sözlükler ve benzeri) görünür.

Çeyreklerle birlikte, kullanılan anlam genellikle bağlamdan açıktır: Üçüncü çeyrekte bir değerin konuşulması sadece “bin” anlamına gelebilir, ancak üçüncü çeyreğin altındaki tüm değerlerin konuşulması büyük olasılıkla “bölücü” anlamına gelir. Yüzdelik oranlarda, ayrım daha net değildir, ancak dağılımın% 1'i çok küçük olduğu için çoğu amaç için o kadar da önemli değildir - dar bir şerit yaklaşık olarak bir çizgidir. Herkesten yüzde 80'in üzerinde konuşma , en yüksek% 20 veya en yüksek% 19 anlamına gelebilir, ancak resmi olmayan bir bağlamda büyük bir fark yoktur ve titiz çalışmalarda, ihtiyaç duyulan anlam, bağlamın geri kalanı tarafından açık bir şekilde netleştirilmelidir.

(Bu cevabın bazı bölümleri , alıntılar ve referanslar veren /math/1419609/are-there-3-or-4-quartiles-99-or-100-percentiles adresinden uyarlanmıştır .)


2
(+1) Bu geç cevap güzel bir şekilde konunun kalbine gidiyor.
Nick Cox

ne hakkında en.wikipedia.org/wiki/Percentile < "Her skor 100 yüzdelik olduğunu" söylüyor - bir çöp kovasının tüm veri setinin boyutu gibi o sesler senin kutuları tüm eşit boyutlarda olduğu oysa
barlop

1
Vikipedi girişi bunu söylüyor. Böyle bir ifade için bir savunma düşünemiyorum. Wikipedia, yanıltıcı veya yanlış olduğu durumlar haricinde harika. Bu saygısız gelebilir, ancak yapabileceğim tek şey Wikipedia'da aktif olan kişiyi girişi geliştirmek için teşvik etmek. Herkesin yaptıkları ve yapmadıkları şeyler için kuralları olmalı ve burada ve birkaç başka yerde aktif olmak kişisel sınırımdır.
Nick Cox

5

Bir ceviz tuzu ile bu cevabı alın - oldukça yanlış başladı ve hala ne yapacağına karar veriyorum.

Soru kısmen dil ve kullanımla ilgilidir, ancak bu cevap matematiğe odaklanır. Umarım matematiğin farklı kullanımları anlamak için bir çerçeve sağlayacağını umuyorum.

Bunu tedavi etmenin güzel bir yolu basit matematikle başlamak ve daha karmaşık gerçek veri durumuyla geriye doğru çalışmaktır. PDF'lerle, CDF'lerle ve ters CDF'lerle (nicel işlevler olarak da bilinir) başlayalım. x inci miktarsal pdf bir dağılım f ve ED F olduğu F-1(x) . Varsayalım z dilimden olan F-1(z/100) . Bu, tanımladığınız belirsizliği saptamanın bir yolunu sunar: F'nin bulunduğu durumlara bakabiliriz.F 1) tersinir değil, 2) yalnızca belirli bir etki alanında ters çevrilemez veya 3) tersinir ancak tersi asla belirli değerlere ulaşmaz.

1 örneği): Bunu en son bırakacağım; Okumaya devam et.

2'ye örnek): Tek biçimli bir 0,1 dağılımı için, CDF [0, 1] ile sınırlandırıldığında ters çevrilebilir, böylece 100'üncü ve 0ncı yüzdelikler verilen F-1(1) ve F-1(0) tanımlanabilir. bu ihmal. Aksi takdirde, F(-0.5) (örneğin) 0 olduğu için hatalı tanımlanırlar .

Başka bir 2 örneği): 0 ila 1 ve 2 ila 3 arasındaki iki ayrık aralıktaki eşit dağılım için, CDF buna benzer.

görüntü tanımını buraya girin

Bu dağılımın çoğu kuvanteri var ve benzersizdir, ancak ortanca (50'nci yüzdelik) doğası gereği belirsizdir. R'de yarıya kadar giderler: quantile(c(runif(100), runif(100) + 2), 0.5)yaklaşık 1.5 döndürür.

3 Örneği): Normal bir dağılım için, 100. ve 0. Yüzdelikler mevcut değildir (ya da " ± " dırlar ). Bunun nedeni normal CDF'nin asla 0 veya 1'e ulaşmamasıdır.

z/100yF(y)=z/100

görüntü tanımını buraya girin

60. yüzde değerinde R, 1 ( quantile(c(rpois(lambda = 1, n = 1000) ), 0.60)) değerini döndürür . 65 yüzdelik dilimde R, 1 değerini de döndürür. Bunu 100 gözlem çizerek, onları en yükseğe yükseğe sıralayarak ve 60 ya da 65. maddeye döndürerek düşünebilirsiniz. Bunu yaparsanız, en sık 1 elde edersiniz.

Gerçek verilere gelince, tüm dağılımlar ayrıktır. (Ampirik CDF runif(100)veya np.random.random(100)100 artar. Yaklaşık 0.5 kümelenmiş) Ancak, oldukça ayrık olarak tedavi yerine, R ' quantilefonksiyonu sürekli dağılımlar örnekler olarak ele görünmektedir. Örneğin, 3,4, 5, 6, 7, 8 numaralı numunenin ortanca değeri (50. yüzde veya 0,5 kuantil) 5.5 olarak verilmiştir. Bir unif (3,8) dağılımından 2n örnekler alırsanız ve nth ve (n + 1) inci örnekler arasında herhangi bir sayı alırsanız, n arttıkça 5.5 üzerinde birleşirsiniz.

Ayrık düzgün dağılım dağılımını 3,4,5,6,7,8'e eşit çarpma ihtimali ile birlikte düşünmek ilginçtir. (Bir kalıp rulosu artı iki) Poisson dağılımı için yukarıda belirtilen örnek ve rütbe yaklaşımını kullanırsanız, genellikle 5 veya 6 elde edersiniz. Beşler ve yarı altı. 5.5 de burada makul bir uzlaşma gibi görünüyor.


2
F1[0,1]F[0,1]F
whuber

İyi bir nokta. Bunu netleştirmek için bazı davaları ayırmaya çalıştım. Süreklilik tartışmasını nasıl geliştirirsiniz? Kuantillerin tahmin ediciler olarak yorumlanması cevabımın merkezi noktasıdır; onlar olmadan bana anlam ifade etmiyorlar.
eric_kernfeld

İkincisi: Quantiles hiçbir şeyi tahmin etmek zorunda değildir. Verileri tanımlamak ve görselleştirmek için kendi başlarına yararlıdırlar (ve genellikle tanımlayıcı istatistikler olarak kullanılırlar). Süreklilik: Çoğu makamın bütün yüzdeliklerin kesikli dağılımlar için var olduğunu söyleyeceğini düşünüyorum. Başka türlü ısrar etmek, gereksiz bir komplikasyondur. Ayrıca, herhangi bir veri kümesi için 0'dan 1'e ( dahil ) oluşan tüm miktarları mutlu bir şekilde sağlayan çoğu yazılım hesaplamasının sonuçlarını tamamen gizemli kılar . Olarak R, örneğin, yazın quantile(0).
whuber

Bu tartışma bana ayrık dağılımların niceliklerini anlamadığımı anlamamı sağladı. Sanırım bu cevabı silmeliyim.
eric_kernfeld

1
İnsanlar bu konuda çeşitlilik gösteriyor, Eric. Cevaplarım yanıltıcı olacak kadar yanlış olduğunda, önce onları silerim. Cevabın bir bölümünde bazı potansiyel değerler görürsem, yanıltıcı kısmı çıkarmak (veya açıklamak) için düzenlerim ve sonra geri çeviririm. Diğerleri ise oylamada işlerin durmasına ve topaklanmasına izin verir; Diğerleri, bazı yanlış anlamaların meydana geldiğini gören okuyucularda değer olabileceğini düşündüren bir düzenleme ekler; ancak diğerleri sadece silinir. İsterseniz bazen yaptığınız gibi cevabı bile tamamen değiştirebilirsiniz.
whuber

2

N yüzdelikteki bir gözlemin, incelenen veri setindeki gözlemlerin% n'inden büyük olduğu öğrenildi. Bu benim için 0 veya 100'üncü yüzdelik olmadığını gösteriyor. Hiçbir gözlem, gözlemlerin% 100'ünden büyük olamaz çünkü% 100'ün bir parçasını oluşturur (ve 0 durumunda benzer bir mantık geçerlidir).

Düzenleme: "X: Ne 's değerinde için, bu da karşılaştığım o dönem akademik olmayan kullanımı ile tutarlıdır n'inci yüzdelik içinde " yüzdelik grubu, bir sınır olduğunu ima eder.

Maalesef sizi işaret edebileceğim bir kaynak yok.


6
Ne öğretildiğini hatırladığın için yetkili bir referansın var mı? Örtik olarak "yüzdelik" tanımını bir grup sayı olarak benimsediğinizi unutmayın . Soruda alıntı yapılan diğer bir tanım, yüzdelik oranın bu gruplar arasında bir sınır olduğudur .
whuber

1
Bu benim için bir anlam ifade etmiyor, çünkü verilerinizin 2,2,2,2,2,2,2,2,2,2,2,2,2 olduğunu ve bir miktardaki bir öğenin soldaki bir öğeye eşit olduğunu varsayalım. önceki nicelik. Bu yüzden, n. Kuantildeki bir madde ondan kalan tüm kuantillerden daha büyük değildir. Bu yüzden, yüzde yüzdeliğindeki bir madde, veri kümesindeki gözlemlerin% n'inden büyük değildir. Veri kümesindeki>> n gözlemlerin% 'si, ancak sadece> değil. Ve böylece 100'üncü bir ademi çocuğunuz olabilir. Bu mantığı ne yapıyorsunuz?
barlop

4
Tüm değerler aynıysa, birçok tanım zorlanmaya başlar!
Nick Cox

2
Matematik yazanlar soyut ve ideal olurken yazılım yazanlar verilerin dağınıklığı ile uğraşmak zorundadırlar. 16 değer örneğiniz, aynı değerlerin aynı şekilde bindirilmesi gerektiği (ve aynı fikirdeyim) bir kuralı izleyen yazılım tarafından farklı şekilde ele alınacaktır. Tüm değerler farklı olsa bile hiçbir kuralın verileri eşit büyüklükte 4 kutuya bölemeyeceği 15 veya 17 değerle veri üzerinde acı çekmemenize şaşırdım.
Nick Cox

3
Sıfır için benzer mantık nedir? "Gözlemlerin yüzde sıfırından büyük" ifadesi "tüm gözlemlere eşit veya daha küçük" anlamına gelmiyor mu, yani 0ncı yüzdelik gözlemlenen en düşük değer mi?
ilkkachu

2

Yüzdeleri hesaplamanın başka yolları da var, izleyenler sadece bu değil. Bu kaynaktan alınmıştır .


p pp%28808028

x1xn

nxipi

pi=100(i0.5)n

Gösterim için aynı notlardan örnek:

görüntü tanımını buraya girin

7507

200 numaranız olsaydı, yüzde 100 olmuştu, ama her biri iki rakamdan oluşan bir gruba atıfta bulunacaktı.

Yok hayır.

x1x200

100(10.5)200100(20.5)200100(30.5)200...

sonuçlanan

0.25,0.75,1.25...1,2,3,...


3
İlk cümle harika görünüyor ve en önemli kelimelerden biri yaklaşık olarak , Bundan sonra bu sadece bir tarifin dikkatli bir açıklaması. Önemli olan, birkaç tarifin mevcut olmasıdır ve çoğu, hepsinin kendilerinde bazı savunulabilir bir mantığı yoksa (bazen mantık işleri mümkün olduğu kadar basit tutmaktır). CV'de buradaki birçok iş parçacığında belirtilen Hyndman ve Fan kağıtlarına bakın. Birçok insanın son paragrafınızı örneğin yüzdeliklerini bildirme yöntemi olarak alacağından şüpheliyim.
Nick Cox

@Nick Cox Anlayışlı yorumunuz için teşekkür ederiz. Son paragraf hakkında, tüm gözlemler birbirinden farklı olduğunda, yöntemin iyi sonuç vermesi gerektiğine inanıyorum. Tekrarlanan sayılar durumunda, kulağa hoş gelmeyen aynı numara için benzersiz yüzdelik olmayacaktır. Davayla nasıl başa çıkacağınızı nazikçe önerebilir misiniz? Ayrıca son paragraftaki olası tuzaklara da dikkat çeker misiniz?
naif

1
Dergi literatüründe zaten iyi açıklanmış olanları eklemek istediğimi veya eklemek istediğimi sanmıyorum. İlk önce, bunun için bazı favori yazılımlarınız var. Neyi belgelediğini ve ne yaptığını görün. İkincisi, bir kaç on yıl boyunca eldeki yüzdeleri hesaplayamadım ve hiçbirimizin buna ihtiyacı yok. Üçüncüsü, son para ile ilgili noktaya geldim: Sanırım kimse gözlemlenen veri noktalarının 0,25, 0,75, 1,25, ... yüzdelik oranlar olduğunu söylemek istemez. İnsanların ne istediği değişkenlik gösterir, ancak benim deneyimlerime göre, en yaygın olarak örnek aşırı uçların yanı sıra 1, 5, 10, 25, 50, 75, 90, 95,% 99 puan gibi özetler isteniyor.
Nick Cox

1
0.5'in EDA jargonunda olduğunu savunduğunuzu fark ettim, genellikle medyanın p-değeri. Benim okumamda değil, ve p-değeri için gözlenen anlamlılık düzeyi olarak ezici bir çoğunluk duygusu verilen korkunç terminoloji örnekleri bulabilseniz bile.
Nick Cox

Önerdiğin makaleye bakacağım. Teşekkür ederim
saf

0

Not- Benimki yerine bir başkasının cevabını kabul edeceğim. Fakat bazı yararlı yorumlar görüyorum, bu yüzden sadece bunlardan bahseden bir cevap yazıyorum.

Nick'in cevabına göre ilk yüzde yarım için "-iles" terminolojisi

terimlerin belirsiz olduğu görülüyor ve sanırım (bu yazıyı anladığıma göre) daha iyi terminoloji% X puan ve% X -% Y grup olacaktı; yani nicel nokta (yani 0 ila 4 arasında herhangi bir şey olabilen dörtlü noktalar için); X kuantil noktasından Y kuantil noktasına değişen kuantil grup.

Her iki şekilde de, yüzdelik puanlar için 101 puan alır, ancak yorumlardan biri 101 puandan bahsedebileceğini öne sürse de (sanırım yüzdelik puanları saydıysanız ve yalnızca tamsayılar sayıyorsanız, sanırım) kuantil, sayılıyor ve birincisi 0 olarak sayılmıyor ve örneğin 4 çeyrekten fazla veya 100'den fazla yüzdelik değeriniz olamaz. Öyleyse, 1., 2., 3. konuşursanız, bu terminoloji gerçekten 0 puanına atıfta bulunamaz. Biri 0 puan dedi ise, o zaman açık olsa da 0 puan anlamına gelir, bence gerçekten 0 puan vermeli ya da noktadaki Quantile grubunu söylemeliler. 0. Bilgisayar bilimciler bile 0 demedi; Hatta ilk maddeyi 1 olarak sayıyorlar ve eğer 0 maddesi olarak adlandırırlarsa, bu 0'dan bir indeksleme sayılır.

Yorumda "100 olamaz. En fazla ve en az saymanıza bağlı olarak 99 veya 101 olamaz" yazıyor. Sanırım 99 ya da 101'e göre, gruptan ziyade nicel noktalardan bahsederken 0 diyemem. N maddesi için, bir dizin 0 ... n-1 arasında olabilir ve biri bir dizine th / st, örneğin 1., 2. vb. Yazmaz (belki dizin ilk maddeyi 1 olarak dizine almadıysa). Ancak, ilk maddeyi 0 diziniyle başlatan bir dizin 1, 2. 3. sayım değildir. Örneğin, 0 indeksi olan madde 1. maddedir, biri 0 demedi ve ikinci maddeyi 1. etiketle.


Herhangi bir belirsizlik, açık tarihsel emsalden ayrılanlar tarafından getirildi. Pratikte zor ısırmaz.
Nick Cox

Tüm matematikçiler sıfırdan saymaya başlar. Kavram basit ve doğal: "Sıfır" kelimesini yüksek sesle söylemek kişinin sayma niyetini açıklar. Ardından, biri sayılan nesnelere "bir", "" iki "," üç "sözcük dizisinin bire bir (belki de keyfi) birebir atanmasını sağlar. Bu kelimelerin sonuncusu (sonuncusu varsa) kümenin önem düzeyi ile eşittir. Bu fikrin güzelliği, sette hiçbir element olmadığı zaman, söylenen son kelimenin “sıfır” olmasıydı, ki bu eşsiz doğru değerdir.
whuber

@whuber "Tüm matematikçiler sıfıra saymaya başlıyor" yazıyorsunuz <- Sence başka türlü nerede dedim?
barlop

"sayıyor ve birincisi 0 olarak sayılmıyor".
whuber

1
@whuber muhtemelen pek çok kişi olabilir, sanırım yıllar önce, bilgisayar bilimleri okurken olduğu gibi, bazen bilgisayar bilimcilerinin 0'dan, unilke matematikçilerden sayıldığını duyduğumu duydum (bu sizin iddianız ya da benim değil), ama bazı derin düşüncelerden sonra daha fazlasını aldım. netlik ve bilgisayar bilimcilerin ve matematikçilerin her ikisinin de 0'dan sayıldığını fark etti. Fark, bilgisayar bilimcilerinin genellikle bir endeks kullanması ve endeksin de ilk maddeyi 0 olarak endekslemesi.
barlop
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.