Gaussian olarak kabul edilen normal, ancak çok çarpık bir dağılım mı?


12

Şu sorum var: Sizce YouTube'da günde harcanan zaman dağılımı neye benziyor?

Cevabım, muhtemelen normalde dağılmış ve eğri kalmış olmasıdır. Bazı kullanıcıların güç kullanıcıları ezici olduğu için çoğu kullanıcının ortalama bir zaman ve sonra uzun bir sağ kuyruk geçirdiği bir mod olmasını bekliyorum.

Bu adil bir cevap mı? Bu dağıtım için daha iyi bir kelime var mı?


4
Bazı cevapların belirttiği ancak vurgulamadığı gibi, çarpıklık daha uzun kuyruk için gayri resmi olarak adlandırılır, eğer daha uzun bir kuyruk varsa sağ çarpıktır. Bu bağlamda kullanıldığı gibi sol ve sağ, hem yatay eksende büyüklüğün gösterildiği bir kuralın ardından bir ekran gerektirir. Bu çok açık görünüyorsa, Dünya'daki ekranları ve büyüklüğün yükseklik veya derinlik olduğu ve dikey olarak gösterildiği çevre bilimlerini göz önünde bulundurun. Küçük baskı: Geometrik bir dağılım çarpık olsa bile bazı çarpıklık ölçüleri sıfır olabilir.
Nick Cox

1
Tüm kullanıcılar için toplam günlük süre? veya kişi başına günlük zaman? Eğer ikincisi, o zaman kesinlikle 0'da orta derecede büyük bir artış var, bu durumda muhtemelen 0'da bir Dirac deltası ile bir 'başak ve slab' tarzı dağılımına ihtiyacınız var.
innisfree

6
"Normal", "Gauss" ile eşanlamlıdır ve normal dağılımlar olarak da adlandırılan Gauss dağılımları eğri değildir.
Michael Hardy

Başlıktaki soruyu gövde metnindeki sorudan çok farklı buluyorum. Ya da en azından başlık çok kafa karıştırıcı. Hiçbir dağıtım 'normal değil, çok çarpıtılmış' bir çelişki. Ayrıca, Gauss dağılımı çok iyi tanımlanmıştır ve YouTube'da günde harcanan zamanın dağılımı gibi değil. Yani başlıktaki sorunun cevabı büyük bir hayır. f(x)=12πσ2tecrübe(-(x-μ)22σ2)
Sextus Empiricus

2
ayrıca, sondaki soru 'bu dağılım için daha iyi bir kelime var mı?' çok belirsiz veya geniştir. Bilgiler sadece 'bir mod' ve 'uzun bir sağ kuyruk' gibi görünüyor ('muhtemelen normal olarak dağıtılan' bölüm bir anlam ifade etmiyor). Bu koşulları sağlayan birçok dağıtım olabilir. Soruyu açıklığa kavuşturmaya çalışmadan önce bu sorunun ondan fazla cevap ve en azından alternatif dağıtım için çok sayıda teklif çekmesi şaşırtıcıdır (veri bile yoktur).
Sextus Empiricus

Yanıtlar:


15

Günde bir kısım kesinlikle negatif değildir. Bu, tüm gerçek eksen üzerinde - özellikle negatif yarıda - olasılık kütlesine sahip olan normal dağılımı göz ardı eder.

Güç hukuku dağılımları genellikle gelir dağılımları, şehirlerin büyüklükleri gibi şeyleri modellemek için kullanılır. Bunlar, YouTube'u izlemek için harcanan zamanı modellemek için ilk deneyeceğim. (Veya Çapraz Doğrulanmış soruları izleme.)

Güç yasaları hakkında daha fazla bilgiyi burada , burada veya etiketimizde bulabilirsiniz.


16
Normal dağıtımların gerçek hatta destek verdiği tamamen doğrudur. Ve yine de ... yetişkinlerin boyu veya kilosu gibi kesinlikle pozitif nitelikler için korkunç bir model değiller, burada ortalama ve varyans negatif değerlerin modelin altında olması pek olası değildir.
Matt Krause

2
@MattKrause Bu gerçekten harika bir soru - 'ortalama yüksekliğin 10 cm üstünde ya da altında' ya da 'ortalama yüksekliğin yüzde 10 üstünde ya da altında' olma olasılığı aynı mı? Sadece ilk vaka normal dağılım gerektirebilir.
Tomáš Kafka

1
@MattKrause: Genel anlamda tamamen katılıyorum. Ancak, bu soru YouTube'u izlemek için harcanan günlük zamanın oranı ile ilgilidir. Herhangi bir veriye sahip değiliz, ancak dağıtım uzaktan simetrik olsa bile çok şaşırırdım.
Stephan Kolassa

43

Normal bir dağılım çok eğri değildir. Bu bir çelişki. Normal olarak dağıtılan değişkenlerin çarpıklığı = 0'dır.


1
Dağıtımı tanımlamanın daha iyi bir yolu nedir? Bir mod etrafında merkezlenen ve sonra uzun bir kuyruğu olan bir dağıtım türü için bir kelime var mı?
Cauder

13
Unimodal ve çarpık gelebildiğim kadar yakın ...
jbowman

9
Bir yana, insanların diğer insanlara bu şeylerde daha iyi olmalarına yardımcı olmak için zaman ayırmaları gerçekten inanılmaz. Söylemeden gittiğini biliyorum, ama ikinizin de yaptıkları çok havalı!
Cauder

6
Evet, ancak bu ifadenin normal olarak dağıtılmış nüfusa ait olduğunu açıklığa kavuşturmak gerekir. Bu popülasyondan alınan bir örnek çok eğri olabilir.
gung - Monica'yı eski

Eğriltme değeri küçük olduğunda (söz konusu istatistiklerle ilgilenen kişiler tarafından "küçük" karar verilir), sonuç olarak küçük hatalar olsa da, yine de nüfusu normal olarak ele alabilirsiniz.
Carl Witthoft


13

Log-normal dağılım olabilir. Burada belirtildiği gibi :

Kullanıcıların çevrimiçi makalelerdeki (şakalar, haberler vb.) Kalma süreleri, günlük normal dağılımını izler.

Verilen referans: Yin, Peifeng; Luo, Ping; Lee, Wang-Chien; Wang, Min (2013). Sessizlik de bir delildir: tavsiye için kalma süresini psikolojik açıdan yorumlamak. ACM Uluslararası KDD Konferansı.


7

"Bu dağıtım için daha iyi bir kelime var mı?"

Burada , dağıtımın özelliklerini tanımlamak için kelimeleri kullanma ile dağıtım için bir "ad" bulmaya çalışmak arasında önemli bir ayrım vardır , böylece (yaklaşık) belirli bir standart dağıtımın bir örneği olarak tanımlayabilirsiniz: veya dağılım tablosu için istatistiksel tablolar bulunabilir ve parametrelerini tahmin edebilirsiniz. Bu son durumda, verilerinizin bulunduğu popülasyonu iddia etmek yerine, verilerinizin temel özelliklerinden bazılarını yakalayan bir model olarak adlandırılmış dağıtımı, örneğin "normal / Gaussian" (iki terim genellikle eşanlamlıdır) kullanıyorsunuzdur . çekilen tam o teorik dağıtılması esasına dayanmaktadır. George Box'ı biraz yanlış söylemek için,tüm modeller "yanlış" dır, ancak bazıları yararlıdır. Modelleme yaklaşımını düşünüyorsanız, hangi özellikleri dahil etmek istediğinizi ve modelinizin ne kadar karmaşık veya cimri olmasını istediğinizi düşünmeye değer.

Being pozitif çarpık dağılımı vardır, ancak kullanıma hazır dağılım "" uygun bir model olduğu belirtilerek yakın gelmediğini bir özellik açıklayan bir örnektir. Bazı adayları göz ardı eder, örneğin Gauss (normalde) dağılımının sıfır eğimi vardır, bu nedenle eğrilik önemli bir özellikse verilerinizi modellemek için uygun olmayacaktır. Verilerin sizin için önemli olan başka özellikleri de olabilir, örneğin, tek modlu (sadece bir zirveye sahiptir) veya 0 ile 24 saat arasında (veya bir kesir olarak yazıyorsanız 0 ile 1 arasında) sınırlandırılmış olması veya belirli bir günde youtube izlemeyen insanlar olduğundan) sıfıra konsantre edilmiş bir olasılık kütlesi var.basıklık . Ve dağılımınızın bir "kambur" veya "çan eğrisi" şekli olsa ve sıfır veya sıfıra yakın bir eğime sahip olsa bile, normal dağılımın bunun için "doğru" olduğunu otomatik olarak takip etmiyor! Öte yandan, verilerinizin alındığı nüfus bile örnekleme hatası nedeniyle belirli bir dağılımı tam olarak izlemiştirveri kümeniz buna pek benzemeyebilir. Küçük veri kümelerinin "gürültülü" olması muhtemeldir ve görebileceğiniz bazı özelliklerin, örneğin ek küçük tümsekler veya asimetrik kuyruklar, verilerin çekildiği temel popülasyonun özellikleri olup olmadığı belirsiz olabilir (ve belki de bu nedenle dahil edilmelidir) modelinizde) veya bunların yalnızca belirli örnekleminizdeki eser olup olmadığı (ve modelleme amaçları için göz ardı edilmesi gerekir). Küçük bir veri kümeniz varsa ve eğri sıfıra yakınsa, temel dağılımın aslında simetrik olması bile akla yatkındır. Veri kümeniz büyüdükçe ve çarpıklık büyüdükçe, bunun mantıksızlığı azalır - ancak verilerinizin çekildiği popülasyondaki çarpıklık için sağladığı kanıtın ne kadar ikna edici olduğunu görmek için bir anlamlılık testi gerçekleştirebilirsiniz., normal (veya başka bir sıfır çarpıklık) dağılımının model olarak uygun olup olmadığı konusunu kaçırıyor olabilirsiniz ...

Verilerin hangi özelliklerini modellemek istediğiniz amaçlar için gerçekten önemli? Eğriltme oldukça küçükse ve altta yatan popülasyon gerçekten çarpık olsa bile , çok fazla umursamıyorsanız , normal dağılımın, izleme sürelerinin bu gerçek dağılımına yaklaşmak için hala yararlı bir model bulabileceğinizi unutmayın . Ancak bunun aptalca tahminlerde bulunup bulunmadığını kontrol etmelisiniz. Normal bir dağılımın mümkün olan en yüksek veya en düşük değeri olmadığı için, aşırı yüksek veya düşük değerlerin gittikçe düşük olmasına rağmen, her zaman modelinizin bir miktar tahmin ettiğini görürsünüz.günde negatif sayıda saat veya 24 saatten fazla izleme olasılığı. Bu imkansız olayların tahmini olasılığı yüksek olursa, bu sizin için daha sorunlu hale gelir. Normal gibi simetrik bir dağılım, birçok insanın ortalamanın% 50'sinden daha azını izlemek gibi, ortalamaların% 50'sinden daha uzun süreler izleyeceğini tahmin edecektir. İzleme süreleri çok çarpıksa, bu tür bir tahmin de saçma olacak kadar mantıklı olmayabilir ve modelinizin sonuçlarını alıyorsanız ve bunları başka bir amaçla girdi olarak kullanıyorsanız, yanıltıcı sonuçlar verebilir (örneğin, Optimum reklam yayını zamanlamasını hesaplamak için izleme sürelerinin simülasyonunu çalıştırıyorsunuz). Çarpıklık o kadar dikkate değerse, onu modelinizin bir parçası olarak yakalamak istiyorsanız, o zamaneğriltme normal dağılımı daha uygun olabilir. Hem çarpıklığı hem de basıklığı yakalamak istiyorsanız, çarpık t'yi düşünün . Fiziksel olarak mümkün olan üst ve alt sınırları birleştirmek istiyorsanız , bu dağıtımların kesilmiş sürümlerini kullanmayı düşünün . F veya gama dağılımları gibi eğri ve unimodal olabilen (uygun parametre seçenekleri için) birçok başka olasılık dağılımı vardır ve yine bunları imkansız olarak yüksek izleme sürelerini tahmin etmemek için kısaltabilirsiniz. Bir beta dağılımıizlemeye harcanan günün bir kısmını modelliyorsanız iyi bir seçim olabilir, çünkü daha fazla kesme gerekmeden her zaman 0 ile 1 arasında sınırlıdır. İzleyici olmayanlar nedeniyle olasılık konsantrasyonunu tamamen sıfır olarak dahil etmek istiyorsanız, bir engel modeli oluşturmayı düşünün .

Ancak, verilerinizden belirleyebileceğiniz ve her zamankinden daha karmaşık bir model oluşturabileceğiniz her özelliği atmaya çalışıyorsunuz, belki de kendinize neden bunu yaptığınızı sormalısınız ? Daha basit bir modelin avantajı var mı, örneğin matematiksel olarak çalışmak daha kolay mı yoksa tahmin etmek için daha az parametreye sahip olmak mı? Bu basitleştirmenin sizi ilgilendiren tüm özellikleri yakalayamayacağından endişe ediyorsanız, hiçbir "kullanıma hazır" dağıtımın tam olarak istediğinizi yapmaması olabilir. Ancak, matematiksel özellikleri daha önce açıklanmış olan adlandırılmış dağılımlarla çalışmakla sınırlı değiliz. Bunun yerine, ampirik bir dağıtım işlevi oluşturmak için verilerinizi kullanmayı düşünün. Bu, verilerinizde mevcut olan tüm davranışları yakalayacaktır, ancak artık ona "normal" veya "gama" gibi bir ad veremez veya yalnızca belirli bir dağıtımla ilgili matematiksel özellikleri uygulayamazsınız. Örneğin, "verilerin% 95'i ortalama ortalama kuralının standart sapmalarının 1,96'sındadır" normal olarak dağıtılan veriler içindir ve dağıtımınız için geçerli olmayabilir; not rağmen bazı kurallar bütün dağılımlar için de geçerli olduğunu, örneğin Chebyshev eşitsizliği garanti en azındanVerilerinizin% 75'i, eğriden bağımsız olarak ortalamanın iki standart sapması dahilinde olmalıdır. Ne yazık ki ampirik dağıtım, sadece temeldeki popülasyonun sahip olduğu değil, sadece örnekleme hatasından kaynaklanan veri kümenizin tüm özelliklerini miras alacaktır, bu nedenle ampirik dağılımınızın bir histogramında nüfusun kendisinin sahip olmadığı bazı huzursuzluk ve düşüşler bulabilirsiniz. . Düzgünleştirilmiş ampirik dağıtım işlevlerini araştırmak veya daha da iyisi, örnekleminizin boyutunu artırmak isteyebilirsiniz .

Özetle: Normal dağılımın eğriliği sıfır olsa da, verilerinizin eğrilmiş olması, normal dağılımı faydalı bir model olarak dışlamaz, ancak diğer bazı dağıtımların daha uygun olabileceğini düşündürmektedir. Modelinizi seçerken eğriltmenin yanı sıra verilerin diğer özelliklerini de göz önünde bulundurmalı ve modeli kullanacağınız amaçları da göz önünde bulundurmalısınız. Gerçek izleme zamanları popülasyonunuzun ünlü, adlandırılmış bir dağılımı tam olarak takip etmediğini söylemek güvenlidir, ancak bu, böyle bir dağılımın model olarak işe yaramaya mahkum olduğu anlamına gelmez. Bununla birlikte, bazı amaçlar için, ampirik dağılımın kendisini, standart bir dağıtım takmayı denemek yerine kullanmayı tercih edebilirsiniz.





2

Bir engel modeline ne dersin?

Bir engel modelinin iki parçası vardır. Birincisi, YouTube'u hiç kullanıp kullanmadığınızı belirleyen Bernoulli denemesi. Eğer yapmazsanız, kullanım süreniz kesinlikle sıfırdır ve işiniz bitmiştir. Bunu yaparsanız, "o engeli geçersiniz", o zaman kullanım süresi kesinlikle diğer bazı olumlu dağıtımlardan gelir.

Yakın ilişkili bir kavram sıfır şişirilmiş modellerdir. Bunlar, bir grup sıfır gözlemlediğimiz, ancak her zaman sıfırlarla bazen sıfırlar arasında ayrım yapamayacağımız bir durumla ilgilenmek içindir. Örneğin, bir kişinin her gün sigara içtiği sigara sayısını düşünün. Sigara içmeyenler için bu sayı her zaman sıfırdır, ancak bazı sigara içenler belirli bir günde sigara içmeyebilir (sigara dışında mı? Uzun bir uçuşta mı?). Engel modelinin aksine, buradaki "sigara içen" dağılımı sıfır içermelidir, ancak bu sayımlar sigara içmeyenlerin katkısı ile de 'şişirilir'.


0

Eğer dağıtım normal dağılımın bir 'altkümesi' ise, kesilmiş bir modeli düşünmelisiniz. Bu bağlamda, TOBIT modellerinin ailesi yaygın olarak kullanılmaktadır.
Esasen, 0'da (pozitif) olasılık kütlesi ve daha sonra pozitif değerler için 'normal dağılımın bir kısmının kesilmesi' olan bir pdf önerirler .
Buradaki formülü yazmaktan kaçınacağım ve yerine Wikipedia makalesini haklı çıkaracağım: https://en.wikipedia.org/wiki/Tobit_model


-4

Normal dağılımlar tanımı gereği eğri değildir, bu nedenle her ikisine de sahip olamazsınız. Dağılım eğri kalırsa, Gauss olamaz. Farklı bir tane seçmen gerekecek! Aklınıza gelebilecek isteğinize en yakın şey şudur:

https://en.wikipedia.org/wiki/Skew_normal_distribution


5
OP'nin daha önce de belirtildiği gibi sol ve sağ çarpıklığı karıştırması dışında katılıyorum. Ve @behold bir cevapta çarpıklığı normal olarak önerdi. Yani, bunun mevcut cevaplara eklendiğini göremiyorum.
Nick Cox

Birçoğu düz bir üç satırlık yanıtta özetliyor
David

4
Üzgünüm, ama yine de tekrar.
Nick Cox

Tamam ... kimin umurunda?
David

4
Peki yaparım; ve yorumlarıma +1 ekleyen (açıkça ben değil) ve cevabınızı düşüren (olduğu gibi ben değil). Bu konu zaten uzun ve tekrarlı; ancak daha fazla yorum gelecekteki okuyucular için bunu iyileştirmez.
Nick Cox
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.