"Bu dağıtım için daha iyi bir kelime var mı?"
Burada , dağıtımın özelliklerini tanımlamak için kelimeleri kullanma ile dağıtım için bir "ad" bulmaya çalışmak arasında önemli bir ayrım vardır , böylece (yaklaşık) belirli bir standart dağıtımın bir örneği olarak tanımlayabilirsiniz: veya dağılım tablosu için istatistiksel tablolar bulunabilir ve parametrelerini tahmin edebilirsiniz. Bu son durumda, verilerinizin bulunduğu popülasyonu iddia etmek yerine, verilerinizin temel özelliklerinden bazılarını yakalayan bir model olarak adlandırılmış dağıtımı, örneğin "normal / Gaussian" (iki terim genellikle eşanlamlıdır) kullanıyorsunuzdur . çekilen tam o teorik dağıtılması esasına dayanmaktadır. George Box'ı biraz yanlış söylemek için,tüm modeller "yanlış" dır, ancak bazıları yararlıdır. Modelleme yaklaşımını düşünüyorsanız, hangi özellikleri dahil etmek istediğinizi ve modelinizin ne kadar karmaşık veya cimri olmasını istediğinizi düşünmeye değer.
Being pozitif çarpık dağılımı vardır, ancak kullanıma hazır dağılım "" uygun bir model olduğu belirtilerek yakın gelmediğini bir özellik açıklayan bir örnektir. Bazı adayları göz ardı eder, örneğin Gauss (normalde) dağılımının sıfır eğimi vardır, bu nedenle eğrilik önemli bir özellikse verilerinizi modellemek için uygun olmayacaktır. Verilerin sizin için önemli olan başka özellikleri de olabilir, örneğin, tek modlu (sadece bir zirveye sahiptir) veya 0 ile 24 saat arasında (veya bir kesir olarak yazıyorsanız 0 ile 1 arasında) sınırlandırılmış olması veya belirli bir günde youtube izlemeyen insanlar olduğundan) sıfıra konsantre edilmiş bir olasılık kütlesi var.basıklık . Ve dağılımınızın bir "kambur" veya "çan eğrisi" şekli olsa ve sıfır veya sıfıra yakın bir eğime sahip olsa bile, normal dağılımın bunun için "doğru" olduğunu otomatik olarak takip etmiyor! Öte yandan, verilerinizin alındığı nüfus bile örnekleme hatası nedeniyle belirli bir dağılımı tam olarak izlemiştirveri kümeniz buna pek benzemeyebilir. Küçük veri kümelerinin "gürültülü" olması muhtemeldir ve görebileceğiniz bazı özelliklerin, örneğin ek küçük tümsekler veya asimetrik kuyruklar, verilerin çekildiği temel popülasyonun özellikleri olup olmadığı belirsiz olabilir (ve belki de bu nedenle dahil edilmelidir) modelinizde) veya bunların yalnızca belirli örnekleminizdeki eser olup olmadığı (ve modelleme amaçları için göz ardı edilmesi gerekir). Küçük bir veri kümeniz varsa ve eğri sıfıra yakınsa, temel dağılımın aslında simetrik olması bile akla yatkındır. Veri kümeniz büyüdükçe ve çarpıklık büyüdükçe, bunun mantıksızlığı azalır - ancak verilerinizin çekildiği popülasyondaki çarpıklık için sağladığı kanıtın ne kadar ikna edici olduğunu görmek için bir anlamlılık testi gerçekleştirebilirsiniz., normal (veya başka bir sıfır çarpıklık) dağılımının model olarak uygun olup olmadığı konusunu kaçırıyor olabilirsiniz ...
Verilerin hangi özelliklerini modellemek istediğiniz amaçlar için gerçekten önemli? Eğriltme oldukça küçükse ve altta yatan popülasyon gerçekten çarpık olsa bile , çok fazla umursamıyorsanız , normal dağılımın, izleme sürelerinin bu gerçek dağılımına yaklaşmak için hala yararlı bir model bulabileceğinizi unutmayın . Ancak bunun aptalca tahminlerde bulunup bulunmadığını kontrol etmelisiniz. Normal bir dağılımın mümkün olan en yüksek veya en düşük değeri olmadığı için, aşırı yüksek veya düşük değerlerin gittikçe düşük olmasına rağmen, her zaman modelinizin bir miktar tahmin ettiğini görürsünüz.günde negatif sayıda saat veya 24 saatten fazla izleme olasılığı. Bu imkansız olayların tahmini olasılığı yüksek olursa, bu sizin için daha sorunlu hale gelir. Normal gibi simetrik bir dağılım, birçok insanın ortalamanın% 50'sinden daha azını izlemek gibi, ortalamaların% 50'sinden daha uzun süreler izleyeceğini tahmin edecektir. İzleme süreleri çok çarpıksa, bu tür bir tahmin de saçma olacak kadar mantıklı olmayabilir ve modelinizin sonuçlarını alıyorsanız ve bunları başka bir amaçla girdi olarak kullanıyorsanız, yanıltıcı sonuçlar verebilir (örneğin, Optimum reklam yayını zamanlamasını hesaplamak için izleme sürelerinin simülasyonunu çalıştırıyorsunuz). Çarpıklık o kadar dikkate değerse, onu modelinizin bir parçası olarak yakalamak istiyorsanız, o zamaneğriltme normal dağılımı daha uygun olabilir. Hem çarpıklığı hem de basıklığı yakalamak istiyorsanız, çarpık t'yi düşünün . Fiziksel olarak mümkün olan üst ve alt sınırları birleştirmek istiyorsanız , bu dağıtımların kesilmiş sürümlerini kullanmayı düşünün . F veya gama dağılımları gibi eğri ve unimodal olabilen (uygun parametre seçenekleri için) birçok başka olasılık dağılımı vardır ve yine bunları imkansız olarak yüksek izleme sürelerini tahmin etmemek için kısaltabilirsiniz. Bir beta dağılımıizlemeye harcanan günün bir kısmını modelliyorsanız iyi bir seçim olabilir, çünkü daha fazla kesme gerekmeden her zaman 0 ile 1 arasında sınırlıdır. İzleyici olmayanlar nedeniyle olasılık konsantrasyonunu tamamen sıfır olarak dahil etmek istiyorsanız, bir engel modeli oluşturmayı düşünün .
Ancak, verilerinizden belirleyebileceğiniz ve her zamankinden daha karmaşık bir model oluşturabileceğiniz her özelliği atmaya çalışıyorsunuz, belki de kendinize neden bunu yaptığınızı sormalısınız ? Daha basit bir modelin avantajı var mı, örneğin matematiksel olarak çalışmak daha kolay mı yoksa tahmin etmek için daha az parametreye sahip olmak mı? Bu basitleştirmenin sizi ilgilendiren tüm özellikleri yakalayamayacağından endişe ediyorsanız, hiçbir "kullanıma hazır" dağıtımın tam olarak istediğinizi yapmaması olabilir. Ancak, matematiksel özellikleri daha önce açıklanmış olan adlandırılmış dağılımlarla çalışmakla sınırlı değiliz. Bunun yerine, ampirik bir dağıtım işlevi oluşturmak için verilerinizi kullanmayı düşünün. Bu, verilerinizde mevcut olan tüm davranışları yakalayacaktır, ancak artık ona "normal" veya "gama" gibi bir ad veremez veya yalnızca belirli bir dağıtımla ilgili matematiksel özellikleri uygulayamazsınız. Örneğin, "verilerin% 95'i ortalama ortalama kuralının standart sapmalarının 1,96'sındadır" normal olarak dağıtılan veriler içindir ve dağıtımınız için geçerli olmayabilir; not rağmen bazı kurallar bütün dağılımlar için de geçerli olduğunu, örneğin Chebyshev eşitsizliği garanti en azındanVerilerinizin% 75'i, eğriden bağımsız olarak ortalamanın iki standart sapması dahilinde olmalıdır. Ne yazık ki ampirik dağıtım, sadece temeldeki popülasyonun sahip olduğu değil, sadece örnekleme hatasından kaynaklanan veri kümenizin tüm özelliklerini miras alacaktır, bu nedenle ampirik dağılımınızın bir histogramında nüfusun kendisinin sahip olmadığı bazı huzursuzluk ve düşüşler bulabilirsiniz. . Düzgünleştirilmiş ampirik dağıtım işlevlerini araştırmak veya daha da iyisi, örnekleminizin boyutunu artırmak isteyebilirsiniz .
Özetle: Normal dağılımın eğriliği sıfır olsa da, verilerinizin eğrilmiş olması, normal dağılımı faydalı bir model olarak dışlamaz, ancak diğer bazı dağıtımların daha uygun olabileceğini düşündürmektedir. Modelinizi seçerken eğriltmenin yanı sıra verilerin diğer özelliklerini de göz önünde bulundurmalı ve modeli kullanacağınız amaçları da göz önünde bulundurmalısınız. Gerçek izleme zamanları popülasyonunuzun ünlü, adlandırılmış bir dağılımı tam olarak takip etmediğini söylemek güvenlidir, ancak bu, böyle bir dağılımın model olarak işe yaramaya mahkum olduğu anlamına gelmez. Bununla birlikte, bazı amaçlar için, ampirik dağılımın kendisini, standart bir dağıtım takmayı denemek yerine kullanmayı tercih edebilirsiniz.