Analiz için CDF ve PDF istatistiklerini kullanma


12

Bu çok genel bir soru olabilir ama umarım burada yardım bulabilirim. Üniversitemde bir RA işine başlıyorum ve konumum İnternet Trafik Analizi ile ilgili olacak. Analiz dünyasında oldukça yeniyim ama araştırma dünyasında sanırım çok yapmam gereken bu.

Birkaç makaleden geçtim ve birçoğunda elde ettikleri sonuçları açıklamak için Olasılık Yoğunluğu (PDF), CDF, CCDF vb. Örneğin, PDF kullanıcı oturumu süresi, her gün aktarılan bayt CDF vb. Olasılık ve istatistik sınıfı aldım, bu yüzden ne olduklarını anlıyorum ama hala bu tür bir temsil seçileceği durumlarda kafam karıştı.

Yani, eğer böyle grafikler ve analizler yapan biri varsa (genel olarak veya başka herhangi bir konuda) bana bu temsillerden birini veya diğerini hangi durumda kullanacağımı söyleyebilir misiniz?

Yanıtlar:


17

Bu kısmen bir zevk ve konvansiyon meselesidir, ancak teori, hedeflerinize dikkat etmek ve bilişsel sinirbilimin bir parçası [referanslara bakın] biraz rehberlik sağlayabilir.

Bir pdf ve bir cdf aynı bilgiyi ilettiğinden, aralarındaki ayrım bunu nasıl yaptıklarıyla ortaya çıkar : pdf, alanlarla olasılığı temsil ederken, cdf (dikey) mesafelerle olasılığı temsil eder . Araştırmalar insanların mesafeleri alanları karşılaştırdıklarından daha hızlı ve daha doğru karşılaştırdıklarını ve alanları sistematik olarak yanlış tahmin ettiklerini göstermektedir. Bu nedenle, amacınız olasılıkları okumak için grafiksel bir araç sağlamaksa, bir cdf kullanmayı tercih etmelisiniz.

Pdfs ve cdfs de olasılık yoğunluğunu temsil eder : birincisi bunu yükseklik yoluyla yapar , ikincisi ise eğimi ile yoğunluğu temsil eder . Şimdi tablolar döndü, çünkü insanlar eğimin zayıf tahmincisi (bir açının tanjantıdır; açının kendisini görme eğilimindeyiz). Yoğunluklar, modlar, kuyrukların ağırlığı ve boşluklar hakkında bilgi aktarmada iyidir. Bu tür durumlarda ve olasılık dağılımının yerel detaylarının vurgulanması gereken başka yerlerde pdfs kullanmayı tercih edin.

Bazen bir pdf veya cdf yararlı teorik bilgiler sağlar. Değeri (ya da daha doğrusu tersi), kantil, aşırılıklar ve rütbe istatistikleri için standart hataların formüllerinde yer alır. Bu gibi durumlarda cdf yerine pdf görüntüler. Kopulalar gibi parametrik olmayan bir ortamda çok değişkenli korelasyonları incelerken , cdf daha yararlı olur (belki de sürekli bir olasılık yasasını tekdüze hale getiren işlevdir).

Bir pdf veya cdf, belirli bir istatistiksel testle yakından ilişkili olabilir. Kolmogorov-Smirnov testi (KS istatistik) CDF etrafında dikey tampon açısından basit bir grafik temsili sahiptir; pdf açısından bildiğim basit bir grafik temsili yoktur.

Ccdf (tamamlayıcı cdf) hayatta kalma ve nadir olaylara odaklanan özel uygulamalarda kullanılır. Kullanımı sözleşmeyle kurulma eğilimindedir.

Referanslar

WS Cleveland (1994). Verilerin Grafiğinin Elemanları. Zirve, NJ, ABD: Hobart Yayınları. ISBN 0-9634884-1-4

BD Dent (1999). Haritacılık: Tematik Harita Tasarımı 5. Baskı. Boston, MA, ABD: WCB McGraw-Hill.

AM MacEachren (2004). Haritalar Nasıl Çalışır. New York, NY, ABD: Guilford Press. ISBN 1-57230-040-X


(+1) özellikle alanlara karşı mesafelerin ve eğime karşı yüksekliğin yorumlanabilirliğindeki anlayışlar için.
steffen

8

Whuber'ın cevabına katılıyorum, ancak ek bir küçük nokta daha var:

CDF'nin herhangi bir seçim yapılması gerekmeyen parametrik olmayan basit bir tahmincisi vardır: ampirik dağıtım fonksiyonu . O değil oldukça PDF tahmin etmek o kadar basit. Bir histogram kullanıyorsanız, bölmenin genişliğini ve ilk bölmenin başlangıç ​​noktasını seçmeniz gerekir. Çekirdek yoğunluğu tahmini kullanıyorsanız , çekirdek şeklini ve bant genişliğini seçmeniz gerekir. Şüpheli veya alaycı bir okuyucu bunları gerçekten bir a priori seçip seçmediğinizi veya birkaç farklı değer denediğinizi ve en çok sevdiğiniz sonucu verenleri seçip seçmediğinizi merak edebilir.

Bu sadece küçük bir nokta. Whuber yapılan olanlar daha önemlidir, bu yüzden muhtemelen sadece bunu düşündükten sonra hala kararsız olduğunda seçmek için kullanabilirsiniz.


Hala ilginç bir nokta. Getirdiğiniz için teşekkürler.
whuber

2

Sanırım hangi istatistik veya bulguları bulacağınıza, araştıracağınıza, çalışacağınıza veya raporlayacağınıza bağlı. Üniversite konunuzla ilgili bulguları temsil etmek için bu grafikleri kullanacağınızı tahmin ediyorum, değil mi?

Örneğin, 'Kullanıcıların belirli bir web sitesinde ne kadar kalması' hakkında bulmanızı sunmak istiyorsanız, söz konusu web sitesinde, sayfalar aracılığıyla harcadığı zamanı gösterdiği için CDF'de göstermek iyi olabilir. .

Öte yandan, kullanıcıların bir reklam bağlantısını (ör. Google adwords bağlantısı) tıklatma olasılığını göstermek istiyorsanız, muhtemelen normal bir dağıtım zili eğrisi olacağı için PDF biçiminde sunmak isteyebilirsiniz. bu heppening olasılığı.

Umarım bu yardımcı olur, Jeff

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.