Poisson dağılımını normal dağılıma dönüştürme


10

Öncelikle bir bilgisayar bilimi geçmişim var ama şimdi kendime temel istatistikleri öğretmeye çalışıyorum. Poisson dağılımı olduğunu düşündüğüm bazı verilerim var

resim açıklamasını buraya girin

İki sorum var:

  1. Bu bir Poisson dağılımı mı?
  2. İkincisi, bunu normal bir dağılıma dönüştürmek mümkün mü?

Herhangi bir yardım mutluluk duyacağız. Çok teşekkürler


3
1. Hayır, bir Poisson dağılımı genellikle parametresinin yakınında bir moda sahiptir ve bu nedenle bunu bir Poisson dağılımı ile eşleştirmek, parametre için çok küçük bir değer anlamına gelir. 2. Evet ve hayır. Normal bir dağılımla ne yapmak istersiniz?
Dilip Sarwate

Bu verileri lojistik bir gerilemeye beslemeye çalışıyorum. Normal olarak dağıtılan verilerin çok daha iyi sonuçlar verdiğine inanmaya yönlendirildim
Abhi

Yanıtlar:


11

1) Tasvir edilen, çubuk grafik olarak çizilen (gruplandırılmış) sürekli veriler gibi görünmektedir.

Bunun bir Poisson dağılımı olmadığı sonucuna varabilirsiniz .

Poisson rasgele değişkeni 0, 1, 2, ... değerlerini alır ve yalnızca ortalama 1'den küçük olduğunda 0'da en yüksek zirveye sahiptir. Sayım verileri için kullanılır; Poisson verilerinin benzer bir grafiğini çizdiyseniz, aşağıdaki grafiklere benzeyebilir:

resim açıklamasını buraya girin

Birincisi, kendinize benzer çarpıklık gösteren bir Poisson. Ortalamanın oldukça küçük olduğunu görebilirsiniz (yaklaşık 0.6).

İkincisi, sizinkine benzer (çok kaba bir tahminde) anlamına gelen bir Poisson. Gördüğünüz gibi oldukça simetrik görünüyor.

Çarpıklık veya büyük ortalamaya sahip olabilirsiniz, ancak her ikisine de aynı anda sahip olamazsınız.

2) (i) Ayrık verileri normal yapamazsınız -

Gruplandırılmış verilerle, monotonikliği artıran herhangi bir dönüşümü kullanarak, bir gruptaki tüm değerleri aynı yere taşıyacaksınız, böylece en düşük grup yine de en yüksek zirveye sahip olacaktır - aşağıdaki tabloya bakın. İlk grafikte, x değerlerinin konumlarını normal bir cdf ile yakından eşleşecek şekilde taşıyoruz:

resim açıklamasını buraya girin

İkinci grafikte dönüşümden sonra olasılık fonksiyonunu görüyoruz. Normallik gibi bir şeye gerçekten ulaşamayız çünkü hem ayrık hem de eğri; ilk grubun büyük sıçraması, sağa veya sola itmenizden bağımsız olarak büyük bir sıçrama olarak kalacaktır.

(ii) Sürekli çarpık veriler makul görünecek şekilde dönüştürülebilir. Ham (gruplanmamış) değerleriniz varsa ve çok ayrık değilse, muhtemelen bir şeyler yapabilirsiniz, ancak o zaman bile insanlar genellikle verilerini dönüştürmeye çalıştıklarında gereksizdir veya altta yatan sorun farklı (genellikle daha iyi) bir şekilde çözülebilir . Bazen dönüşüm iyi bir seçimdir, ancak genellikle çok iyi olmayan nedenlerle yapılır.

Öyleyse ... neden dönüştürmek istiyorsun?


Glen çok ayrıntılı cevap için teşekkür ederim. Birçok kavramı açıklar. Bu verileri lojistik regresyon modeline beslemeye çalışıyorum. Normal olarak dağıtılan verilerin çok daha iyi sonuçlar verdiğini düşündüm (şimdi o kadar emin değilim). Ne önerirsiniz?
Abhi

1
Bu bağımsız değişken ( x-değişken)? Bu bağlamda "daha iyi sonuçlar" ile ne demek istiyorsun?
Glen_b-Monica

@Glen_b Harika cevap için çok teşekkürler. Ben de bilgisayar bilimleri geçmişindeyim ve bu soruya takılı kaldım : stats.stackexchange.com/questions/408232/… Lütfen bana bu konu hakkındaki düşüncelerinizi bildirin. Cevabınızı sabırsızlıkla bekliyorum. Çok teşekkür ederim bir kez daha :)
EmJ

Lütfen sorularınızı yanıtlamak üzere kişileri işe almaya çalışmak için yorumları kullanmayın. Sorunu zaten gördüm.
Glen_b

0

Posterity için daha eğlenceli bilgiler yayınlamak.

Sayım verilerinin lojistik regresyonlar için bağımsız bir değişken olarak kullanımı ile ilgili benzer bir sorunu tartışan daha eski bir yazı var.

İşte burada:

Sayım verilerini bağımsız değişken olarak kullanmak GLM varsayımlarından herhangi birini ihlal ediyor mu?

Glen'in dichotomous bir sonucu tahmin etmeye çalışıyorsanız bahsettiği gibi, dönüştürülmemiş sayım verilerini lojistik regresyon modelinizin doğrudan bir bileşeni olarak kullanabilmeniz mümkündür. Bununla birlikte, bir uyarı notu: Bağımsız bir değişken (IV) hem poisson dağıtıldığında VE ham değerleri kullanarak birçok büyüklük aralığında değiştiğinde, son derece etkili noktalara neden olabilir, bu da modelinize ağırlık verebilir. Bu durumda, daha sağlam bir model elde etmek için IV'lerinize bir dönüşüm gerçekleştirmek yararlı olabilir.

Karekök veya log gibi dönüşümler, IV ve olasılık oranı arasındaki ilişkiyi artırabilir. Örneğin, X'deki üç büyüklük sırası (ortalama X değerinden uzakta) ile yapılan değişiklikler Y'nin meydana gelme olasılığında (0,5'ten uzakta) sadece 0,1'lik bir değişikliğe karşılık geliyorsa, herhangi bir model tutarsızlığının aykırı X değerlerinden aşırı kaldıraç nedeniyle önemli yanlılığa neden olur.

Daha fazla açıklamak için, bir kişinin biberi "rahatsız edici baharatlı" (aralık [Y] =) olarak sınıflandırma olasılığını tahmin etmek için çeşitli biberlerin Scoville derecesini (alan [X] = {0, 3.2 milyon}) kullanmak istediğimizi düşünün. {1 = evet, 0 = hayır}) X değerine sahip bir biber yedikten sonra.

https://en.wikipedia.org/wiki/Scoville_scale

Scoville derecelendirme çizelgesine bakarsanız, ham Scoville derecelendirmelerinin bir günlük dönüşümünün size her bir biberin öznel (1-10) derecelendirmelerine daha yakın bir yaklaşım sağlayacağını görebilirsiniz.

Bu durumda, ham Scoville dereceleri ile öznel ısı derecesi arasındaki gerçek ilişkiyi yakalayan daha sağlam bir model yapmak isteseydik, X değerleri üzerinde logaritmik bir dönüşüm gerçekleştirebiliriz. Bunu yaparak, büyüklük derecelerine göre farklılık gösteren değerler arasındaki mesafeyi etkili bir şekilde "küçülterek" ve sonuç olarak herhangi bir X aykırı değerini (örneğin, kapsaisin intoleranslı ve / veya çılgın baharat şeylerini) azaltarak aşırı büyük X alanının etkisini azaltırız! !!) tahminlerimiz var.

Umarım bu eğlenceli bir bağlam ekler!

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.