Normal dağılım ve monotonik dönüşümler


9

Doğada meydana gelen birçok miktarın normal olarak dağıldığını duydum. Bu tipik olarak, çok sayıda iid rasgele değişkenleri ortalamalandırdığınızda normal bir dağılım elde ettiğinizi söyleyen merkezi limit teoremi kullanılarak doğrulanır. Dolayısıyla, örneğin, çok sayıda genin ilave etkisi ile belirlenen bir özellik yaklaşık olarak normal olarak dağıtılabilir, çünkü gen değerleri kabaca rastgele değişkenler gibi davranabilir.

Şimdi, beni şaşırtan şey, normal olarak dağılma özelliğinin monotonik dönüşümler altında açıkça değişmez olmasıdır. Dolayısıyla, monotonik bir dönüşümle ilişkili bir şeyi ölçmenin iki yolu varsa, bunların her ikisinin de normal olarak dağılması olası değildir (monotonik dönüşüm doğrusal değilse). Örneğin, yağmur damlalarının boyutlarını çap, yüzey alanı veya hacme göre ölçebiliriz. Tüm yağmur damlaları için benzer şekiller varsayıldığında, yüzey alanı çapın karesi ile orantılıdır ve hacim çapın küpü ile orantılıdır. Dolayısıyla tüm bu ölçüm yolları normal olarak dağıtılamaz.

Benim sorum şu ki, dağılımın normal hale geldiği özel ölçekleme yolunun (yani, monotonik dönüşümün belirli bir seçiminin) fiziksel bir önemi olup olmadığıdır. Örneğin, yükseklikler normalde dağılmalı mı, yükseklik karesi mi yoksa yükseklik logaritması mı, yoksa kare karenin kökü mü? Yüksekliği etkileyen süreçleri anlayarak bu soruyu cevaplamanın bir yolu var mı?


Her zaman anladığım gibi, merkezi limit teoremi çok sayıda iid rasgele değişkenlerin ortalamasında bir şey varsaymaz. Daha ziyade, örnekleme araçları söz konusu olduğunda, araçların dağılımının normal hale geldiğini (örneklenen şeyin altında yatan dağılımdan bağımsız) belirtir. Bu yüzden, sorunuzun öncülünün geçerli olup olmadığını sorgularım.
Henrik

Ancak, örnekleme ortalaması, temel dağılımın dağılımına bakılmaksızın normal hale gelirse, 'çok sayıda rastgele değişken değişkenin ortalamasını almak' normal bir dağılım elde etmek demek değildir. Bana göre eşdeğer ifadeler gibi görünüyorlar.

Gözlerimde değil (ama aksi halde ikna olmak istiyorum). Bir durumda (CLT ile kastedildiğini düşündüğüm) bir dağıtımdan örnekler çizersiniz. Araçları normal olarak dağıtılır. Ne soru ve alıntı "ortalama çok sayıda iid rasgele değişkenler" anlıyorum sth farklıdır: farklı iid rasgele değişkenlerden bireysel somut örnekler bir özellik belirler (veya makyaj). Bu nedenle, tek bir dağılımdan ortalama (yani bir ortalama hesaplamak) ve CLT'nin uygulaması yoktur. Bence mbq'nin cevapları aynı konuyu gösteriyor.
Henrik

1
Bazı koşullar geçerliyse, dağıtımın aynı olması gerekmez. Bkz: en.wikipedia.org/wiki/…

1
@Henrik N bağımsız ve aynı şekilde dağıtılmış RV'lerin her birinden tek bir örnek ile tek bir RV'nin N'den bağımsız ölçümleri arasında anlamlı bir fark var mı ?
walkytalky

Yanıtlar:


5

Çok güzel bir soru. Cevabın, söz konusu ölçüme yol açan temel süreci belirleyip belirleyemeyeceğinize bağlı olduğunu hissediyorum. Örneğin, yüksekliğin birkaç faktörün (örneğin ebeveynlerin yüksekliği, büyükanne ve büyükbabaların yüksekliği vb.) Doğrusal bir kombinasyonu olduğuna dair kanıtınız varsa, yüksekliğin normal olarak dağıtıldığını varsaymak doğal olacaktır. Öte yandan, yükseklik günlüğünün çeşitli değişkenlerin (örneğin, günlük ebeveyn yükseklikleri, büyükanne ve büyükbaba yüksekliklerinin günlüğü vb.) Doğrusal bir birleşimi olduğuna dair kanıtınız veya belki de teoriniz varsa, yükseklik günlüğü normal olarak dağıtılır.

Çoğu durumda, ilginin ölçülmesini sağlayan temel süreci bilmiyoruz. Böylece, birkaç şeyden birini yapabiliriz:

(a) Yüksekliğin ampirik dağılımı normal görünüyorsa, ileri analiz için yüksekliğin birkaç değişkenin doğrusal bir kombinasyonu olduğunu varsayan normal bir yoğunluk kullanırız.

(b) Ampirik dağılım normal görünmüyorsa, mbq tarafından önerilen bazı dönüşümleri deneyebiliriz (örn. log (yükseklik)). Bu durumda, dönüştürülen değişkenin (yani log (yükseklik)) çeşitli değişkenlerin doğrusal bir kombinasyonu olduğunu örtük olarak varsayıyoruz.

(c) (a) veya (b) yardımcı olmazsa, CLT'nin ve normallik varsayımının bize sağladığı avantajlardan vazgeçmeliyiz ve değişkeni başka bir dağıtım kullanarak modelleyelim.


5

Belirli bir değişkenin yeniden ölçeklendirilmesi, mümkünse, ortaya çıkan modeli yorumlanabilir hale getirmesine yardımcı olmak için anlaşılabilir bir ölçekle ilgili olmalıdır. Bununla birlikte, ortaya çıkan dönüşümün kesinlikle fiziksel bir önem taşımasına gerek yoktur. Esasen normallik varsayımının ihlali ile modelinizin yorumlanabilirliği arasında bir değiş tokuş yapmalısınız. Bu durumlarda yapmaktan hoşlandığım şey, orijinal verileri, verileri anlamlı bir şekilde dönüştürmek ve verileri en normal şekilde dönüştürmek. Mantıklı bir şekilde dönüştürülen veriler, verileri en normal hale getirecek şekilde dönüştürüldüğünde elde edilen sonuçlarla aynı ise, En iyi şekilde dönüştürülmüş (ve / veya dönüştürülmemiş) verilerde sonuçların aynı olduğu yan notla yorumlanabilecek şekilde rapor ediyorum. Dönüştürülmemiş veriler özellikle kötü davranıyorsa, analizlerimi dönüştürülmüş verilerle yürütüyorum ama sonuçları dönüştürülmemiş birimler halinde rapor etmek için elimden geleni yapıyorum.

Ayrıca, ifadenizde "doğada meydana gelen miktarların normal olarak dağıtıldığına" dair bir yanlış kanınız olduğunu düşünüyorum. Bu sadece değerin bağımsız faktörlerin “çok sayıda ilave etkisi ile belirlendiği” durumlarda geçerlidir. Yani, ortalamalar ve toplamlar, çizildikleri temel dağılıma bakılmaksızın normal olarak dağıtılır; burada bireysel değerlerin normal olarak dağıtılması beklenmez. Örneğin, bir binom dağılımından bireysel çekilişler normal görünmemektedir, ancak binom dağılımından 30 çekilişlerin toplamlarının dağılımı oldukça normal görünmektedir.


5

Sorunuzu gerçekten anlamadığımı itiraf etmeliyim:

  • yağmur damlaları örneğiniz çok tatmin edici değil, çünkü bu Gauss davranışının "çok sayıda rastgele değişken değişkenin ortalamasından" geldiğini göstermiyor.

  • eğer miktar X İlgilendiğiniz bir ortalama Y1+...+YN-N- bir Gauss yolunda ortalamasının etrafında dalgalanan, f(Y1)+...+f(YN-)N- Gauss davranışı var.

  • dalgalanması durumunda X ortalama olarak yaklaşık Gauss ve küçüktür, o zaman dalgalanma da f(X) ortalamasına göre (Taylor genişlemesi ile)

  • Ortalamadan gelen (gerçek hayat) Gauss davranışının bazı gerçek örneklerinden bahsedebilir misiniz: bu çok yaygın değil! Gauss davranışı istatistiklerde genellikle ilk kaba yaklaşım olarak kullanılır, çünkü hesaplamalar çok izlenebilirdir. Fizikçiler harmonik yaklaşımı kullandıkça, istatistikçiler Gauss yaklaşımını kullanır.


maksimum entropi prensibi de Gauss dağılımının kullanılmasının bir başka nedenidir. Örneğin, izlenebilirlik dışında doğrusal modelde Gauss hatalarını kullanmanın iyi nedenleri nelerdir?
Alekk

5

Vipul, sorunuzda tam olarak kesin değilsiniz.

Bu tipik olarak, çok sayıda iid rasgele değişkenleri ortalamalandırdığınızda normal bir dağılım elde ettiğinizi söyleyen merkezi limit teoremi kullanılarak doğrulanır.

Söylediklerinizin tamamen olduğundan emin değilim, ancak örneğinizdeki yağmur damlalarının rastgele değişkenler olmadığını unutmayın. Bu yağmur damlalarının belirli bir sayısını örnekleyerek hesaplanan ortalama rastgele bir değişkendir ve ortalamalar yeterince büyük bir örneklem büyüklüğü kullanılarak hesaplandığından, bu örnek ortalamasının dağılımı normaldir.

Büyük sayılar kanunu, bu örnek ortalamanın değerinin nüfusun ortalama değerine (yakınsama türüne bağlı olarak güçlü veya zayıf) yaklaştığını söylüyor.

CLT, örnek ortalamanın, rastgele bir değişken olan XM (n) olarak adlandırılan, G (n) gibi bir dağılıma sahip olduğunu söylüyor. N alçaklığa yaklaştıkça, bu dağılım normal dağılımdır. CLT, temel bir kavram değil , dağıtımda yakınsama ile ilgilidir .

Çizdiğiniz gözlemlerin (çap, alan, hacim) normal olması gerekmez. Onları çizerseniz muhtemelen olmayacaklar. Ancak, her üç gözlemden de elde edilen örnek ortalama normal bir dağılıma sahip olacaktır. Ve hacim çapın küpü veya alan çapın karesi olmayacaktır. Tuhaf bir şekilde şanslı olmadıkça, meblağların karesi karelerin toplamı olmayacak.


4

Basitçe CLT (veya başka herhangi bir teorem) evrendeki her miktarın normal olarak dağıldığını belirtmez. Gerçekten, istatistikçiler normalliği geliştirmek için genellikle monotonik dönüşümleri kullanırlar, böylece en sevdikleri araçları kullanabilirler.


4

Sanırım normal dağılımın istatistikçi kullanımını yanlış anlamışsınız (yarısını) ama sorunuzu gerçekten seviyorum.

Sistematik olarak normallik olduğunu varsaymanın iyi bir fikir olduğunu düşünmüyorum ve doğrulama yapmadan bir süre yapıldığını itiraf ediyorum (belki normal dağılım izlenebilir, tek biçimli ...). Bu nedenle monotonik harita hakkındaki görüşünüz mükemmel!

Bununla birlikte, normalliğin güçlü kullanımı, beklentinin ampiriral karşı kısmını uyguladığınızda ortaya çıkan gibi yeni istatistikler oluşturduğunuzda gelir : ampirik ortalama . Dolayısıyla ampirik ortalama ve daha genel olarak düzgünleştirme, normalliği her yerde ortaya çıkaran şeydir ...


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.