Bilinmeyen dağılım verileri nasıl normalleştirilir


12

Belirli bir türde tekrarlanan ölçüm verilerinin en uygun karakteristik dağılımını bulmaya çalışıyorum.

Temel olarak, jeoloji dalımda, bir olayın ne kadar zaman önce gerçekleştiğini (kaya eşik sıcaklığının altında soğutulmuş) bulmak için sıklıkla numunelerden (kaya parçaları) minerallerin radyometrik tarihlendirmesini kullanırız. Tipik olarak, her bir numuneden birkaç (3-10) ölçüm yapılacaktır. Daha sonra ortalama ve standart sapma σ alınır. Bu jeolojidir, bu nedenle numunelerin soğutma yaşları duruma bağlı olarak 10 5 ila 10 9 yıl arasında değişebilir .μσ105109

Ancak, ölçümlerin Gaussian olmadığına inanmak için nedenim var: Ya keyfi olarak ilan edilen ya da Peirce'nin kriteri [Ross, 2003] ya da Dixon'un Q-testi [Dean ve Dixon, 1951] gibi bazı kriterler aracılığıyla 'Outliers' oldukça adil yaygındır (örneğin, 30'da 1) ve bunlar neredeyse her zaman daha eski olup, bu ölçümlerin karakteristik olarak eğri olduğunu gösterir. Bunun mineralojik safsızlıklar ile ilgili olması için iyi anlaşılmış nedenler vardır.

Ortalama ve ortanca örnekleme yaşı.  Kırmızı çizgi, ortalama = medyan değerini gösterir.  Çarpık ölçümlerin neden olduğu eski yöntemleri not edin.

μσ

Bunu yapmanın en iyi yolunun ne olduğunu merak ediyorum. Şimdiye kadar, yaklaşık 600 örnekli bir veri tabanım var ve örnek başına 2-10 (ya da öylesine) ölçümleri tekrarlıyorum. Örnekleri her biri ortalamaya veya ortanca bölerek normalleştirmeye çalıştım ve sonra normalize edilmiş verilerin histogramlarına baktım. Bu makul sonuçlar üretir ve verilerin karakteristik olarak log-Laplacian olduğunu gösterir gibi görünüyor:

resim açıklamasını buraya girin

Ancak, bununla ilgili uygun bir yol olup olmadığından emin değilim, ya da farkında olmadığım uyarılar varsa, sonuçlarıma önyargılı olabilirler, böylece böyle görünüyorlar. Herkes bu tür bir şey ile deneyimi var ve en iyi uygulamaları biliyor mu?


4
'Normalleştir' böyle bağlamlarda farklı şeyler ifade etmek için kullanıldığından, “normalize” ile tam olarak ne demek istiyorsun? Verilerden hangi bilgileri almaya çalışıyorsunuz?
Glen_b-Monica

1
@Glen_b: 'Normalize Et' ile basitçe, bir numunenin ölçülen tüm yaşlarını medyanla (veya ortalama veya her neyse) medyan (veya ortalama) ile ölçeklendirmeyi kastediyorum. Numunelerdeki dağılımın yaşla doğrusal olarak arttığına dair deneysel kanıtlar vardır. Verilerden çıkmak istediğim, bu tür ölçümlerin en iyi normal veya log-normal veya beta veya herhangi bir dağılımla karakterize olup olmadığını görmek, böylece en doğru konum ve ölçek türetilebilir mi, yoksa L1 vs. L2 regresyonu, vb. Haklı. Bu yazıda, anlattığım verileri nasıl alıp araştırabileceğimi soruyorum.
cossatot

1
Bu alanda uzmanlığım yok, ancak grafikleriniz ve buna koyduğunuz düşünce iyi görünüyor. Bunu daha önce görmüş olabilirsiniz, ancak Log-Laplace hakkındaki Wikipedia makalesi, doğrudan sorunuza cevap vermeyen, ancak bazı ilginç anlayışlara sahip olabilecek güzel bir makaleye bağlantı veriyor: wolfweb.unr.edu/homepage/tkozubow/0_logs.pdf
Wayne

Tamamen anladığımdan emin değilim, ancak önyükleme yardımcı olabilir mi? Önyükleme yöntemlerini kullanarak dağıtımınızın varyansını vb. Kurtarırsanız, verilerinizi normalleştirmek için kurtarılan bilgileri kullanabilirsiniz. en.wikipedia.org/wiki/Bootstrapping_(statistics)
123

Yanıtlar:


1

Her numuneden (3-10) ölçümün ortalamasını almayı düşündünüz mü? Daha sonra elde edilen dağılımla çalışabilir misiniz - hangisi t dağılımına yaklaşık olarak, daha büyük n için normal dağılıma yaklaşık olarak yaklaşır mı?


1

Normalleştirmenin normalde ne anlama geldiğini, normalde ortalama ve / veya varyansı normalleştirmek ve / veya beyazlatma gibi bir şey olduğunu düşünmüyorum.

Yapmaya çalıştığınız, verilerinizde doğrusal modeller kullanmanıza izin veren doğrusal olmayan bir yeniden parametrelendirme ve / veya özellik bulmaktır.

Bu önemsiz değildir ve basit bir cevabı yoktur. Bu yüzden veri bilimcilerine çok para ödeniyor ;-)

Doğrusal olmayan özellikler oluşturmanın nispeten basit bir yolu, katman sayısının ve katman başına nöron sayısının, ağın özellikler üretme kapasitesini kontrol ettiği ileri beslemeli bir sinir ağı kullanmaktır. Daha yüksek kapasite => daha fazla doğrusal olmama, daha fazla takma. Daha düşük kapasite => daha fazla doğrusallık, daha yüksek sapma, daha düşük sapma.

Size biraz daha fazla kontrol sağlayan başka bir yöntem de spline kullanmaktır.

Son olarak, bu tür özellikleri elle oluşturabilirsiniz, ki bence yapmaya çalıştığınız şey budur, ancak daha sonra basit bir 'kara kutu' cevabı yoktur: verileri dikkatlice analiz etmeniz, desen aramanız vb. .


Normalize'in matematik ve fen bilimleri arasında birçok anlamı vardır; kişisel olarak en tanıdık olanın standart olduğunu beyan etmek, çoğu insanın yapmak istediği şeydir, ancak başkalarıyla yıkanmayacaktır. Daha da ciddisi, bu konu üzerinde başlar ancak sonra ortaya çıkar. Doğrusal olmayan modellere ilgi göstergesi nerede? Sinir ağları? Splaynlar? Bunların bir dağılımı veya dağıtım ailesini tanımlamakla ne ilgisi var, sorun nedir? Bağlantıyı göremiyorum, bu yüzden alakalı olmayan şeyleri kesmenizi veya nasıl alakalı olduğunu göstermek için genişletmenizi öneririz.
Nick Cox

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.