Sıfır kütüğünün alınmaması için x'e ne kadar küçük bir miktar eklenmelidir?


57

Verilerimi olduğu gibi analiz ettim. Şimdi tüm değişkenlerin kaydını tuttuktan sonra analizlerime bakmak istiyorum. Birçok değişken birçok sıfır içerir. Bu nedenle, sıfır kütüğü almaktan kaçınmak için küçük bir miktar ekliyorum.

Şimdiye kadar 10 ^ -10 ekledim, herhangi bir gerekçe olmadan, gerçekten, sadece çok küçük bir miktar eklemenin keyfi olarak seçilen miktarımın etkisini en aza indirmenin tavsiye edilebileceğini düşündüğüm için. Ancak bazı değişkenler çoğunlukla sıfır içerir ve bu nedenle çoğunlukla günlüğe girdiğinde -23.02. Değişkenlerimin aralıklarının aralığı 1.33-8819.21'dir ve sıfırların sıklığı da önemli ölçüde değişir. Bu yüzden kişisel “küçük miktar” seçimim değişkenleri çok farklı etkiliyor. Şimdi 10 ^ -10'un tamamen kabul edilemez bir seçim olduğu açıktır, çünkü tüm değişkenlerdeki varyansların çoğu, daha sonra bu keyfi "küçük miktar" dan gelmektedir.

Bunu yapmanın daha doğru bir yolu ne olacağını merak ediyorum.

Belki miktarı, her bir değişkenden bireysel dağılımdan türetmek daha iyidir. Bu "küçük miktar" ın ne kadar büyük olması gerektiğine dair bir kılavuz var mı?

Analizlerim çoğunlukla her değişkene sahip basit modellerdir ve IV / yaş olarak cinsiyet / yaş. Değişkenler, genellikle kayda değer miktarda katsayısı olan çeşitli kan lipitlerinin konsantrasyonlarıdır.

Düzenleme : Değişkenin en küçük sıfır olmayan değerini eklemek verilerim için pratik görünüyor. Ama belki genel bir çözüm var?

Düzenleme 2 : Sıfırlar yalnızca algılama sınırının altındaki konsantrasyonları gösterdiğinden, belki onları (algılama sınırı) / 2 olarak ayarlamak uygun olur mu?


4
Neden gözlemlerin / değişkenlerin alıyorsunuz ? log

2
Değişkenlerinize eklerseniz , orijinal ölçekte sıfır olan değişkenler, günlük ölçeğinde sıfır olur. 1
MånsT

5
Yanıt değişkeniyle veya sadece açıklayıcı değişkenlerle ilgili bu sorun var mı? Yalnızca ikincisi varsa, örneklem büyüklüğüne bağlı olarak, bir seçenek, belirli bir analitin konsantrasyonunun tespit eşiğinin altında olduğunu belirten ilave boş değişkenler eklemek olabilir . Bu, özgürlük derecelerini artırır, ancak verilere keyfi bir geçici seçim uygulamama avantajına sahiptir. Ayrıca, aksi takdirde hesaba katılabilecek tespit eşiğinin yakınındaki doğrusal olmayanları veya süreksizlikleri de ortaya çıkarabilir.
kardinal

2
@Procrastinator Log skalası, denge sabiti ve Gibbs enerjisi arasındaki üssel ilişki nedeniyle konsantrasyonlar için doğaldır; Aslında "sürekli" kimyasında 0 derişimi biraz gerçek dışı.

2
Bir veri verisinin küp kökünü almak, yani kütük yoluna çıkmaz, ama yeniden ölçeklendirmeden sıfırları korur.
jbowman

Yanıtlar:


26

Sıfırlar yalnızca algılama sınırının altındaki konsantrasyonları gösterdiğinden, bunları (algılama sınırı) / 2 olarak ayarlamak uygun olur.

Sadece günlüğün (sıklıkla) mantıklı olduğu ve 0'ın meydana geldiği aklıma gelen şeyin 2. düzenlemeyi yaptığınız zaman konsantrasyonlar olduğunu yazıyordum. Dediğiniz gibi, ölçülen konsantrasyonlar için 0 sadece "Bu düşük konsantrasyonları ölçemediğim" anlamına gelir.

Yan not: LOD yerine LOQ mu demek istiyorsun?

0'ın LOQ olarak ayarlanmasının iyi bir fikir olup olmadığı aşağıdakilere bağlıdır:12

  • bakış açısına göre , "c" nin c olduğunu 0 ile LOQ arasında herhangi bir yerde olduğunu ifade eden "tahmin" dir. Ancak ilgili kalibrasyon fonksiyonunu dikkate alın: Solda, kalibrasyon fonksiyonu LOQ'nun altında c = 0 verir. Sağ tarafta, 0 yerine kullanılır.12LOQ

    görüntü tanımını buraya giringörüntü tanımını buraya girin
    12LOQ

  • Ancak, orijinal ölçülen değer mevcutsa, bu daha iyi bir tahmin sağlayabilir. Sonuçta, LOQ genellikle sadece göreceli hatanın% 10 olduğu anlamına gelir. Bunun altında ölçüm hala bilgi taşır, ancak bağıl hata çok büyük olur.
    görüntü tanımını buraya girin
    (mavi: LOD, kırmızı: LOQ)

  • Bir alternatif, bu ölçümleri dışlamak olabilir. Bu da makul olabilir,
    örneğin bir kalibrasyon eğrisi düşünün. Uygulamada genellikle bir sigmoid şekli gözlemlersiniz: düşük c, sinyal ≈ sabiti, orta doğrusal davranış, sonra dedektör doygunluğu. görüntü tanımını buraya girin
    Bu durumda, kendinizi hem lineer aralıktaki konsantrasyonlar hakkındaki ifadelerle sınırlandırmak hem de diğer işlemlerin hem üzerinde hem de üstünde olması sonucu sınırlamak isteyebilirsiniz.
    Verilerin bu şekilde seçildiğini ve nedenini açıkladığınızdan emin olun.


düzenleme: Ne mantıklı veya kabul edilebilir, tabii ki soruna bağlıdır. Umarım, burada analizin etkilemeyeceği verilerin küçük bir kısmından bahsediyoruz.

Belki hızlı ve kirli bir kontrol olabilir: veri analizinizi verileri hariç tutmadan veya vermeden (veya ne tür bir tedavi teklif ederseniz) yapın ve önemli bir şeyin değişip değişmediğine bakın.

Eğer değişiklikler görürseniz, o zaman elbette başınız belada. Bununla birlikte, analitik kimya bakış açısına göre, sorununuzun öncelikle verilerle başa çıkmak için hangi yöntemi kullandığınızla yatmadığını, asıl sorunun analitik yöntemin (veya çalışma aralığının) bunun için uygun olmadığı yönünde olduğunu söyleyebilirim. Eldeki sorun. Elbette daha iyi istatistiksel yaklaşımın gününüzü kurtarabileceği bir bölge var, ancak sonuçta "çöp içeri, çöp dışarı" yaklaşımı genellikle daha fazla fantezi yöntemi için de geçerli.

Konu için teklifler:

  • Bir istatistikçi bir keresinde bana şöyle dedi:

    Sizinle ilgili problem (kimyagerler / spektroskopiler), problemlerinizin çözülemeyecekleri kadar zor olması veya çözülmeleri için hiç eğlenceli olmadığı için o kadar kolaydır.

  • Fisher deneylerin istatistiksel postortemiyle ilgili


1
Alttaki alıntıyı seviyorum (+1).
Monica'yı

32

Kimyasal konsantrasyon verilerinin çoğu zaman sıfırları vardır, ancak bunlar sıfır değerleri göstermezler : çeşitli biçimlerde (ve kafa karıştırıcı olarak) hem bozulmayanları (yüksek olasılıkla, analitin bulunmadığını gösteren ölçüm) ve "niteliksiz" olarak gösteren kodlardır. değerler (ölçüm analit saptadı, ancak güvenilir bir sayısal değer üretemedi). Buradaki “ND'leri” açıkça belirleyelim.

Tipik olarak, laboratuvar " sayısal bir değer vermemeyi seçtiğinden, genellikle " tespit limiti "," ölçüm limiti "veya (çok daha dürüst)" raporlama limiti "olarak bilinen bir ND ile ilişkili bir limit vardır. nedeniyle). Gerçekten bir ND hakkında bildiğimiz tek şey, gerçek değerin muhtemelen ilişkili sınırdan daha düşük olmasıdır: bu neredeyse (ama tam değil) bir sol sansür biçimidir.. (Eh, bu da gerçekten doğru değil: uygun bir kurgu. Bu sınırlar, çoğu durumda, korkunç istatistiksel özelliklere sahip olmayan kalibrasyonlar ile belirlenir. Bunlar, aşırı derecede veya düşük tahmin edilebilir. Bu, ne zaman olacağını bilmek önemlidir. en (diyelim ki) kesiliyor bir lognormal sağ kuyruk var görünüyor konsantrasyon verileri kümesiyle bakıyoruz artı bir "sivri" tüm NDS temsilen. Yani şiddetle öneririm raporlama limiti sadece olduğunu biraz daha az , ancak laboratuar verileri size veya veya bunun gibi bir şey olduğunu söylemeye çalışabilir .)1.3301.330.50.1

Son 30 yıl içerisinde, bu veri setlerini en iyi şekilde özetlemek ve değerlendirmek için kapsamlı araştırmalar yapıldı. Dennis Helsel bunun üzerine bir kitap yayınladı, Nondetects and Data Analysis (Wiley, 2005), bir ders verdi ve Ristediği tekniklerden bazılarını temel alan bir paket yayınladı . Onun web sitesi kapsamlıdır.

Bu alan hata ve yanılgı ile doludur. Helsel bu konuda açıktır: Yazdığı kitabının 1. bölümünün ilk sayfasında,

... günümüzde çevre araştırmalarında en sık kullanılan yöntem, tespit limitinin yarısının ikame edilmesi, sansürlü verilerin yorumlanması için uygun bir yöntem DEĞİLDİR.

Peki ne yapmalı? Seçenekler, bu iyi tavsiyeyi görmezden gelmeyi, Helsel'in kitabındaki bazı yöntemlerin uygulanmasını ve bazı alternatif yöntemlerin kullanılmasını içerir. Bu doğru, kitap kapsamlı değil ve geçerli alternatifler var. Veri kümesindeki tüm değerlere sabit eklemek ("başlayarak") bunlardan biridir. Ancak şunu düşünün:

  • Ekleme olduğu değil bu tarifi, çünkü başlamak için iyi bir yer ölçüm birimler bağlıdır. Desilitre başına mikrogram eklemek , litre başına milimol ilave etmekle aynı sonucu vermez .111

  • Tüm değerleri başlattıktan sonra, olacak hala NB'lu bu koleksiyonu temsil en küçük değerde bir artış var. Umudunuz, bu başak, toplam kütlesinin yaklaşık ile başlangıç ​​değeri arasındaki bir lognormal dağılım kütlesine eşit olması anlamında, niceliklendirilmiş verilerle tutarlı olmasıdır .0

    Başlangıç ​​değerini belirlemek için mükemmel bir araç lognormal olasılık grafiğidir: ND'lerin dışında, veriler yaklaşık olarak doğrusal olmalıdır.

  • ND'lerin toplanması aynı zamanda "delta lognormal" dağılımı ile tanımlanabilir. Bu bir nokta kütlesi ve lognormal karışımıdır.

Aşağıdaki simüle edilmiş değerlerin histogramlarında da görüldüğü gibi sansür ve delta dağılımları aynı değildir. Delta yaklaşımı regresyondaki açıklayıcı değişkenler için en faydalı olanıdır: ND'leri belirtmek, tespit edilen değerlerin logaritmasını almak (veya gerektiği şekilde bunları dönüştürmek) ve ND'lerin yerine koyma değerleri hakkında endişelenmek için bir "kukla" değişken oluşturabilirsiniz .

histogramlar

Bu histogramlarda, en düşük değerlerin yaklaşık% 20'si sıfırlarla değiştirildi. Karşılaştırılabilirlik için, hepsi aynı 1000 simüle edilmiş lognormal değere (sol üst) dayanmaktadır. Delta dağılımı, değerlerin 200'ünü rastgele sıfırlarla değiştirerek yaratıldı . Sansürlü dağılım en küçük 200 değeri sıfırla değiştirerek yaratıldı . “Gerçekçi” dağıtım deneyimlerime uyuyor, bu nedenle raporlama sınırlarının pratikte farklılık gösterdiği (laboratuar tarafından belirtilmediği halde bile!): Bunları rastgele değiştirdim (az da olsa, nadiren 30'dan fazla). her iki yönde de) ve tüm simüle edilmiş değerleri, raporlama sınırlarının altında sıfır ile değiştirdi.

Olasılık grafiğinin faydasını göstermek ve yorumlamasını açıklamak için , bir sonraki şekil önceki verilerin logaritmaları ile ilgili normal olasılık grafiklerini gösterir.

Olasılık parselleri

Sol üst kısım tüm verileri gösterir (sansürlemeden veya değiştirmeden önce). İdeal diyagonal çizgiye iyi bir uyum sağlar (aşırı kuyruklarda bazı sapmalar bekliyoruz). Bundan sonraki bütün parsellerde elde etmeyi hedeflediğimiz şey budur (ancak ND'lerden dolayı kaçınılmaz olarak bu idealin gerisinde kalacağız.) Üst sağ, sansürlü veri seti için 1 başlangıç ​​değerini kullanan bir olasılık grafiğidir. Bu korkunç bir durum çünkü tüm ND'ler (0'da gösteriliyor, çünkülog(1+0)=0) çok düşük çizilir. Sol alt, sansürlü veri kümesi için 120 başlangıç ​​değeri olan tipik bir raporlama sınırına yakın bir olasılık grafiğidir. Sol alt kısımdaki uyum şuanda iyi - sadece tüm bu değerlerin takılan çizginin yakınında, ancak sağında - bir yere gelmesini umuyoruz - ancak üst kuyruktaki eğrilik, 120 eklemenin 120'nin değişmeye başladığını gösteriyor. dağılımın şekli. Sağ altta delta-lognormal verilere ne olduğunu gösterir: üst kuyruğa iyi bir uyum var, ancak raporlama sınırına yakın bazı belirgin eğrilikler (arsanın ortasında).

Son olarak, daha gerçekçi senaryolardan bazılarını inceleyelim:

Olasılık parselleri 2

Sol üst kısım, sıfırlanan rapor setini, sıfır raporlama sınırının yarısına ayarlanmış olarak gösterir. Oldukça iyi bir seçim. Sağ üstte daha gerçekçi veri kümesi var (rastgele değişen raporlama limitleriyle). 1 başlangıç ​​değeri yardımcı olmamakla birlikte, - sol altta - 120 başlangıç ​​değeri için (raporlama sınırlarının üst aralığına yakın) uygunluk oldukça iyidir. İlginç bir şekilde, noktalar ND'lerden ölçülen değerlere yükseldikçe, ortadaki eğrilik, delta lognormal dağılımını andırıyor (bu veriler böyle bir karışımdan üretilmese bile). Sağ altta, gerçekçi veriler ND'lerini (tipik) raporlama limitinin yarısı ile değiştirdiğinde elde ettiğiniz olasılık grafiğidir. Bu en uygun Ortada delta lognormal benzeri davranışlar göstermesine rağmen.

O zaman yapmanız gereken, ND'lerin yerine çeşitli sabitler kullanıldığından, dağılımları araştırmak için olasılık grafiklerini kullanmaktır. Aramaya, nominal, ortalama, raporlama limitinin yarısı ile başlayın , ardından oradan yukarı ve aşağı değiştirin. Sağ alt gibi görünen bir çizim seçin: ölçülen değerler için kabaca çapraz bir düz çizgi, alçak bir platoya hızlı bir şekilde düşme ve köşegenin uzatılmasını karşılayan (ancak ancak) bir değer platosu. Bununla birlikte, Helsel'in tavsiyelerine uyarak (literatürde kuvvetle desteklenir), gerçek istatistik özetleri için, ND'leri herhangi bir sabit ile değiştiren herhangi bir yöntemden kaçının. Regresyon için, ND'leri belirtmek için boş bir değişken eklemeyi düşünün. Bazı grafiksel göstergeler için ND'lerin olasılık arsa alıştırması ile bulunan değere göre sürekli değiştirilmesi iyi çalışacaktır. Diğer grafiksel ekranlar için gerçek raporlama sınırlarını göstermek önemli olabilir, bu nedenle ND'leri bunun yerine raporlama sınırlarıyla değiştirin. Esnek olmalısın!


1
Son derece güzel cevap! Tamamen katılıyorum. Verilere bakarken ve "her zamanki gibi" dönüştürülmeden önce mükemmel bir kullanışlı veri seti olduğunu fark ettiğinizde, bu
algıya aşinayım

1
değişen limitler : hem LOD (tespit limiti -> nitel cevaplar için)) hem de LOQ (nicel ölçümler için olan niceleme limiti) ile hesaplanan birkaç farklı yaklaşım vardır. Sanırım bir laboratuvar genellikle bu yöntemlerin nasıl hesaplandığını değiştirmeyecek (aynı analitik yöntem için). Ancak, bu değerler hesaplama her yapıldıktan sonra yeniden hesaplanır. Yöntemin her iş gününde kalibrasyona ihtiyacı varsa, her gün (biraz) farklı bir limitiniz olur.
cbeleites

1
düşük rakamlar vermemek için sınırlar ve yasal sebepler: yasal sebepler ham sinyal, buna karşılık gelen konsantrasyon ve güven aralığı / ölçmenin (örneğin "LOQ altında") (ek) daha ayrıntılı bilgi vermesini yasaklamaz. Ayrıca, analiz laboratuarından kalibrasyon eğrisi isteyebilirsiniz. Bunun için fazladan bir iş olduğu için para ödemenizi beklerdim, ama bunun mümkün olmasını bekliyorum. Daha ucuz uzlaşma, size tüm ham verileri vermeleri ve veri analizini size bırakmaları olabilir. Eğer istatistikçi / kemometrik / analitik kimyacı / ...
cbeleites sizin 19:06

1
İşimde sık sık sıfırlarla karşılaşırız, çünkü veriler yuvarlanır. Böyle bir durumda, bunlar gruplandırılmış verilerdir, bkz. Stats.stackexchange.com/questions/26950/…
Stéphane Laurent

2
Bu ve bununla ilgili konulara ayrılmış bir alan olan "kemometri" vardır ve tüm kitaplar yalnızca bir "tespit sınırının" ne olduğu ile ilgili olarak yazılmıştır (ve yazmaya devam etmektedir). 20'den fazla belirgin tanımla karşılaştım! Bir değişkeni yeniden ifade etmek (logaritmasını almak gibi) konusu da veri analizi ve veri araştırmasında kilit bir konudur; Pek çok kitabın büyük bölümleri (özellikle keşif veri analizi kitapları) bu konuya odaklanmaktadır.
whuber

5

@miura

Bu makaleye Bill Gould tarafından Stata blogunda rastladım (sanırım Stata'yı kurdu), analizinize yardımcı olabileceğini düşünüyorum. Makalenin bitimine yakın olarak, sıfıra yakın olan isteğe bağlı sayıların kullanılmasına karşı uyarır; örneğin, günlüklerde -4.61, -9.21, -16.12 ve olduğu için 0.01, 0.0001, 0.0000001 ve 0 gibi . Bu durumda hiç keyfi değillerdir. Poisson regresyonunun kullanılmasını tavsiye eder, çünkü yukarıdaki sayının gerçekte birbirine yakın olduğunu kabul eder.


3

değişkeninin sıfırlarını ; burada , bu vakaları diğerlerinden ayıracak kadar büyüktür (örneğin, 6 veya 10).ithmean(xi)n×stddev(xi)n

Bu tür herhangi bir yapay kurulumun analizlerinizi etkileyeceğine dikkat edin, bu nedenle yorumlamanıza dikkat etmelisiniz ve bazı durumlarda artefaktlardan kaçınmak için bu vakaları atın.

Tespit limitini kullanmak da makul bir fikirdir.


3

Regresyon modellerinde sıfır kütüğüyle nasıl başa çıkılacağına açıklık getirmek için, insanların pratikte yaptıkları en iyi çözümü ve ortak hataları açıklayan bir pedagojik makale yazdık. Ayrıca, bu sorunla başa çıkmak için yeni bir çözüm bulduk.

Makaleyi buraya tıklayarak bulabilirsiniz: https://ssrn.com/abstract=3444996

Öncelikle, neden bir log dönüşümü kullandıklarını merak etmeleri gerektiğini düşünüyoruz. Regresyon modellerinde, log-log ilişkisi esnekliğin tanımlanmasına yol açar. Gerçekten de, eğer , daha sonra elastikliği tekabül için . Günlük ayrıca teorik bir modeli doğrusallaştırabilir. Aynı zamanda heteroskedastisiteyi azaltmak için de kullanılabilir. Bununla birlikte, pratikte, genellikle log'da alınan değişkenin pozitif olmayan değerler içerdiği ortaya çıkar.log(y)=βlog(x)+εβyx

Genellikle önerilen bir çözüm, tüm gözlemler pozitif sabit c eklenmesini içermektedir böylece . Bununla birlikte, doğrusal regresyonların aksine, log-lineer regresyonlar, bağımlı değişkenin lineer dönüşümüne karşı sağlam değildir. Bu, günlük fonksiyonunun doğrusal olmayan doğasından kaynaklanmaktadır. Log dönüşümü düşük değerleri arttırır ve yüksek değerleri sıkar. Bu nedenle, bir sabit eklemek, sıfırlar ve verilerdeki diğer gözlemler arasındaki (doğrusal) ilişkiyi bozacaktır. Sabit tarafından oluşturulan yanlılığın büyüklüğü aslında verilerdeki gözlem aralığına bağlıdır. Bu nedenle, mümkün olan en küçük sabiti eklemek mutlaka en iyi çözüm değildir.YY+c>0

Makalemizde, çok küçük sabitleri eklemenin aslında en yüksek önyargıyı sağladığı bir örnek veriyoruz. Önyargı ifadesinin türetilmesini sağlıyoruz.

Aslında, Poisson Sözde Maksimum Olabilirlik (PPML) bu konuda iyi bir çözüm olarak kabul edilebilir. Bir aşağıdaki süreci göz önünde bulundurmalıdır:

yi=aiexp(α+xiβ) ,E(ai|xi)=1

Bu süreç birkaç özellik tarafından motive edilir. İlk olarak, için bir yarı-log model ile aynı yorumu sağlar . İkincisi, bu veri üretme işlemi, bağımlı değişkende sıfır değerlerin mantıklı bir rasyonalizasyonunu sağlar. Bu durum çarpımsal hata terimi sıfıra eşit olduğunda ortaya çıkabilir . Üçüncüsü, bu modeli PPML ile tahmin etmek, olduğunda hesaplama zorluğu ile karşılaşmaz . olduğu varsayımına göre , . Şu anın ikinci dereceden hatasını en aza indirmek ve aşağıdaki birinci dereceden koşullara yol açmak istiyoruz:βaiyi=0E(ai|xi)=1E(yiexp(α+xiβ)|xi)=0

i=1N(yiexp(α+xiβ))xi=0

Bu koşullar olduğunda bile tanımlanır . Bu birinci dereceden koşullar, bir Poisson modelininkilerle sayısal olarak eşdeğerdir, bu nedenle herhangi bir standart istatistiksel yazılımla tahmin edilebilir.yi=0

Son olarak, uygulanması da kolay ve beta’ın tarafsız bir tahmincisi sağlayan yeni bir çözüm öneriyoruz . Bir tek tahmin etmek gerekir:β

log(yi+exp(α+xiβ))=xiβ+ηi

Bu tahmin edicinin tarafsız olduğunu ve herhangi bir standart istatistiksel yazılım ile GMM ile tahmin edilebileceğini gösteriyoruz. Örneğin, Stata ile yalnızca bir kod satırı yürütülerek tahmin edilebilir.

Bu makalenin yardımcı olacağını umarız ve sizden geri bildirim almak isteriz.

Christophe Bellégo ve Louis-Daniel Pape, CREST - Ekolojik Politeknik - ENSAE

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.