Çoklu sansürlü veriler için kovaryans matrisinin kısaltılmamış tahmini


22

Çevresel numunelerin kimyasal analizleri genellikle raporlama limitlerinde veya çeşitli tespit / ölçüm limitlerinde aşağıda sansürlenir. Sonuncusu, genellikle diğer değişkenlerin değerleriyle orantılı olarak değişebilir. Örneğin, yüksek konsantrasyonda bir bileşik içeren bir numunenin analiz için seyreltilmesi gerekebilir, bu durumda aynı numunede aynı anda analiz edilen tüm diğer bileşikler için sansür limitlerinin orantılı olarak şişirilmesiyle sonuçlanabilir. Başka bir örnek olarak, bazen bir bileşiğin varlığı, testin diğer bileşiklere tepkisini değiştirebilir (bir "matris girişimi"); Bu, laboratuvar tarafından tespit edildiğinde, raporlama limitlerini buna göre şişirir.

Bu tür veri kümeleri için varyans-kovaryans matrisinin tamamını tahmin etmenin pratik bir yolunu arıyorum, özellikle de bileşiklerin çoğu% 50'den fazla sansür uyguladı, ki bu genellikle böyledir. Geleneksel bir dağıtım modeli (gerçek) konsantrasyonların logaritmalarının multinormal şekilde dağılmış olması ve bunun pratikte iyi bir şekilde göründüğü şeklindedir, bu nedenle bu durum için bir çözüm yararlı olacaktır.

("Pratik" ile, R, Python, SAS, vb. Gibi en az bir genel olarak kullanılabilir yazılım ortamında, birden fazla hesaplamada tekrarlanan yeniden hesaplamaları desteklemek için yeterince hızlı bir şekilde yürütebilecek şekilde güvenilir bir şekilde kodlanabilen bir yöntem anlamına gelir. ve bu durum oldukça istikrarlıdır (bu nedenle genel olarak Bayesian çözümleri açık olmasına rağmen, bir BUGS uygulamasını keşfetmek konusunda isteksizim.)

Bu konudaki düşünceleriniz için şimdiden çok teşekkürler.


Sırf sansür meselesini doğru anlıyorum: Bir numuneyi sulandırdığınızda, bir bileşiğin konsantrasyonu o kadar düşük düşer ki test cihazı varlığını tespit edemez. Bu, sansürleme probleminin doğru bir şekilde ifade edilmesi midir?

Evet, bu doğru: D faktörü ile seyreltme, tüm saptama sınırlarını da D faktörü ile artırır. (Matris girişim sorununu ölçmek daha zordur ve genel durum son derece karmaşıktır. Bunu basitleştirmek için, konvansiyonel model, bir örnek üzerinde bir test grubunun bir vektör vermesidir (x [1], ..., x [k ]) x [i] ya gerçek sayılardır ya da gerçeklerin aralıklarıdır, tipik olarak-sonsuzlukta sol son noktaya sahiptir; bir aralık, gerçek değerin yalan
söylendiği bir kümeyi tanımlar

Tespit sınırları neden yükseliyor? Test edilen numuneden ziyade test cihazının bir özelliği değil mi?

Örnek olarak, bir aletin tespit sınırının Litre başına 1 mikrogram (ug / L) olduğunu varsayalım. Bir örnek 10: 1 oranında seyreltilir (büyük bir hassasiyetle, bu yüzden burada hata hakkında endişelenmiyoruz) ve cihaz "<1" okuyor; yani, seyreltilmiş numune için tanımlanamaz. Laboratuvar, numunedeki konsantrasyonun 10 x 1 = 10 ug / L'den az olduğunu bildirir ve böyle bildirir; yani, "<10".
whuber

1
@ amoeba Anladığım kadarıyla sorudaki bu şeyleri açıklamalıydım. Cevaplar: PCA; boyutluluk 3 ila birkaç yüz arasında değişecek; Numune boyutları her zaman boyutsallığı büyük ölçüde aşar ancak sansürleme oranları çok yüksek olabilir (% 50'ye kadar işlem yapabilmek gereklidir ve% 95'e kadar istenebilir).
whuber

Yanıtlar:


3

Matris girişimi sorununu içselleştirmedim ama işte bir yaklaşım. edelim:

seyreltilmemiş numunedeki tüm hedef bileşiklerin konsantrasyonunu temsil eden bir vektör olabilir.Y

Z

dd

Bizim modelimiz:

Y~N-(μ,Σ)

Z=Yd+ε

ε~N-(0,σ2 ben)

Bu nedenle, şöyle:

Z~N-(μd,Σ+σ2 ben)

ZfZ(.)

Oτith

Oi=ZiI(Zi>τ)+0I(Ziτ)

k

L(O1,...Ok,Ok+1,...On|-)=[Πben=1ben=kPr(Zbenτ)][Πben=k+1ben=nf(Oben|-)]

nerede

f(Oben|-)=jbenfZ(Oben|-)ben(Oben>τ)

Tahmin o zaman ya maksimum olasılık ya da bayesçi fikirleri kullanmaktan ibarettir. Yukarıdakilerin ne kadar izlenebilir olduğundan emin değilim ama umarım size bazı fikirler verir.


Bu düşünce için çok teşekkür ederim. Aslında, bu çoklu sansürlemeye yönelik standart ve iyi belgelenmiş bir yaklaşımdır. Zorluklardan biri zorunlulukta yatmaktadır: bu integrallerin hesaplanması oldukça zordur. Burada da gizlenen bir modelleme sorunu var: d' nin değeri, tanımımın ilk paragrafında belirtildiği gibi , genellikle Y ile pozitif olarak ilişkilidir .
whuber

2

Daha hesaplamalı olarak etkin olan bir başka seçenek de, kochiance matrisine, "sadece Gaussian copula modeli" olan "dikloize edilmiş Gaussian" adı verilen bir model kullanarak eşleştirme yaparak anında eşleşmesi olacaktır.

Macke ve ark 2010'dan yeni bir makale , sadece (sansürlü) ampirik kovaryans matrisini ve bazı iki değişkenli normal olasılıkların hesaplanmasını içeren bu modele uydurmak için kapalı bir prosedür tanımlamaktadır. Aynı grup (MPI Tuebingen’deki Bethge laboratuvarı) ayrıca muhtemelen burada istediğiniz melez ayrık / sürekli Gauss modellerini tanımladı (yani, Gauss RV'leri tamamen “dikotomize olmadığından - yalnızca eşiğin altındakiler).

Kritik olarak, bu bir ML tahmincisi değil ve korkarım önyargı özelliklerinin ne olduğunu bilmiyorum.


@jp Teşekkürler: Buna bakacağım. (Biraz zaman alabilir ...)
whuber

1

Örnekte kaç tane bileşik var? (Veya, söz konusu kovaryans matrisi ne kadar büyük?).

Alan Genz, çok değişkenli normal yoğunlukların hiper-dikdörtgenler üzerindeki integrallerini hesaplamak için çeşitli dillerde (R, Matlab, Fortran; buraya bakınız ) çok güzel bir koda sahiptir (örneğin, olasılığını değerlendirmek için ihtiyacınız olan entegral türleri user28).

Bu işlevleri ("ADAPT" ve "QSIMVN") yaklaşık 10-12 boyuta kadar integraller için kullandım ve bu sayfadaki birçok işlev, 100 boyutuna kadar olan problemler için integralleri (ve ihtiyaç duyabileceğiniz ilgili türevleri) tanıtır. Amaçlarınız için yeterli boyut olup olmadığını bilmiyorum, ama eğer öyleyse, muhtemelen gradyan yükselişi ile maksimum olasılık tahminleri bulmanıza da izin verebilir.


Üzgünüm, burada yeniyim ve bunun ne kadar zaman önce yayınlandığını fark etmedim - muhtemelen çok yardımcı olmak için çok geç!
jpillow

@jp Bu devam eden önemli bir sorundur, bu nedenle soru ile cevap arasındaki geçen zaman çok az sonuç verir. Cevap verdiğiniz için teşekkür ederiz!
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.