kısmen eşleştirilmiş ve kısmen eşleştirilmemiş veriler için t testi


28

Bir araştırmacı birkaç veri setinin birleşik bir analizini yapmak istiyor. Bazı veri setlerinde A ve B tedavisi için eşleştirilmiş gözlemler vardır. Diğerlerinde ise eşleştirilmemiş A ve / veya B verileri vardır. Bu tür kısmen eşleştirilmiş veriler için t-testinin uyarlanması veya olasılık oranı testi için referans arıyorum. (Şimdilik) eşit varyansa sahip normallik varsaymaya istekliyim ve A için popülasyon araçlarının her çalışma için aynı (ve B için de aynı) olduğunu kabul ediyorum.


2
Selam Frank. Belki modelleme varsayımlarını daha açık hale getirmek faydalı olabilir. Normalde, eşleştirilmiş tasarımları düşündüğümde, aşağıdakilerden birini düşünüyorum: (i) gözlemlenemeyen birim düzeyinde efektleri kaldırmaya çalışmak, (ii) deneysel birimler arasında rastgele bir etkinin değişkenliğini azaltmak veya (iii) normal olmayanlığı ayarlamak çiftler arasında farklılıklar alarak cevabın, böylece daha iyi bir yaklaşım elde edilir. Özellikle, eğer sıfırın altındaki varsayım gözlemlerin hepsinin normal olduğuna karar verdiyse, eşleştirilmiş çiftlerde hemen hiçbir fayda göremiyorum.
kardinal

4
Kardinal, aslında bende buna benzer çok fazla veri var. Tamamen eşleştirilmiş veri toplamaya çalışıyorduk, ancak teknik sorunlar veya şanssızlık nedeniyle, A veya B altındaki bazı örnek ölçümleri bazen bozulur. İki açık - ancak tatmin edici olmayan - çözümler 1) tüm eksik çiftleri atmak ve eşleştirilmiş bir t testi yapmak veya 2) eşleştirmeyi yok saymak ve tüm veriler arasında eşleşmemiş bir t testi yapmak. Posterin, diğer eşleşmemiş veri noktalarından elinden geleni kurtarırken (neden # 1 ve # 2 nedenden ötürü) eşleştirmeden yararlanmanın bir yolunu istediğini düşünüyorum.
Matt Krause

2
Tüm yorumlarınızı takdir ediyorum. Eşleşen çiftler için denekler hem A hem de B altında test edildi. Eşleştirmeyi güçlendirmenin bir yolu, A ve B'deki araçlar arasındaki fark için parametrik olmayan yüzdelik güven aralığı aralığını kullanmaktır. konular. Eşlenmiş verilere sahip olmayan bir öznenin bir örnekte saklanmış veya silinmiş bir gözlemi olacak ve eşleştirilmiş verilerin tutulmuş veya silinmiş iki kaydı olacaktır. Bu eşleşmeye saygı duyuyor gibi görünüyor ama bir tahmin ve tanımlanması gerekiyor ve biz iyimserliği bilmiyoruz.
Frank Harrell

1
Bayesian yaklaşımının uygulanması kolaydır.
Stéphane Laurent

2
Hani M. Samawi ve Robert Vogel, Uygulamalı İstatistik Journal (2013): Notlar kısmen ilişkili (ikili) veriler için iki örnek testlerde, dx.doi.org/10.1080/02664763.2013.830285
Suresh

Yanıtlar:



8

Peki, eşli ve eşli (ki genellikle iyi bir anlaşma daha küçük olurdu) arasındaki farkları bilseydiniz, gruplar arasındaki farkın iki tahmini için optimal ağırlıklar, bireyin varyansı ile ters orantılı olarak ağırlıklara sahip olmak anlamına gelir. ortalamalar arasındaki farkın tahminleri.

[Düzenle: varyans tahmin edildiğinde buna Graybill-Deal tahmincisi denir. Üzerinde epeyce kağıt vardı. İşte bir]

Varyansı tahmin etme ihtiyacı bazı zorluklara neden olmaktadır (varyans tahminlerinin sonuç oranı F'dir ve sonuçta ortaya çıkan ağırlıkların bir beta dağılımına sahip olduğunu ve sonuçta ortaya çıkan bir istatistiğin karmaşık olduğunu düşünüyorum), ancak önyükleme yapmayı düşündüğünüzden, endişe az.

Normalde verimlilikte çok az kayıp olan, bir anlamda ( belki de varyans oranları ile oynadığımız için normale göre daha sağlam olan) alternatif bir olasılık (veya en azından biraz daha sağlamdır), birleştirilmiş kayma tahminini temel almaktır. eşleştirilmiş ve eşleşmemiş sıralama testleri - her durumda bir tür Hodges-Lehmann, eşleşmemiş durumda çift taraflı örneklem farklılıklarının medyanlarına dayanarak ve eşleştirilmiş durumda, çift ortalamaların çift ortalama farklılıklarının medyanlarına göre tahmin edilir. Yine, ikisinin minimum varyans ağırlıklı doğrusal kombinasyonu, varyansların tersi ile orantılı ağırlıklar olacaktır. Bu durumda, muhtemelen bir önyükleme yerine bir permütasyona (/ randomizasyona) dayanırım - ama önyüklemenizi nasıl uyguladığınıza bağlı olarak, aynı yerde sonuçlanabilir.

Her iki durumda da, varyanslarınızı güçlendirmek / varyans oranınızı azaltmak isteyebilirsiniz. Ağırlığı için doğru basketbol sahası içinde almak iyidir, ancak normalde biraz sağlam yaparak çok az verimlilik kaybedersiniz. ---

Daha önce kafamda yeterince açık bir şekilde çözemediğim bazı ek düşünceler:

Bu sorunun Behrens-Fisher problemine belirgin benzerlikleri var, ancak daha da zor.

Biz ağırlıkları düzelttiyseniz, olabilir sadece Welch-Satterthwaite tipi yaklaştırılarak vurmak; Sorunun yapısı aynı.

Bizim meselemiz, ağırlığın sabit olmadığı anlamına gelen ağırlıkları optimize etmek istediğimizdir - ve gerçekten de istatistiği azami düzeye çıkarmaya meyillidir (en azından yaklaşık ve daha neredeyse büyük numunelerde, çünkü herhangi bir ağırlık kümesi aynıdır. pay ve paydayı minimize etmeye çalışıyoruz; ikisi bağımsız değil).

Bu, ki-kare yaklaşımını daha da kötüleştirir ve neredeyse bir yaklaşımın df'sini daha da fazla etkileyeceğini beklerim.

Bu sorun yapılabilir ise [da sadece orada olabilir Bu koşullar bu setleri altında bu diğer setleri altında, sadece eşleşmemiş sadece eşleştirilmiş verileri kullanmak eğer neredeyse yanı yapabileceği' derdi başparmak iyi bir kural be söndürmeye Koşullar ve geri kalan kısımda, bu sabit ağırlık şeması genellikle en uygun olana çok yakın '- ama nefesimi bu şansı bekletmeyeceğim. Böyle bir karar kuralının şüphesiz her durumda gerçek önemi üzerinde bir etkisi olacaktır, ancak bu etki o kadar büyük olmasaydı, böyle bir kural, insanların mevcut eski yazılımı kullanması için kolay bir yol sağlayacaktır, bu nedenle arzu edilebilirdi. böyle bir durumda kullanıcılar için böyle bir kural tanımlamaya çalışın.]

---

Düzenleme: Kendine Not - 'Örtüşen numuneler' testleri, özellikle üst üste binen numuneler t-testleri ile ilgili çalışma detaylarını geri getirmeli ve doldurmalısınız.

---

Bana rastgele bir randomizasyon testinin iyi sonuç vermesi gerekiyor -

  • Verilerin eşleştirildiği yerlerde, çiftler içindeki grup etiketlerine rastgele izin verirsiniz.

  • Verilerin eşleştirilmediği, ancak ortak bir dağılıma sahip olduğu varsayılmışsa (boş değerin altında), grup atamasına izin verirsiniz

  • Şimdi ağırlıkları iki vardiya tahminine göreceli varyans tahminlerine göre hesaplayabilirsiniz ( ), her randomize numunenin ağırlıklı vardiya tahminini hesaplayabilir ve numunenin uyduğunu görebilirsiniz. rastgele dağılım.w1=1/(1+v1v2)


(Çok sonra eklendi)

Muhtemelen ilgili kağıt:

Derrick, B., Russ B., Toher, D. ve White, P. (2017),
"Hem Eşlenmiş hem de Bağımsız Gözlemleri İçeren İki Örnek İçin Araçların Karşılaştırılması İçin Test İstatistikleri"
Modern Uygulamalı İstatistiksel Yöntemler Dergisi , Mayıs , Vol. 16, No. 1, 137-157.
doi: 10.22237 / jmasm / 1493597280
http://digitalcommons.wayne.edu/cgi/viewcontent.cgi?article=2251&context=jmasm


1
+1. Cevabınızın son kısmı hakkında bir sorum var. Permütasyon testinde hangi varyans tahminlerini (yani hangi ağırlıkları) kullanırdınız - gerçek numunede hesaplanan gerçek tahminleri mi, yoksa bu permütasyondaki verilere dayanarak her permütasyon için ağırlıkları hesaplar mısınız?
amip diyor Reinstate Monica

@ amoeba, belirli bir permütasyona dayanacağınız hesaplamanın numuneye dayalı yapısını uygun şekilde hesaba katacaktır.
Glen_b -Reinstate Monica

@ amoeba Ben bunu soruna diğer bazı yaklaşımlarla karşılaştırmalıyım.
Glen_b -Reinstate Monica

1
Bu arada, bu konuya rastladım, çünkü biri bana şu verilerle yaklaştı: iki eşleştirilmiş veri ve iki eşleştirilmemiş veri (örneğin, A grubunda 3 ölçüm, B grubunda 3 ölçüm, bu 6 değerden 2+ 2 eşleştirildi, gerisi eşleştirilmedi). Bu durumda, eşleşmemiş vardiya tahmininin varyansını tahmin etmek için yeterli veri yoktur, bu yüzden eşleştirmeyi görmezden gelmek ve eşleştirilmemiş bir test yapmak dışında hiçbir şey öneremedim ... Ama bu elbette oldukça uç bir durum.
amip diyor Reinstate Monica

6

İşte bazı düşünceler. Ben temel olarak Greg Snow'un bu sorunun Behrens-Fisher problemiyle farklı benzerlikleri olduğu sonucuna varıyorum . El yıkamadan kaçınmak için ilk önce bazı notlar aldım ve hipotezleri biçimlendirdim.

  • Biz gözlemler eşleştirilmiş ve ( );nxipAxipBi=1,,n
  • Elimizdeki ve gözlemler Çiftlenmemiş ( ve) ( );nAnBxiAi=1,,nAxiBi=1,,nB
  • Her gözlem, bir hasta etkisinin ve bir tedavi etkisinin toplamıdır. Karşılık gelen rastgele değişkenler

    • XipA=Pi+TiA , ,XipB=Pi+TiB
    • XiA=Qi+UiA , XiB=Ri+ViB

    ile , ve ( ).Pi,Qi,RiN(0,σP2)Tiτ,Uiτ,ViτN(μτ,σ2)τ=A,B

    • boş hipotezi altında, .μA=μB

Her zamanki gibi yeni bir değişken oluştururuz: . Biz .Xi=XipAXipBXiN(μAμB,2σ2)

Şimdi, (boyut ), (boyut ) ve (boyut ) olmak üzere üç grup gözlemimiz var . AraçlarıXinXiAnAXiBnB

  • XN(μAμB,2nσ2)
  • XAN(μA,1nA(σP2+σ2))
  • XBN(μB,1nB(σP2+σ2))

Bir sonraki doğal adım dikkate almaktır

  • Y=X+XAXBN(2(μAμB),2nσ2+(1nA+1nB)(σP2+σ2))

Şimdi temelde sıkışıp kaldık. Üç kare toplamı df ile , ile df ve df verir. Son iki bir tahmin vermek üzere birleştirilebilir ile df. varyansı , her biri tahmin edilebilecek iki terimin toplamıdır, ancak Behrens Fisher probleminde olduğu gibi rekombinasyon yapılamaz. n - 1 σ 2 P + σ 2 n A - 1 n B - 1 ( 1σ2n1σP2+σ2nA1nB1n-A+nB-2, Y(1nA+1nB)(σP2+σ2)nA+nB2Y

Bu noktada, probleminize bir çözüm bulmak için Behrens Fisher problemine önerilen herhangi bir çözümü sağlayabileceğinizi düşünüyorum.


1
Formüllerde birkaç yazım hatası düzelttim. Lütfen kontrol edin!
kjetil b halvorsen 12:15

5

İlk düşüncem karışık etkiler modeliydi, ama bu daha önce tartışılmıştı, bu yüzden bundan daha fazla bahsetmeyeceğim.

Diğer düşüncem, teorik olarak mümkün olsaydı, tüm konulardaki eşleştirilmiş verileri ölçebilmeniz mümkün olsaydı, ancak maliyet, hatalar ya da başka bir nedenden ötürü tüm çiftlere sahip olmamanız durumunda, o zaman eşleştirilmemiş konular için ölçülmemiş etkiyi tedavi edebilirdiniz. eksik veri ve EM algoritması veya Çoklu İmgeleme gibi araçlar kullanın (bir deneğin yalnızca 1 tedavi altında ölçülmesinin nedeni diğer tedavi altında olacaklarının sonucuyla ilişkili olmadığı sürece, rastgele eksik olması makul görünmektedir).

Maksimum olasılık kullanarak (konu başına mevcut verilere dayanarak hesaplanan olabilir) kullanarak verilere normal olan iki değişkenli bir normalin sığdırılması daha da basit olabilir, daha sonra dağılımı eşit ve farklı araçlarla karşılaştırarak bir olasılık oranı testi yapın.

Teorim derslerimden bu yana uzun zaman geçti, bu yüzden bunların optimallikle nasıl karşılaştırıldığını bilmiyorum.


1
Sağol Greg. Özelleştirilmiş maksimum olabilirlik yaklaşımına yöneliyorum.
Frank Harrell

4

Belki de rastgele etki olarak hastayla karışık modelleme bir yol olabilir. Karışık modelleme ile eşleştirilmiş durumda korelasyon yapısı ve eşleşmemiş durumda kısmi eksiklikler hesaba katılabilir.


2
Bireysel olarak analiz edildiğinde veri setlerinden hiçbiri rastgele efekt kullanmaya yol açmayacağından, rastgele efektlerin neden burada yardımcı olduğunu göremiyorum. Ancak, her bir konunun kendi korelasyon yapısına sahip olması için genelleştirilmiş en küçük kareler kullanmak mümkün olabilir. Eşleşmemiş gözlemler korelasyon sıfır olacaktır. Düşünmeye değer. Teşekkürler.
Frank Harrell

evet, haklısınız, ayrı ayrı kullanıldığında veri setleri karışık modelleme gerektirmez. Ancak, bunları tek bir veri kümesine eklerseniz, eşleştirilen veriye korelasyonu dahil etme yaklaşımını kullanabilir ve eşzamanlı olmayan verileri sıfır korelasyon belirleyerek kullanabilirsiniz.
psj

1
Evet; benim açımdan kolayca örn R'ın kullanarak (genelleştirilmiş en küçük kareler kullanarak konu değişen korelasyon yapısını belirttiğimiz şekilde karma modeli bir overkill olabilir olmasıydı glsişlevi nlme4paketinde.
Frank Harrell

3

Hani M. Samawi ve Robert Vogel'de önerilen yöntemlerden biri (Uygulamalı İstatistik Dergisi, 2013), bağımsız ve bağımlı örneklerden alınan T-puanlarının, yeni T puanının eşit olacağı şekilde ağırlıklı bir kombinasyonundan oluşur.

To=γ(μYμXSx2/nX+Sy2/nY)+(1γ)μDSD2/nD

Dγγ


1
T0
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.