Tedaviden etkilenen eşdeğişken için gerekli iyi veri örneği


19

Çok sayıda R veri kümesine, DASL'deki ve başka yerlere gönderilen yayınlara baktım ve deneysel veriler için kovaryans analizini gösteren ilginç veri kümelerinin çok iyi örneklerini bulamıyorum. Stat ders kitaplarında kaydedilmiş veriler içeren çok sayıda "oyuncak" veri kümesi vardır.

Aşağıdaki durumlarda bir örnek almak istiyorum:

  • Veriler gerçek, ilginç bir hikaye ile
  • En az bir tedavi faktörü ve iki ortak değişken vardır
  • En az bir ortak değişken, bir veya daha fazla tedavi faktörü tarafından etkilenir ve biri de tedavilerden etkilenmez.
  • Gözlemsel değil deneysel, tercihen

Arka fon

Asıl amacım R paketim için vinyet koymak için iyi bir örnek bulmak. Ancak daha büyük bir amaç, insanların kovaryans analizindeki bazı önemli endişeleri göstermek için iyi örnekler görmeleri gerektiğidir. Aşağıdaki hazırlık senaryosunu düşünün (ve lütfen tarım bilgimin en iyi ihtimalle yüzeysel olduğunu anlayın).

  • Gübrelerin arazilere randomize edildiği ve bir mahsulün ekildiği bir deney yapıyoruz. Uygun bir büyüme döneminden sonra mahsulü hasat eder ve bazı kalite karakteristiklerini ölçeriz - bu cevap değişkendir. Ancak büyüme döneminde toplam yağış miktarı ve hasat sırasında toprak asiditesini de kaydediyoruz - ve tabii ki hangi gübrenin kullanıldığı. Böylece iki ortak değişkenimiz ve bir tedavimiz var.

Elde edilen verileri analiz etmenin olağan yolu, bir faktör olarak tedavi ile doğrusal bir modele ve ortak değişkenler için ilave etkilere uymak olacaktır. Daha sonra sonuçları özetlemek gerekirse, ortalama gübre için ortalama tahminlerde ve ortalama toprak asiditesinde modelden tahminler olan "ayarlanmış araçlar" (AKA en küçük kareler anlamına gelir) hesaplanır. Bu her şeyi eşit bir zemine oturtuyor, çünkü o zaman bu sonuçları karşılaştırdığımızda yağmur ve asitliği sabit tutuyoruz.

Ancak bu muhtemelen yanlış bir şeydir - çünkü gübre muhtemelen toprak asiditesini ve yanıtı etkiler. Bu, ayarlanmış araçları yanıltıcı hale getirir, çünkü tedavi etkisi asitlik üzerindeki etkisini içerir. Bunu halletmenin bir yolu, asitliği modelden çıkarmak olacaktır, o zaman yağışa göre ayarlanmış araçlar adil bir karşılaştırma sağlayacaktır. Ancak asitlik önemliyse, bu adalet, kalıntı varyasyonun artmasında büyük maliyete sahiptir.

Modelde orijinal değerleri yerine ayarlanmış bir asitlik versiyonu kullanarak bu sorunu çözmenin yolları vardır. R paket lsmeans'in gelecek güncellemesi bu düpedüz kolaylaştıracak. Ama bunu açıklamak için iyi bir örnek almak istiyorum. Beni iyi örnek veri kümelerine yönlendirebilecek herkese çok minnettar olacağım ve usulüne uygun olarak kabul edeceğim.


1
Bu kuşkusuz hem önemli hem de ilginç bir soru olsa da , konuyla ilgili olan şeylerle ilgili kurallara düşebilir gibi görünüyor : " Belirli veri kümeleri edinme ile ilgili sorular konu dışı (çok uzmanlar). "
Glen_b -Reinstate Monica


1
Şimdiye kadar verilen yanıtlar hakkındaki izlenimim, bunun gibi başka sorulara, lehine karar vererek boş bir çek vermede dikkatli olduğumuz, ancak çoğunlukla bu özel sorudan yanayız ve hatta ne olduğunu görmek için biraz hevesliyiz. bulabileceğiniz cevaplar (belki de bu sadece benim). Ne istemem kötü noktaları kanıtlamak için birlikte veri setleri için sormak Bu sorunun knockoffs yazılır ile istatistik değil ilgili istatistikler. Yani, istatistiksel bir ilke göstermek için yardım istemek bir şey, ancak etki alanına özgü veri kümeleri istemek başka bir şey olurdu ...
Nick Stauner

3
Tamam, iyi bir fikir gibi geliyor.
İtibarımı

2
@SteveS Bunun bir ödül için iyi bir aday olduğunu kabul ediyorum; gerçekten buraya yeni bir tane koymak için geldim , sadece Russ'ın zaten yapmış olduğunu keşfetmek için. Bir hafta içinde iyi cevaplar yoksa, ikinci bir ödül vermeyi düşünebilirim. Russ: ilginç sorulardaki ödüller, takip eden upvotes'un neredeyse onlar için neredeyse ödediğine yeterince dikkat çekme eğilimindedir, bu nedenle itibar kaybı genellikle ilk bakışta göründüğünden çok daha az diktir.
Glen_b

Yanıtlar:


6

mediationR paketini kontrol etmek isteyebilirsiniz . Tedavi değişkeninin hem tepki değişkenini hem de değişkenleri (yani, tedavi etkisinin aracıları) etkilediği jobsve framingburadaki deneysel verileri ve tedaviden etkilenmeyen eş değişkenleri içerir.

Arabuluculuk literatürüne baktım çünkü tam olarak bir arabuluculuk çalışması tanımlamış olsanız da: ürün kalitesi üzerindeki gübre etkisi toprak asiditesi üzerindeki etkisinden kaynaklanmaktadır. mediationPaketteki veri setleri sizi tatmin etmese bile , arabuluculuk literatürüne bakarsanız bir tane bulabilirsiniz.


Teşekkürler. Paketi yükledim ve bakacağım. Ve yeni bir şeyler öğrenme fırsatı.
rvl

İş verilerinin yeni katıldığım bir JSM oturumundaki üç görüşmeden ikisinde belirtilmesi
ilginç

1
Keşke ödülü bir şekilde ayırabilseydim. Ama bu pakette istediğim şeye çok uygun hazır veri setleri var, bu yüzden @MasatoNakazawa ödül kazanıyor. Çok teşekkürler. framingVerileri kullanarak, aracı değişken sabit tutulduğunda LSmeans'in etkileşim grafikleri (bir lojistik modele dayalı olarak), tedaviler ve diğer ortak değişkenler tarafından öngörülen değerlere ayarlandığından önemli ölçüde farklıdır, böylece aracılığı almanın ne kadar önemli olduğunu gösterir. değişkeni hesaba katmak.
rvl

1
Teşekkürler Dr. Lenth. Aslında tezimde makalelerinize değindim. Sizin gibi yerleşik bir istatistikçiye herhangi bir şekilde yardım edebildiğim için onur duyuyorum.
Masato Nakazawa

4

Arabuluculuk paketindeki veri kümelerinden biriyle nasıl bir analiz ortaya çıkacağını düşündüm . 'De framing, deneklerin Kongreye göç ile ilgili bir mesaj gönderme fırsatı buldukları bir deney yapılır. Bununla birlikte, bazı konulara ( treat=1) ilk önce Latinleri olumsuz yönde betimleyen bir haber gösterildi. İkili yanıtın yanı sıra (bir mesaj gönderip göndermeseler de), empdeneklerin, tedavi uygulandıktan sonra duygusal durumlarını da ölçtük . Çeşitli demografik değişkenler de var.

İlk olarak, gerekli paketleri R'ye yükleyelim ve etiketleri educdaha kısa dizelere değiştirelim.

> library("lsmeans")
> library("mediation")
> levels(framing$educ) = c("NA","Ref","< HS", "HS", "> HS","Coll +")

Şimdi bir lojistik regresyon modeline uyun

> framing.glm = glm(cong_mesg ~ age + income + educ + emo + gender * factor(treat),
+                   family = binomial, data = framing)

İşte tahminler ortak değişkenler ile yapılır geleneksel düzeltilmiş yollarla, bir ekran olduğunu age, incomeve emobunların ortalamaları değerleri ayarlayın:

> lsmip(framing.glm, treat ~ educ | gender, type = "response")

(Yanıt ölçeğine dönüştürülmüş geleneksel "düzeltilmiş araçların" etkileşim grafiği)

Bu ilginç bir sonuçtur, çünkü görüntülenen tedavi etkileri kadınlarda olduğu gibi erkeklerde de zıttır ve eğitimin etkisi beklendiği gibi monoton değildir.

Not, hHowever, emobir tedavi sonrası ölçümüdür. Bu, tedavinin onu etkileyebileceği, yani emoaracı bir eş değişken olduğu anlamına gelir ; ve bu nedenle emosabit tutarken yanıt değişkeninin tahminlerini karşılaştırmak anlamlı olmayabilir . Bunun yerine, emoverilen tahmini değerlere treatve demografik değişkenlere ayarlanan tahminlere bakalım .

> lsmip(framing.glm, treat ~ educ | gender, type = "response",
+       cov.reduce = emo ~ treat*gender + age + educ + income)

(Aracılık efektleri dikkate alınarak tahminlerin etkileşim grafiği)

Bu sonuç oldukça farklıdır ve emogüçlü bir aracı rol oynadığını düşündürmektedir . ( Arabuluculuk paketinin bu etkilerin gücünü tahmin etmek için işlevleri vardır.) Yukarıdaki tahminler, duygusal tepkileri dikkate alarak, olumsuz haber hikayesine maruz kalan erkek konuların mesajı kadınlardan veya olumsuz haber hikayesi. Ayrıca, etkisi educ(neredeyse) monotondur.

@MasatoNakagawa'ya beni bu ilginç örneğe yönlendirdiği ve beni nedensellik ile ilgili yakın tarihli bazı araştırmalarla birleştirdiği için tekrar teşekkürler.


3

Gen-çevre etkileşimi GWAS çalışmalarına bakın. Özünde gerçekleştirdikleri istatistiksel analiz, tanımladığınız şeydir. Soru şu: Ortamınız bir fenotip (gözlemlenebilir özellik) için önemli mi? Bir düşünce okulu genellikle tüm çevresel bilgileri göz ardı eder ve genetik yapınızın fenotipinizi tanımladığını söyler. Bu, hikayenin çevrenin her şey olduğu ve genleri görmezden geldiği ekolojik çalışmalarla tam tersidir. Her iki taraf da aynı sorunu anlamaya çalıştığından, ikisini birleştirmeye yönelik son girişimler olmuştur.

Diyelim ki BMI okuyoruz. Genetik matrisin ilk birkaç temel bileşenini genlere bağlı sabit etkiler olarak kabul ediyoruz. Eğitime iyi eğitimli bir indeks 1 ve zayıf eğitimli sabit bir etki için 0 indeksle uyarız. Eğitim endeksi ile kişinin geldiği toplumun zenginliği arasında oldukça güçlü bir ilişki vardır. Dolayısıyla, düşük gelirli toplulukların daha hızlı fast-food restoranlarına sahip olma olasılığı daha yüksektir. Fast food obezojenik bir tetikleyici gibi davranır .. "Genetik düzeneğinizde yağ birikimini teşvik eden bir şey tetikler", böylece genetik formda bir şekilde ortaya çıkacaktır.

Bu tür verileri simüle etmek sorun değil. Yukarı Bak

http://pngu.mgh.harvard.edu/~purcell/plink/simulate.shtml

Bu, bir semptomdan sorumlu GWAS (bunu genetik birimler olarak düşünün) verilerini simüle etmenizi sağlar. Aksi belirtilmedikçe, belirti ile 1000 ve 1000 kontrol üretecektir. Kullandığım bu simülasyonlardaki norm 9990 SNP'dir ve semptomlara neden olmaz ve 10 SNP yapar. Bunların nasıl simüle edildiğiyle ilgili talimatları okuyun.

Kişi obez ise çıkış 1, istemezse 0 olacaktır. Obezite düzeyleri ile makul bir korelasyon temelinde eğitim faktörlerini (bitmiş üniversite eğitimi / bitmemiş üniversite eğitimi) simüle edin.

Bu yardımcı olur umarım!!!


Teşekkürler. Yine de bazı gerçek verileri bekliyorum ... Artı GWAS çalışmasının ne olduğundan emin değilim. DUH, sadece bağlantıyı takip ederek öğrendim.
rvl

Ödülün başka bir katılımcıya verilmesine rağmen, bu öneriyi takdir ediyorum ve bunu takip etmek niyetindeyim. Teşekkürler.
rvl

1

Freakonomics'i okumayı ve çalışmalarının dayandığı makaleleri bulmanızı ve bu verileri alıp alamayacağınızı görmenizi öneririm. Gerçekten ilginç veri kümeleri üzerinde gerçekten ilginç çalışmaları var ve bazı durumlarda verilerdeki sınırlamalara rağmen hipotezleri test etmenin çok akıllıca yollarını buluyorlar.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.