Çok sayıda R veri kümesine, DASL'deki ve başka yerlere gönderilen yayınlara baktım ve deneysel veriler için kovaryans analizini gösteren ilginç veri kümelerinin çok iyi örneklerini bulamıyorum. Stat ders kitaplarında kaydedilmiş veriler içeren çok sayıda "oyuncak" veri kümesi vardır.
Aşağıdaki durumlarda bir örnek almak istiyorum:
- Veriler gerçek, ilginç bir hikaye ile
- En az bir tedavi faktörü ve iki ortak değişken vardır
- En az bir ortak değişken, bir veya daha fazla tedavi faktörü tarafından etkilenir ve biri de tedavilerden etkilenmez.
- Gözlemsel değil deneysel, tercihen
Arka fon
Asıl amacım R paketim için vinyet koymak için iyi bir örnek bulmak. Ancak daha büyük bir amaç, insanların kovaryans analizindeki bazı önemli endişeleri göstermek için iyi örnekler görmeleri gerektiğidir. Aşağıdaki hazırlık senaryosunu düşünün (ve lütfen tarım bilgimin en iyi ihtimalle yüzeysel olduğunu anlayın).
- Gübrelerin arazilere randomize edildiği ve bir mahsulün ekildiği bir deney yapıyoruz. Uygun bir büyüme döneminden sonra mahsulü hasat eder ve bazı kalite karakteristiklerini ölçeriz - bu cevap değişkendir. Ancak büyüme döneminde toplam yağış miktarı ve hasat sırasında toprak asiditesini de kaydediyoruz - ve tabii ki hangi gübrenin kullanıldığı. Böylece iki ortak değişkenimiz ve bir tedavimiz var.
Elde edilen verileri analiz etmenin olağan yolu, bir faktör olarak tedavi ile doğrusal bir modele ve ortak değişkenler için ilave etkilere uymak olacaktır. Daha sonra sonuçları özetlemek gerekirse, ortalama gübre için ortalama tahminlerde ve ortalama toprak asiditesinde modelden tahminler olan "ayarlanmış araçlar" (AKA en küçük kareler anlamına gelir) hesaplanır. Bu her şeyi eşit bir zemine oturtuyor, çünkü o zaman bu sonuçları karşılaştırdığımızda yağmur ve asitliği sabit tutuyoruz.
Ancak bu muhtemelen yanlış bir şeydir - çünkü gübre muhtemelen toprak asiditesini ve yanıtı etkiler. Bu, ayarlanmış araçları yanıltıcı hale getirir, çünkü tedavi etkisi asitlik üzerindeki etkisini içerir. Bunu halletmenin bir yolu, asitliği modelden çıkarmak olacaktır, o zaman yağışa göre ayarlanmış araçlar adil bir karşılaştırma sağlayacaktır. Ancak asitlik önemliyse, bu adalet, kalıntı varyasyonun artmasında büyük maliyete sahiptir.
Modelde orijinal değerleri yerine ayarlanmış bir asitlik versiyonu kullanarak bu sorunu çözmenin yolları vardır. R paket lsmeans'in gelecek güncellemesi bu düpedüz kolaylaştıracak. Ama bunu açıklamak için iyi bir örnek almak istiyorum. Beni iyi örnek veri kümelerine yönlendirebilecek herkese çok minnettar olacağım ve usulüne uygun olarak kabul edeceğim.