Bu basit bir durum; hadi öyle tutalım. Anahtar, önemli olan şeylere odaklanmaktır:
Verilerin yararlı bir tanımının elde edilmesi.
Bu tanımdan bireysel sapmaları değerlendirmek.
Yorumda şansın olası rolünü ve etkisini değerlendirmek.
Entelektüel bütünlüğü ve şeffaflığı korumak.
Hala birçok seçenek var ve birçok analiz şekli geçerli ve etkili olacak. Burada, bu temel ilkelere bağlılığı için önerilebilecek bir yaklaşımı açıklayalım.
Bütünlüğü korumak için , verileri yarıya bölelim: 1972'den 1990'a ve 1991'den 2009'a kadar gözlemler (her birinde 19 yıl). Modelleri ilk yarıya sığdıracağız ve daha sonra ikinci yarıyı yansıtmada uyumların ne kadar iyi çalıştığını göreceğiz. Bu, ikinci yarıda meydana gelebilecek önemli değişiklikleri tespit etme avantajına da sahiptir.
Yararlı bir açıklama elde etmek için, (a) değişiklikleri ölçmenin bir yolunu bulmalıyız ve (b) bu değişiklikler için mümkün olan en basit modele uymalı, değerlendirmeli ve basit modellerden sapmaları karşılamak için daha karmaşık olanları tekrarlamalı olarak uymalıyız.
(a) Çok fazla seçeneğiniz var: ham verilere bakabilirsiniz; yıllık farklılıklarına bakabilirsiniz; aynısını logaritmalarla da yapabilirsiniz (göreli değişiklikleri değerlendirmek için); yıllarca kaybedilen yaşam süresini veya göreceli yaşam beklentisini (RLE) değerlendirebilirsiniz; ya da başka birçok şey. Biraz düşündükten sonra, Kohort B'deki yaşam beklentisinin (referans) Kohort A'nınkine oranı olarak tanımlanan RLE'yi düşünmeye karar verdim. Neyse ki, grafiklerin gösterdiği gibi, Kohort A'daki yaşam beklentisi istikrarlı bir şekilde artmaktadır. zaman içinde moda, böylece RLE'deki rastgele görünümlü varyasyonun çoğu Kohort B'deki değişikliklerden kaynaklanacaktır.
(b) Başlamak için mümkün olan en basit model doğrusal bir eğilimdir. Bakalım ne kadar iyi çalışıyor.
Bu grafikteki koyu mavi noktalar, montaj için tutulan verilerdir; açık altın noktalar, uyum için kullanılmayan sonraki verilerdir. Siyah çizgi, .009 / yıl eğimle uygun. Kesik çizgiler, gelecekteki tek tek değerler için tahmin aralıklarıdır.
Genel olarak, uyum iyi görünüyor: artıkların incelenmesi (aşağıya bakınız), zaman içinde boyutlarında önemli bir değişiklik göstermemektedir (1972-1990 veri dönemi sırasında). (Yaşam beklentilerinin düşük olduğu zaman, erken yaşta daha büyük olma eğiliminde olduklarına dair bazı göstergeler var. Bu karmaşıklığı, basitliği feda ederek halledebiliriz, ancak eğilimi tahmin etmenin faydalarının büyük olması muhtemel değildir.) Sadece en küçük ipucu var. seri korelasyon (bazı pozitif ve negatif artıkların çalışması tarafından sergilenir), ancak açıkça bu önemli değildir. Tahmin bantlarının ötesindeki noktalarla belirtilecek herhangi bir aykırı değer yoktur.
Tek sürpriz , 2001'de değerlerin aniden alt tahmin bandına düşüp orada kalmasıydı: oldukça ani ve büyük bir şey oldu ve devam etti.
İşte daha önce belirtilen açıklamadan sapmalar olan kalıntılar .
Kalıntıları 0 ile karşılaştırmak istediğimizden, dikey çizgiler görsel bir yardım olarak sıfır seviyesine çekilir. Yine, mavi noktalar uyum için kullanılan verileri gösterir. Açık altın olanlar, 2000 sonrası alt tahmin sınırına yakın olan veriler için kalıntılardır.
Bu rakamdan , 2000-2001 değişikliğinin etkisinin yaklaşık -0.07 olduğunu tahmin edebiliriz . Bu, Kohort B içinde 0.07 (% 7) tam bir yaşam süresinde ani bir düşüşü yansıtıyor. Analizin bu kısmı araştırıcı olarak düşünülmelidir : özel olarak planlanmamıştır, ancak elde tutulan veriler (1991-2009) ve verilerin geri kalanına uyumu arasında şaşırtıcı bir karşılaştırma nedeniyle ortaya çıkmıştır.
Başka bir şey - sadece en eski 19 yıllık verileri kullanarak, eğimin standart hatası küçüktür: sadece .0009, tahmini .009 değerinin onda biri. 10 serbestlik derecesine sahip 10 karşılık gelen t-istatistiği son derece önemlidir (p değeri10- 7); yani, trendin şanstan kaynaklanmadığından emin olabiliriz. Bu, analizde şansın rolüne ilişkin değerlendirmemizin bir parçasıdır. Diğer kısımlar artıkların muayeneleridir.
En azından RLE'de zaman içinde gerçek bir eğilim olup olmadığını tahmin etmek amacıyla bu verilere daha karmaşık bir model sığdırmak için bir neden yok gibi görünüyor : bir tane var. Tahminlerimizi hassaslaştırmak için verileri 2001 öncesi ve 2000 sonrası değerlere ayırabilirizancak hipotez testleri yapmak tamamen dürüst olmaz. Yarma testi önceden planlanmadığı için p değerleri yapay olarak düşük olacaktır. Fakat keşifsel bir alıştırma olarak, bu tür bir tahmin iyidir. Verilerinizden mümkün olan her şeyi öğrenin! Sadece aşırı sığdırma ile kendinizi aldatmamaya dikkat edin (yarım düzineden fazla parametre kullanırsanız veya otomatik montaj teknikleri kullanırsanız, neredeyse gerçekleşecektir) veya veri gözetleme: resmi onay ile gayri resmi arasındaki farka dikkat edin (ancak değerli).
Özetleyelim:
Uygun bir yaşam beklentisi ölçüsü (RLE) seçerek, verilerin yarısını uzatarak, basit bir model yerleştirerek ve bu modeli geri kalan verilere göre test ederek, aşağıdakileri yüksek bir güvenle belirledik : tutarlı bir eğilim vardı; uzun bir süre boyunca çizgiye yakın olmuştur; 2001'de RLE'de ani ve kalıcı bir düşüş oldu.
Modelimiz çarpıcı bir şekilde cimri : ilk verileri doğru bir şekilde tanımlamak için sadece iki sayı (eğim ve kesişim) gerektirir. Bu açıklamadan bariz fakat beklenmedik bir şekilde ayrılmasını tanımlamak için üçüncü bir (mola tarihi, 2001) gerekir. Bu üç parametreli açıklamaya göre aykırı değer yoktur. Model, seri korelasyonu (genel olarak zaman serisi tekniklerinin odağı) karakterize ederek, sergilenen küçük bireysel sapmaları (kalıntılar) tanımlamaya çalışarak veya daha karmaşık uyumlar (ikinci dereceden bir zaman bileşenine ekleme gibi) tanıtarak önemli ölçüde geliştirilmeyecektir. veya zaman içinde artıkların boyutlarındaki değişikliklerin modellenmesi).
Trend yıllık 0.009 RLE olmuştur . Bu, her geçen yıl, Kohort B içindeki yaşam beklentisinin, 0,009'a (neredeyse% 1) tam beklenen normal kullanım ömrüne sahip olduğu anlamına gelir. Çalışma boyunca (37 yıl), bu 37 * 0.009 = 0.34 = yaşam boyu iyileşmenin üçte biri kadardır. 2001'deki gerileme, bu kazancı 1972'den 2009'a kadar tam bir yaşam süresinin yaklaşık 0.28'ine düşürdü (bu dönemde toplam yaşam beklentisi% 10 artmasına rağmen).
Bu model geliştirilebilse de, muhtemelen daha fazla parametreye ihtiyaç duyacaktır ve iyileşmenin büyük olması muhtemel değildir (artıkların rasgele yakın davranışı kanıtlandığı gibi). Genel olarak, o zaman, çok az analitik çalışma için verilerin bu kadar kompakt, kullanışlı ve basit bir açıklamasına ulaşmaktan memnun olmalıyız .