Amerika Birleşik Devletleri'ndeki bir hava durumu istasyonları ağı için verilerim var. Bu bana tarih, enlem, boylam ve bazı ölçülen değerleri içeren bir veri çerçevesi verir. Verilerin günde bir kez toplandığını ve bölgesel ölçekli hava koşullarından kaynaklandığını varsayın (hayır, bu tartışmaya girmeyeceğiz).
Eşzamanlı olarak ölçülen değerlerin zaman ve mekan arasında nasıl ilişkili olduğunu grafiksel olarak göstermek istiyorum. Amacım araştırılan değerin bölgesel homojenliğini (veya eksikliğini) göstermektir.
Veri seti
Başlamak için, Massachusetts ve Maine bölgesinde bir grup istasyon aldım. NOAA'nın FTP sitesinde bulunan bir dizin dosyasından siteleri enlem ve boylam ile seçtim.
Hemen bir sorun görüyorsunuz: Benzer tanımlayıcılara sahip veya çok yakın olan birçok site var. FWIW, bunları hem USAF hem de WBAN kodlarını kullanarak tanımlıyorum. Meta verilere daha yakından baktığımda, farklı koordinatlara ve yüksekliklere sahip olduklarını gördüm ve bir sitede veri durduktan sonra başka bir yerde başlıyor. Yani, daha iyisini bilmediğim için, onlara ayrı istasyonlar gibi davranmalıyım. Bu, verilerin birbirine çok yakın istasyon çiftleri içerdiği anlamına gelir.
Ön analiz
Verileri takvim ayına göre gruplandırmayı ve sonra farklı veri çiftleri arasındaki normal en küçük kareler regresyonunu hesaplamayı denedim. Sonra tüm çiftler arasındaki korelasyonu istasyonları bağlayan bir çizgi olarak çizerim (aşağıda). Çizgi rengi OLS uyumundan R2 değerini gösterir. Daha sonra şekil Ocak, Şubat vb. 30'dan fazla veri noktasının ilgi alanındaki farklı istasyonlar arasında nasıl korele olduğunu gösterir.
Temel kodları yazdım, böylece günlük ortalama sadece her 6 saatlik periyotta veri noktaları varsa hesaplanır, bu nedenle veriler siteler arasında karşılaştırılabilir olmalıdır.
sorunlar
Ne yazık ki, bir arsa üzerinde anlam ifade etmek için çok fazla veri var. Bu, hatların boyutunu küçülterek düzeltilemez.
Ağ çok karmaşık görünüyor, bu yüzden karmaşıklığı azaltmanın veya bir tür uzamsal çekirdeği uygulamanın bir yolunu bulmam gerektiğini düşünüyorum.
Ayrıca korelasyonu göstermek için en uygun metriğin ne olduğundan emin değilim, ancak hedeflenen (teknik olmayan) izleyici için OLS'un korelasyon katsayısı açıklamak için en basit olabilir. Degrade veya standart hata gibi başka bilgiler de sunmam gerekebilir.
Sorular
Bu alana ve R'ye aynı anda giriyorum ve aşağıdakilerle ilgili önerileri takdir ediyorum:
- Yapmaya çalıştığım şeyin resmi adı nedir? Daha fazla literatür bulmamı sağlayacak bazı yararlı terimler var mı? Aramalarım, ortak bir uygulama olması gerekenler için boşluklar çiziyor.
- Uzayda ayrılmış birden çok veri kümesi arasındaki korelasyonu göstermek için daha uygun yöntemler var mı?
- ... özellikle, görsel olarak sonuçların gösterilmesi kolay yöntemler?
- Bunlardan herhangi biri R'de uygulanmış mı?
- Bu yaklaşımlardan herhangi biri otomasyona katkıda bulunuyor mu?