Farklı etkinlik türleri arasındaki ilişkiler (2B konumlarıyla tanımlanır) nasıl bulunur?


9

Aynı zaman diliminde gerçekleşen bir veri kümesi var. Her etkinliğin bir türü (ondan az olan birkaç farklı tür vardır) ve 2B nokta olarak gösterilen bir konumu vardır.

Olay türleri arasında ya da türü ve konumu arasında herhangi bir korelasyon olup olmadığını kontrol etmek istiyorum. Örneğin, belki A tipi olaylar genellikle B tipi olaylar olduğunda meydana gelmez. Ya da belki bazı bölgelerde, çoğunlukla C tipi olaylar vardır.

Bunu yapmak için ne tür araçlar kullanabilirim? İstatistiksel analizde bir acemi olarak, ilk fikrim bu veri seti üzerinde her tür olayın kendi bileşenine sahip olup olmadığını görmek için bir çeşit PCA (Ana Bileşen Analizi) kullanmaktı, ya da belki bazıları paylaştı mı (korelasyonlu)?

Veri kümemin 500'000 puan düzeyinde olduğunu belirtmeliyim , böylece işleri başa çıkmak biraz zorlaştırıyor.(x,y,type)

DÜZENLEME: Aşağıdaki yanıtlarda ve yorumlarda belirtildiği gibi, gidilecek yol bunu işaretli nokta işlemi olarak modellemek ve daha sonra bu atölye raporunda ayrıntılarda açıklandığı gibi R'yi tüm ağır kaldırma işlemlerini yapmaktır: http: / /www.csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html


Bu, (algılanan) uzaktan algılanan görüntü gibi bir raster veri kümesi mi yoksa düzensiz bir veri kümesi mi?
whuber

Sanırım buna düzensiz diyeceksiniz : belirli bir ay boyunca İngiltere'de gerçekleşen suçların kayıtları, burada kullanılabilir: police.uk/data .
Wookai

@ İngiltere'de bir ayda 500.000.000 suç işleniyor ? Britanya Adaları'nda anarşi basın tarafından bildirilmedi, ancak sonunda polis dosyalarında açıklandı mı? :-) 1 / 100th bu miktar - zar zor inanamadım.
whuber

Vay be, bu "yazım hatası" için gerçekten üzgünüm;)! Aslında 1000 kat daha az, 500.000 suç ("araç suçları", yani hız biletleri vb. Sayılıyor).
Wookai

1
Evet, R gitmenin yolunu arıyor! R'nin spatstat modülünde tam olarak aradığımı yapan bir atölye hakkında tam bir rapor buldum: csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html
Wookai

Yanıtlar:


3

Açıkladığınız veri türüne genellikle "işaretli nokta kalıpları" denir, R, bu tür analizler için, çoğu sizin muhtemelen humongo veri türüyle başa çıkamayan birçok iyi paket sunan uzamsal istatistikler için bir görev görünümüne sahiptir. Sahip olmak :(

Örneğin, belki A tipi olaylar genellikle B tipi olaylar olduğunda meydana gelmez. Ya da belki bazı bölgelerde, çoğunlukla C tipi olaylar vardır.

Bunlar oldukça farklı iki tür sorudur: İkincisi, bir tür işaret / olayın konumlandırılması hakkında sorular sorar. Bu bağlamda aranacak olan yanlış kelimeler, kümeleme (bir tür olayların birlikte gruplanma eğilimi olan) veya itme (bir tür olayların ayrılma eğilimi) kalıplarını keşfetmekle ilgileniyorsanız fe yoğunluk tahmini veya K-fonksiyonu tahminidir. Birincisi, farklı olay türleri arasındaki korelasyonu soruyor. Bu genellikle mark korelasyon fonksiyonları ile ölçülür.

Bence daha izlenebilir bir veri boyutu elde etmek için verileri alt örneklemenin tehlikeli olduğunu düşünüyorum (@ hamner'ın cevabına bakınız), ancak belki verilerinizi toplayabilirsiniz: Gözlem penceresini eşit boyutta yönetilebilir sayıda hücreye bölün ve olay sayılarını tablo haline getirin. her biri. Daha sonra her hücre, merkezinin konumu ve 10 işaretli türleriniz için 10'luk bir sayım vektörü ile tanımlanır. Bu toplu işlemde işaretli nokta işlemleri için standart yöntemleri kullanabilmelisiniz.


Belirgin nokta süreçlerine ve bazı ilgili teorik araçlara aşinayım, bunu daha önce düşünmeliydim. Anahtar kelimeler için çok teşekkürler, bunlar için birkaç noktanız var mı? Toplama fikri için de teşekkürler, benzer bir fikrim vardı, bunu yapmaya çalışacağım.
Wookai

2
Peter Diggle "model tabanlı bir jeoistatistik" yazdı. Ayrıca bu sayfada Lancashire suç verilerinin bir analizini de yaptı: lancs.ac.uk/staff/diggle/MADE size bazı iyi fikirler verebilir.
fabians

1

İlk olarak, veri kümesinin boyutu. Veri kümesinin küçük, izlenebilir örneklerini almanızı (N veri noktalarını rastgele seçerek veya XY düzleminde rastgele olarak nispeten küçük dikdörtgenler seçerek ve o düzlemin içine düşen tüm noktaları alarak) ve ardından bu alt kümedeki analiz tekniklerinizi geliştirmenizi öneririm. İşleyen analiz biçimi hakkında bir fikriniz olduğunda, bunu veri kümesinin daha büyük bölümlerine uygulayabilirsiniz.

PCA öncelikle boyutsallık azaltma tekniği olarak kullanılır; veri kümeniz yalnızca üç boyuttur (bunlardan biri kategoriktir), bu yüzden burada geçerli olduğundan şüpheliyim.

XY düzleminde analiz ettiğiniz noktaları (veya tüm veri kümesiyle çalışıyorsanız göreceli yoğunluklarını) görselleştirmek için hem bireysel türler hem de tüm türler için ve hangi modellerin görsel olarak ortaya çıktığını görmek için Matlab veya R ile çalışmayı deneyin. Bu, daha titiz bir analizin yönlendirilmesine yardımcı olabilir.


1
Bunun uygun olup olmadığı, veri oluşturma süreciniz hakkında zaten bildiklerinize veya varsaydıklarınıza bağlıdır. Verileri bölgeye göre alt örneklemek (yani önceden tanımlanmış daha küçük bir pencerede tüm noktaları almak) homojen değilse tehlikeli olabilir (çünkü farklı bir pencere kullanmak sonuçlarınızı değiştirirdi). Bir eğitim seti için konumlandırmaya bakılmaksızın verilerin örneklenmesi, gözlemlenen süreci "inceltme" etkisine sahiptir ve örneğin işaretler veya kümeleme / itme süreçleri arasındaki korelasyon aralığı hakkında çizmek isteyebileceğiniz sonuçları geçersiz kılar.
fabians

Evet, PCA'nın boyutsal azaltma amaçlı olduğunu biliyorum, bu yüzden bunu veri setime nasıl uygulayabileceğim konusunda kafam karıştı. Fikir, her bir olay türünün kendi "yönü" olup olmadığını veya bazılarının "aynı yönü paylaşıp paylaşmadığını" görmekti. Ama sanırım basitçe ilişkiyi düşünüyordum.
Wookai
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.