Karşılaştırma GPS Yörüngesi veri setine mi ihtiyacınız var?


13

Ben ücretsiz araştırma amaçlı kullanılabilir bir kıyaslama GPS veri seti arıyorum. Microsoft Research'ten GeoLife GPS Trajectories veri kümesini buldum ancak biraz eksik buluyorum.

İhtiyacım olan, en azından birkaç ay boyunca, tercihen sürekli olarak izlenen (enlem, boylam, tarih) tupleslerde olduğu gibi, bir kişinin GPS aktivite verileridir. Ayrıca kayıtların seyrek olmasını da istiyorum; her kayıt arasında en fazla 1 dakika.

Beni böyle güvenilir bir veri setine yönlendirebilirseniz gerçekten çok memnun olurum.


2
Bu veri kümesinin bir insandan olması gerekir mi? (Şimdiye kadar her şeyi ifade etme şekliniz evet anlamına gelir, ancak bunun açıkça ifade edildiğini sanmıyorum.)
Dan S.

Yanıtlar:


17

Bence en iyi şansın kendini izlemek olacak. Fikir sizi rahatsız ediyorsa, bu tür verileri hiçbir yerde herkese açık bulamamanızın nedeni budur.


6

Düşünebileceğim en iyi şey, OpenStreetMap'te bulunan GPS izleridir. Sürekli olmayacaklar, ancak çok sayıda var.

OSM web sitesinde, belirli bir alan için neyin mevcut olduğuna bakmak için "GPS İzleri" ni seçin.



4

Nefesimi tutmazdım. Bu hassasiyetteki veriler muazzam bir girişim olacak ve muazzam gizlilik etkileri olacaktır (bir kişi için sadece 30 gün boyunca, 43.200 veri noktası içeren (her dakika kaydedilmişse) ve şüphesiz orada ev konumunu tanımlayacak olsa bile).

Eğer bu tür verinin sahip olacağı önemli sorulara ilgi duyuyorsanız, yardımcı olmayacaktır. Ancak, bu tür büyük verileri işlemek için sadece bir tür analitik stratejiyle ilgileniyorsanız, amaçlarınız ne olursa olsun, bu ölçekte verileri simüle edebilmeniz gerekir. Verileri simüle etmek için R istatistik programına ve spatstat'a ve özellikle gezi paketine (ayrıca R'deki tüm uzamsal modüllere ) bir göz atmanızı öneririm .

Hayvan izleme verilerinin bile bu kadar kısa aralıklarla veri noktaları için gereksinimlerinizi karşılayabileceğinden şüpheliyim. İnsan aktivite modellerini tahmin etmek için cep telefonu verilerini kullanan okuduğum birkaç makaleyi listeleyebildim, ancak okuduğum hiçbir şey o kadar yakın bir yere gelmeyecek veya bireylerin aktivitesini sık sık ölçecekti.


4

Bir seçenek, bir sözleşme hazırlamak ve birçok insanı işe almaktır. Onlara ihtiyacınız olan verileri sağlayan okumaları, sözleşmeyi sonlandırmak için yeterli pil ve talimatları (gece yüklemek için bu kabloyla takın, bu dosyayı bana e-posta ile gönderin, vb.) Almak için yapılandırılmış GPS üniteleri sağlayın.

Sözleşmede, verilerin dağıtımını nasıl kısıtlayacağınızı ve onu korumak için nasıl anonimleştireceğinizi kesinlikle yazmanız gerekir (belki de kişinin özel olduğunu belirttiği noktalar etrafında yaklaşık yarım mil dışlama yarıçapı sağlayarak) ve hatta kayıplara karşı sigorta satın almayı düşünebilirsiniz. İnsanların faaliyetlerinin izleri halka açık olsaydı, "Her sabah saat 7: 00'de işe gidiyorum ve her gece 19: 00'da eve gelirim" gibi bir bilgi ile doluydu ve bir arsa ortalanmış dev bir yıldız işaretine benziyordu "Burası 8: 00-18: 00 arasında soyun" diyerek Gizlilik ve güvenlik konusunda neden endişelenmeniz gerektiğini görebilirsiniz.

Bunu düşünürseniz, çok pahalı veriler istiyorsunuz. Ve istatistiksel olarak yeterince büyük bir set olmadan, şüpheli bir değer olacaktır. Bir inşaat işçisi (tamamlanan her binadan sonra yeni bir tekrarlanan işe gidip gelme), bir posta taşıyıcı (çok tekrarlayan ve çok serpantinli bir yol), bir ofis çalışanı (çoğunlukla tekrarlayan doğrudan bir yol) ve bir çekici arasında nasıl farklı izler olabileceğini düşünün. Sürücü (sürekli yeni güzergahlar.) Sosyoekonomik durum izleri etkileyebilir: düşük gelirler toplu taşıma hatlarını daha fazla takip edebilir ve daha az seyahat edebilir. Okul çağındaki çocukların ebeveynleri işten sonra ortalama daha yüksek işe gidip gelebilir. Google Street View araçlarını kullanan kişiden bahsetmiyorum bile.

Bu izlerin hiçbirinin diğerlerinden herhangi birini anlamlı bir şekilde kesmesi muhtemel değildir.

Benzersiz stillerin sayısının sınırlı olması muhtemeldir, ancak elde edilmesi için önemli bir bütçe gerektirecek kadar yüksektir. Ve bu sadece bir şehirde olurdu.

Hedeflerinizi daha iyi tanımladıysanız, daha küçük (daha ucuz) bir veri kümesi elde edebilirsiniz. Çeşitli desen türlerini ölçmeye çalışıyorsanız, belki de çeşitli şehirlerde geniş bir yelpazedeki insanları örneklersiniz. Toplu taşımadan kimlerin faydalanacağını veya banliyö demiryolu koridorlarının nereye yerleştirileceğini bulmaya çalışıyorsanız, muhtemelen hizmet vermeyi planladığınız alanın çeşitli yollarında araba saymak ve anket yapmak daha iyi.


2

Ayrıca aradığınız veri kümesinin tam türünü de arıyorum. Ne yazık ki, henüz bir tane bulamadım. GeoLife verilerine rağmen bulduğum bir başka kaynak CRAWDAD . Site San Francisco taksileri ve New York yayalarından bir GPS günlükleri var. Ne yazık ki, NYC yayaları için lat / lon yerine sadece göreceli koordinatlar sağlarlar.


2

Soruyu cevaplamak için gerekli verilerin ahlaki nedenlerden dolayı kullanılamadığı birçok araştırma konusu vardır ve Milgram denemesinde olduğu gibi bu sınırları aşan deneyler gelecekteki kısıtlamalara yol açabilir . Son zamanlarda AOL , gizlilik endişeleri nedeniyle bir dizi arama sorgusu çekmek zorunda kaldı ve e-posta alışkanlıklarına ilişkin tek güvenilir veri seti Enron denemesinden geldi .

Bu nedenle, böyle bir yörünge veri seti almak tamamen teknik olarak mümkün olsa da, gizlilik sonuçları nedeniyle asla pratik olmayabilir. Diğer cevapların belirttiği gibi, göreceli veri kümeleri, bireyler üzerinde toplama veya simülasyon, gizlilik sorunundan kaçınırken sorunuzu ele almak için daha iyi yaklaşımlar olabilir.



2

Açık PFLOW projesi şunları sunar:

kentsel alanlarda kitle hareketi için tipik açık veri seti

Tokyo metropol alanı mevcut ve Chukyo metropol alanı hazırlanıyor gibi görünüyor.

Ayrıntılar yakın tarihli bir yayında bulunabilir:

Takehiro Kashiyama, Yanbo Pang, Yoshihide Sekimoto, Açık PFLOW: Kentsel alanlarda tipik insanların kitle hareketi için açık bir veri kümesinin oluşturulması ve değerlendirilmesi, Ulaşım Araştırması Bölüm C: Emerging Technologies (2017) Cilt 85, Sayfa 249-267.


T-Drive yörünge veri seti yakın tarihli bir bulgudur. Şunları sağlar:

10.357 taksiden oluşan bir haftalık yörüngeler. Bu veri kümesindeki toplam puan yaklaşık 15 milyon ve yörüngelerin toplam mesafesi 9 milyon kilometreye ulaşıyor.


İnsan hareketleri hakkında olmasa da, Liquid Robotics şirketi PacX meydan okumasından ilginç bir veri seti sunuyor . Pasifik Okyanusu'ndan geçen dört robot planörünün konum ve çevresel sensör okumaları hakkındaki veriler indirilebilir . WIRED ve bu konuşma yoluyla blogda (gerçekten harika) proje hakkında daha fazla bilgi .


Gizlilik sorunlarının üstesinden gelmek için bir başka seçenek de hayvan izleme verilerini kullanmak olacaktır. Veri korumanın burada daha az sorun olacağını düşünüyorum. Bir avantaj olarak, yazılımınızı / yöntemlerinizi gerçek dünya hareket verileriyle test etmeye devam edebilirsiniz. Dezavantajı, uygulamanızın 'insana özgü' hareketlere ihtiyacı varsa - sizin amacınıza uygun olmayabilir.

Verilerinin bir kısmının projenize uygun olup olmadığını kontrol etmek için Movebank veya DRYAD web sitelerine göz atın .


Matthew tarafından bahsedilen iphone verilerine gelince , kalabalık akışı ve openpaths projelerine bir göz atabilirsiniz . Belki aralarında bazı veriler elde etmenin bir yolu var mı? Güncelleme: Şimdi her iki bağlantı da ölü gibi görünüyor.


Yine bir başka seçenek de Chris Whong'ın NYC taksi verilerinin mekansal kısmı . Yalnızca alma ve bırakma konumları sağlarlar, ancak hacim (11 GB!) Ve bağlamsal bilgiler (ücret, yolcular, vb.) Onları gerçekten çekici kılar (alternatif indirme , verilerin gizlediği endişeler hakkında daha fazla bilgi ).


Urška Demšar'ın 'Gönüllü Hareket Verilerinden ve Bağlamsal Bilgiden İnsan Hareketliliğinin Analizi' konusundaki son makalesinde vaat edilenler:

Ayrıca yakında bu makaleye bağlanan gönüllü GPS yörüngelerinden oluşan ücretsiz bir veri kümesi de olacaktır. Bizi izlemeye devam edin.

( daha fazla bilgi )

Güncelleme: Kağıt, @ejel tarafından belirtilen CRAWDAD'da veri bulunacağından bahsediyor, ancak orada bulmadım .


Başka bir seçenek, kendiniz sentetik veri kümesi oluşturmak olabilir . İlham almak istiyorsanız, son makaleye bakınız van Dijk J (2018) Birden fazla hareketli pencereli GPS verilerinden aktivite-seyahat noktalarını belirleme Bilgisayarlar, Çevre ve Kentsel Sistemler ( bağlantı ). Daha fazla ayrıntı makalenin ekinde verilmiştir ve kod ve örnek veri kümesi github'da bulunmaktadır .


1

Tahina Keşif Gezisi (Google Earth Blogu) http://www.tahinaexpedition.com/map , geçen yılın çoğunda dolaşıyor.

KML işlenebilir http://maps.google.com/maps/ms?source=embed&hl=tr&geocode=&ie=UTF8&t=k&msa=0&output=nl&msid=103005318482134016767.0004670ab348ba9fa7b1f [artık gps parçası km olarak dönüştürüldü]


@Mapperez - Teşekkür ederim Mapperez, ama ihtiyacım olan biraz farklı. Karadaki bir kişinin günlük, dakika dakika kaydedilmiş GPS noktalarını istiyorum. Günlük rutine sahip bir kişi (biraz rutin) - kalkmak, işe gitmek, orada saatler geçirmek, alışveriş yapmak, eve gelmek, tekrarlamak gibi.
Murat

1

Kullanıcılar bu verileri Google'a 24 saat boyunca ücretsiz olarak sunar. Buna Latitude denir. Belki de kullanıcıları ile paylaştığı kadar cömertçe paylaşacaklar.


1
Umarım yapmazlar. @ Murat'ın başvurusunun gerektirdiği düzeyde herhangi bir veri yayınlamasına izin verilmeyeceğinden eminim.
underdark
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.