Açık Veri dağıtımı için en iyi veri formatları hangileridir?


15

Açık veri dağıtımını düşünürken farklı veri formatlarının (performans, dosya boyutu vb.) Artıları ve eksileri nelerdir?

Kuruluşumuz verileri açık veri olarak yayınlamak istiyor. Ancak, hangi veri formatlarının kullanılacağı konusunda net bir fikir yoktur. Tabii ki, bir veri formatı ne kadar 'açık' ise o kadar kolay kullanılır.

Aşağıdaki veri türleri göz önüne alındığında Açık Veri dağıtımında hangi veri biçimleri en 'açık' ve bu nedenle en çok kullanılabilir ?:

  • raster verileri (Düşünüyorum: GeoTIFF, Erdas IMG hayal et?)
  • vektör veri (düşünüyorum: GML, CSV, ESRI Shapefile, DXF?)
  • tablo verileri (Düşünüyorum: CSV?)
  • 3D veriler (Düşünüyorum: CityGML?)
  • 3D point coulds / LIDAR (Düşünüyorum: LAS?)
  • burada bir şey mi unuttum?

Ayrıca, açık veri formatları hakkında dokümantasyon varsa, paylaşmak isterseniz çok ilgileniyorum.


2
vektör için ayrıca geojson ve kml düşünebilirsiniz
neuhausr

1
bu bağlantıyı gördün mü gis.stackexchange.com/questions/61744/…

4
Veri değişim formatları ile veri depolama formatı arasında ayrım yapmanız gerekir. Örneğin geojson mükemmel bir Veri Değişimi biçimidir, ancak Veri depolama biçimi olarak berbattır. Yalnızca veri dağıtma biçimiyle (yani veri alışverişi) ilgilendiğinizi varsayıyorum. Bu doğru mu?
Devdatta Tengshe

@DevdattaTengshe: İyi nokta! Şimdilik amaç, verileri en uygun değişim biçiminde dağıtmaktır.
Mark Verschuur

Geri bildiriminiz için herkese teşekkürler. Ayrıca, dosya boyutu vs kullanılacak dosya türleri hakkında bazı ipuçları çok yararlı olacaktır.
Mark Verschuur

Yanıtlar:


5

Viyana şehrinin açık veri girişimi ( http://data.wien.gv.at ), Geoserver WMS ve WFS hizmetleri aracılığıyla raster ve vektör coğrafi verilerine erişim sağlamak için Geoserver'i kullanıyor . Bunun birçok avantajı vardır: Kullanıcılar çevrimdışı kullanım için farklı biçimlerdeki verileri (ör. Geojson, KML veya sıkıştırılmış Shapefiles) indirebilir veya çevrimiçi haritaları veya GIS projelerine yerleştirerek canlı hizmetleri kullanabilirler.


Burada yaptığımız şey budur: maps.gcc.tas.gov.au/data GeoServer'ı uzamsal olmayan tablolar için de kullanamazsınız.
Alex Leith

5

Tablo csv için. Excel en iyi aşırı karmaşık ve en kötü ihtimalle tamamen erişilemez. Erişim erişilebilir değil ve PDF karşısında bir tokat.

Geospatial kullanım için geojson, iyi desteklenen bir metindir ve diğer geçerli formatın (şekil dosyası) sahip olduğu teknik kısıtlamalara sahip değildir. Ayrıca çok iyi bir nedeniniz yoksa, çoğu kullanıcının başka bir durumda olacağını ve devlet uçağı istemeyeceğini akılda tutarak WGS84'te olması gerekir.


5

Ben sürekli / dizi veri (yani rasters) için NetCDF seviyorum . NetCDF'nin artıları:

  • NetCDF kendi kendini tanımlamaktadır (yani veri tanımları dosya başlığı üzerinden kullanılabilir), bu nedenle ikincil meta veri dosyaları sağlamanız gerekmez
  • NetCDF4 n boyutlu verilerin depolanmasına izin verir (diskteki HDF5 veri formatını kullanarak, bu işletim sisteminizin işleyebildiği kadar büyük dosyalara izin verdiği için bir avantajdır). Bu, makul sıkıştırma ve verilere hızlı erişim ile birlikte gelir. NetCDF3'ün n boyutlu verileri desteklemediğini ve 32 bit sistemde yaklaşık 2 GB dosya boyutu sınırına sahip olduğunu unutmayın.
  • NetCDF açık bir biçimdir, bu nedenle verilere erişmek genel kütüphaneler aracılığıyla da genellikle sorun değildir. Örneğin, python'da bir veri diliminde okumak için scipy'den yeterince basit:
from scipy.io import netcdf
f = netcdf.netcdf_file('source.nc')
print(nc.dimensions) #take a look at the dimensions of the data
print(nc.variables)  #A dictionary containing all the variables
nc.variables["some_data"].dimensions #The dimensions this variable is in, e.g. lat, lon
out_array = nc.variables["some_data"].data
f.close() #and we're done

Görebildiğim NetCDF4'ün tek dezavantajı, ArcGIS ve QGIS gibi standart GIS paketlerinde büyük olmayan destek (gerçi bu konuda düzeltmeyi çok isterim!).

EDIT NetCDF'yi destekleyen diğer bazı paketler

NetCDF'yi destekleyen bazı standart programlama dilleri (adil olsa da, HDF okuyabilen her şey NetCDF4'ü okuyabilir):

Matematik ve istatistik kullanıcıları için:

Özellikle CBS'de:

  • GDAL verileri sizin için dönüştürecek
  • Aynı şekilde FME
  • ArcGIS , NetCDF'yi destekliyor (deneyimlerime göre en iyi destek seviyesi olmasa da)
  • Geliştirmede bir QGIS Eklentisi var

Bir NetCDF dosyasına hızlıca bakmak isterseniz NASA'nın çapraz platform Panoply'sini kullanırdım. Daha fazlasıyla ilgileniyorsanız, UCAR Unidata'nın bir yazılım listesi var .


NetCDF, python dışında hiç desteği olmayan korkunç bir seçimdir. İyi bir desteği olabilir, ancak tiffs, png ve jpeg'nin tam anlamıyla her dilde desteği vardır.
Calvin

2
Kesinlikle katılmıyorum. NetCDF'yi destekleyen paketlerin hızlı bir listesini göstermek için yukarıdaki yanıtımı düzenledim. Benim tecrübelerime göre, bu çok boyutlu bilimsel veriler (örneğin astronomi ve meteoroloji) için bir seçim biçimidir. PNG ve TIFF, raster verilerini dağıtmak için kötü değildir ve kesinlikle verileri görüntülemek kolaydır, ancak büyük miktarlarda çok boyutlu verilere iyi ölçeklenmezler. Etmeyin hiç bir bilimsel veri dağıtmak için JPEG kullanmak (eğer birisi onu gayet iyi çalışan bir harita gönderiyorsanız rağmen).
om_henners

4

Şöyle söylerdim:

  • Vektör verileri için şekil dosyaları veya GML
  • 3D modeller için .obj-Dosyaları
  • nokta bulutları için .xyz (basit CSV)
  • Sekmeli veriler için CSV
  • Raster verileri için GeoTIFF

Bu biçimler Açık Kaynak Yazılım tarafından kolayca okunabilir ve belirli uygulamalar için gereken diğer biçimlere kolayca dönüştürülebilir.

Ayrıca verileri açmak için +1!


2
Vektör verileri için neden Shapefiles ve GML'yi önerdiğinizi bilmek isterim. Her ikisi de korkunç biçimlerdir. GML'nin tek tasarruf lütfu, bir OGC formatı olmasıdır.
Devdatta Tengshe

1
Şekil dosyaları birçok uygulamada okunabilir ve sorunsuz bir şekilde farklı bir şeye dönüştürülebilir. Ne öneriyorsun?
til_b

3
şekil dosyalarından kaçının. Çalışıyorlar, ancak ciddi teknik kısıtlamaları var.
nickves

1
Öyleyse şekil dosyalarının teknik sınırlamaları olmadığını ne önerirsiniz?
til_b

2
@til_b GeoTIFF 'açık' bakış açısından güzel bir formattır. Ancak, depolama için (veya bir indirme olarak sunmak) korkunç, çünkü dosyalar çok büyük olabilir. Kayıpsız sıkıştırma sunan açık bir raster formatı biliyor musunuz?
Mark Verschuur

1

Neredeyse aynı soru opendata'da da ortaya çıktı.SE: Coğrafi verileri yayınlamanın en faydalı biçimleri nelerdir?

Yani, umarım orada kendi cevabımı alıntılamak için hiçbir politikayı ihlal etmiyorum:

Deneyimlerim, birkaç hükümet veri kümesinden harita oluşturma:

Nokta verileri için CSV, "lat" ve "lon" sütunlarıyla en iyisidir. Metin editörleri, elektronik tablolar, vb. Dahil olmak üzere çok çeşitli araçlarla çalışmak çok kolaydır.

  1. GDAL, .vrttamamlayıcı bir dosya gerektirir .
  2. latVe lonsütunlarının adlandırılması tamamen standart değildir. Birçok araç kabul ettikleri şeylerde oldukça liberal.

Çizgiler ve çokgenler için azalan tercih sırasına göre:

  1. GeoJSON. Çalışması kolay ve bir metin düzenleyicide veya geojson.io ile düzenleme yeteneği , arama / değiştirme yapmanız, birkaç garip nesneyi kaldırmanız veya bir dosyadan diğerine kopyalayıp yapıştırmanız gerekiyorsa gerçek bir bonus. Diğer bir fayda ise CBS dışı geliştiricilerin bunu anlayabilmesidir. Yalnızca karşılaştığım sorunlar, birisi Point yerine MultiPoint olarak veri sağladığında ortaya çıkıyor.
  2. Şekil dosyası. Çok yaygın olarak desteklenir, ancak iki rahatsız edici noktaya sahiptir. İlk olarak, bu bir dosya koleksiyonudur, bu yüzden bir .zip'i geçip ayıklamanız gerekir. İkinci olarak, alan adları 10 karakterle sınırlıdır. Ortalama CBS sahibi olmayan bir kişi için düzenlemek zor.
  3. KML / KMZ. Bunlar genellikle çok fazla alakasız kasıma (stil, simgeler vb.) Sahiptir ve nitelikler bazen çalışmak için gerçekten zor olan mini HTML tabloları olarak kodlanır. En azından Google araçlarıyla kolayca düzenleyebilirsiniz.

Dürüst olmak gerekirse, en iyi cevap muhtemelen "hepsi" dir. Herkese bir iyilik yapın ve CSV (nokta ise), GeoJSON, sıkıştırılmış Shapefile ve KMZ'deki verileri serbest bırakın.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.