Mekansal ETL için seçenekler mi arıyorsunuz (Extract, Transform, Load)?


33

Çeşitli mekansal ETL (çıkarma, dönüştürme, yükleme) araçlarının artıları ve eksileri ile ilgileniyorum. Burada listelenen öğeleri kullandıysanız (veya kendinizinkini eklerseniz), fikirlerinizi ve deneyimlerinizi ararım. Özellikle şu durumlarda kullanılabilirlik karşılaştırmalarını görmek istiyorum:

Bahsedilen TÜM yazılımın gözden geçirilmesine gerek yoktur. Eğer biriyle bile deneyimlenirseniz, o zaman hangi yöne gideceğinize karar vermede çok faydalı olacaktır.

Örnek: Giriş katmanını seçmeme, çeviri oluşturmama ve yeni, önceden tanımlanmış bir şemaya çıkmama izin verecek bir şema dönüştürme işlevi oluşturmayı düşünüyorum. En iyi şekilde, çeviri betiğini oluşturduktan sonra, giriş katmanımdaki alanları çıkış katmanına "eşleştirebileceğim" bir etkileşimli form istiyorum (örneğin, çıkış katmanının adı "Adres" olan bir alana sahip olacak) giriş katmanında?)

Soru-Cevap bölümünde , CIS verilerini bir veritabanına yüklemek için hangi araçlar kullanılabilir?

Ve işte bulduğum ilgili birkaç makale.

Yanıtlar:


17

Bu soru Topluluk Wiki'sine dönüştürüldü ve wiki kilitlendi, çünkü cevapların bir listesini arayan ve kapatılmasından korumak için yeterince popüler görünen bir soru örneği. Özel bir durum olarak ele alınmalı ve bu konuda ya da herhangi bir Stack Exchange sitesinde teşvik edilen bir soru türü olarak görülmemelidir, ancak daha fazla içeriğe katkıda bulunmak istiyorsanız, bu cevabı düzenleyerek bunu yapmaktan çekinmeyin .


Sadece profesyonel bir bağlamda gördüklerim hakkında konuşacağım. Maden öğrencisim, çok sayıda mekansal veriyi iyi bilinen bir kaynaktan (TeleAtlas) CBS'lerine almak, doğrulamak ve entegre etmekle görevli bir girişimde çalıştı. FME kullanarak birçok iş akışını kullandı, anında çok karmaşık doğrulama ve ayarlamalar yaptı, bir formattan diğerine, özellik seçimi, topoloji doğrulama, kopyaları kaldırma vb. Gibi. İş akışı daha sonra gelen veri setlerini otomatik olarak işleyebildi.

Öğrencinin bunun gibi başka bir MYE iş akışını tarif ettiği, ancak bu kez entegrasyon için ulusal seviyeye gönderilen bölgesel veri setlerini doğrulamak için bir viva deneme raporu için jüri üzerindeydim (özür dilerim, "soutenance de rapport de stage" ın tüzüğü) ulusal risk veritabanına. Ana fark, bu son örnekte veri setinin çok farklı dosya formatları, raster ve vektör, ölçekler ve stiller olmasıydı.

Sonunda, Talend Open Studio'ya dayanan açık kaynaklı ETL olan Spatial Data Integrator'ı test ettim. Özellikler çok sayıda, ancak MYE'lerden daha azdı, ancak temel farklılıkların iş akışı yaratımının dokümantasyonu ve kullanım kolaylığı ile ilgili olduğunu düşünüyorum. Genellikle iş akışı bileşenlerinin java kod kaynağını değiştirmek zorunda kaldım. Ancak SDI'nın daha eski bir versiyonuydu ve burada açıkladığım eksiklikler başlangıçta açık kaynak projeleriyle biraz olağandı ve aynı seviyede tescilli iyi niyetli yazılımlar ve ücretsiz açık kaynak kodlu genç yarışmacılar ile kıyaslanamayız.


24

Birkaç GB uzamsal veriyle çalışan yeni bir proje için, veri yükleme / reddetme işlemlerini FME ile başlattım. İyi çalıştı, ancak bir öğrenme eğrisi var.

Projenin sonunda, raybalama işlemlerini otomatikleştirmek için Python scriptleri kullanıyordum. FME komut dosyası yazılabilir, ancak Python temellerine sahipseniz, neden işleri daha da karmaşıklaştırırsınız? Python size tam bir esneklik sağlar ve Python becerilerinizi geliştiren her bir içe aktarma komut dosyasıyla yazılır.

Veri dönüşümleriyle çalışırken aşağıdaki Python paketlerini paha biçilmez buldum:

  • PyProj
  • GeoPy
  • Düzgün
  • Excel elektronik tablolarından veri almak için xlrd
  • pyobdc veritabanlarına bağlanmak için
  • SQL deyimlerini çalıştırmak ve veritabanlarıyla çalışmak için SQLAlchemy

Bir geliştirici / programlama geçmişiniz varsa Python kullanmanızı öneririm, bir GUI ile çalışmayı tercih ederseniz (ki bu belgeler için güzel görüntüler de oluşturabilir) FME'yi öneririm.


11

Açık kaynaklı olmayı seviyorum, ancak FME açık kaynaklı ETL'lere karşı söyleyebileceğim en iyi şekilde kolayca kazanıyor. Aslında bakım ve destek için de oldukça ucuz (en azından işler için sahip olduğumuz diğer kurumsal çözümlerle karşılaştırıldığında).

Formatlar arasında çeviri arıyorsanız, OGR bunu yapabilir ( dönüşümler için GDAL’a bir boru hattıyla ). Tabii ki, bu komut satırı .

"Olası kopya" yorumunda listelenenlerin ötesinde görsel modelleme için , bir QGIS / SEXTANTE model oluşturucu üzerinde çalışıyorlar; konsept videosunun kanıtı: https://www.youtube.com/watch?v=LTUu-I2ouqU

(Hayır, Güvenli için çalışmıyorum, sadece nispeten mutlu bir müşteriyim).


video bağlantısı koptu. Tamir edebilir misin?
GeoStoneMarten


6

Yaklaşık bir yıl önce, bu konudaki seçeneklerin çoğunu içeren çeşitli araçların bir karşılaştırmasını yaptım .

Daha doğrudan bir cevap olarak, çok yönlülüğü nedeniyle FME'yi çok kullanıyorum. Bununla birlikte, CityGML, INSPIRE GML veya daha büyük veritabanı modelleri gibi karmaşık veri yapılarıyla çalışırken, ETL için geliştirilen açık kaynaklı bir uygulama olan HALE ve özellikle de uyumlaştırma kullanıyorum.

görüntü tanımını buraya girin

Şu anda (2.9.0 sürümünden itibaren), FME (2014 SP1) ile karşılaştırması şöyle:

  • HALE daha az sayıda formata (HALE: 20, FME 200) ve transformatörlere (HALE: 30+, FME: 400'den fazla) sahiptir, ancak tüm XML / GML lehçeleri için çok iyi bir destek
  • HALE dönüşüm sonuçlarını harita üzerinde ve tablo görünümlerinde etkileşimli olarak önizler ve çıktıyı doğrudan doğrular
  • HALE genellikle daha hızlıdır, çünkü her bir özniteliğin yerel içeriği korunur, bu sayede size birçok FeatureMergers kazandırır
  • HALE 2010'dan beri Açık Kaynak ve üretimde kullanılıyor.
  • HALE, prosedürel yaklaşımlara kıyasla daha az sayıda gerekli kullanıcı girdisine yol açan bildirimsel bir haritalama arayüzü kullanır.

Birkaç yıldan beri HALE ekibindeyim.


Bugün FME'ye kıyasla nasıl bir yığın olduğunu düşünüyorsunuz? Özellikle web ve geoRSS veri yayınları için mi?
Dr.YSG

@ Dr.YSG, hale'nin bakımı, 2015 yılında wetransform GmbH tarafından devralındı, bu yüzden şimdi gelişiminin arkasında özel bir ekip var. Son dört yılda önemli bir gelişme oldu. Değişiklikler GitHub sürüm notlarında belgelenmiştir. JSON / GeoJSON verilerinin işlenmesini destekler. GeoRSS, GML'nin bazı kısımlarını tekrar kullanan basit bir XML formatıdır, bu yüzden tamamen desteklenir. GeoRSS yayınlarını otomatik olarak işlemek için hale-cli'ye (komut satırı arayüzü ve diğer API'ler) bakmak istersiniz.
tr_xsdi

5

Blah238s yinelenen bağlantıya bakarsanız daha fazla bilgi bulabilirsiniz. Talend Open Studio ve Pentaho GeoKettle'ın seçebileceği en belirgin açık kaynak çözümleri olduğunu söyleyebilirim. Bu iki Talend'den yalnızca ETL ve GeoKettle'tan daha fazlasını hedef alıp okuduğum kadarıyla biraz daha kolay.

Belediyem GeoKettle’a İsveç yerel otoriteler ve bölgeler birliği (SALAR) tarafından bir araya getirilen bir GML lehçesi yazmak üzere.

GeoKettle'ın OGR / GDAL için 2.0 sürümünden destek aldığına inanıyorum.


5

FME muhtemelen bu alanda kullanılacak en iyi üründür. Bundan sonra GDAL / OGR. Bu alandaki bir başka açık kaynaklı ürün ise coğrafi - http://www.spatialytics.org/projects/geokettle/ Öfkeyle hiç kullanmamıştım (diğer iki ürünü de söyleyebilecek kadar şanslı).

Bu genel seçeneklerin hiçbiri işe yaramazsa, muhtemelen belirli bir dönüştürme aracı kullanmak istersiniz.


3

Bir Eclipse UI'sına alışmadıkça Geokettle, küçük bir proje yüksek öğrenme eğrisi için dini olarak kullanıldı ... GDAL1.10'a karşı derlendiği gibi güçlü olan tüm coğrafi türleri destekliyor ... Sevdiğim şey, hem depolanmış veri hem de hizmetler üzerinden veri desteği. ... ESG json aracılığıyla yerel bir postgis örneğindeki ArcGIS sunucusu veri kümelerini GeoJSON ile yeniden oluşturmak ve senkronize etmek için kullandım ... İş akışı şartlar oluşturabilir ve doğrulama, onu objectid # için sorgulamaya ve önceden tanımlanmış bir csv'yi derlemeye dayalı olarak ayarlayabilir. ilk sorguya bağlı olarak bir seferde 500 özellik için bir gönderi isteği yinelemek, tüm istekleri bir geojson dosyasına birleştirmeyi başardı, ogr2ogr komutunu kullanarak bir yazı yazdırabildiler, hatta postgis'e yükleyebildiler. Bir hayranı

Masaüstü gui'de çalıştırabilir ve bir iş akışını haritalandırabilir ve pentahos sunucu araçlarını kullanarak Hadoop'ta kurabilir ve komut dosyası veya cron işi olarak çalıştırabilirsiniz.


3

QGIS (en azından şu anki 2.6 sürümünden beri) artık entegre bir model kurucusuna da sahip. Bu araç kutusuyla cebirliklerdeki (GDAL, GRASS, SAGA, vectortools, vb.) Parçalara erişebilirsiniz. Ayrıca kendi komut dosyasını da ekleyebilirsiniz.

Çok fazla kullanmadığımı itiraf etmeliyim, ancak bir model kurucu arıyor olsaydım, araştırmaya değeceğini düşünürdüm.


0

[UYARI: Birlikte çalıştığım bir ürünün bedava tanıtımı]

ETL yapmak için bir araç üzerinde çalışıyoruz. Lezzet bakımından FME'ye benzer ancak daha basit işler için ve daha az uzmanlık gerektiren bir kullanım için tasarlanmıştır. Bazı detaylar https://www.geoactive.it adresinde bulunabilir, sadece Data Dragon hakkında bilgi arayın. Bu uygulama arka ucunda GDAL / OGR kullanıyor ve biz de GDAL / OGR'a yaptığımız tüm ekleri zorluyoruz.

Ticari kullanım satın alınmasını gerektirir, ancak ücretsiz olarak akademik lisanslarımız var, bu yüzden bana eğitim mesajı olarak kullanmak isterseniz, size daha fazla ayrıntı vereceğim.

Bu onun erken tahliye aşamasında, bu yüzden hala bazı küçük böcekler var, bu yüzden lütfen bize karşı nazik olun.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.