Veri maskeleme için hangi araçlar var? (MySQL, Linux) [kapalı]


14

(İdeal olarak ücretsiz, açık kaynaklı) veri maskeleme araçlarını arıyorum. Böyle bir şey var mı?

Not: Bu ilgili soru, test verisi oluşturmak için araçlar ile ilgilidir, ancak bu soruda gerçek verilerle başlamak ve test amaçları için ilginç kılan herhangi bir özel ilişkiyi kaybetmeden testte kullanılmak üzere maskelemekle ilgileniyorum. Oluşturulan veriler bazı test amaçları için uygundur, ancak gerçek dünya verileri hiç düşünmediğiniz sorunları ortaya çıkaracaktır. Test verilerinin büyük veri setlerini oluşturma aracı

Yanıtlar:


9

Bunun için genel bir araç olsaydı çok şaşırırdım - hassas verilerin ne olduğunu ve ne olmadığını nasıl bilebilirdi? Örneğin, tüm verilerinizi incelemeniz ve kredi kartı numarası, telefon numarası, posta kodu, e-posta adresi ve diğer verilerin hassas olduğu düşünülen tüm olası biçimleri tanıması gerekir. Şemanız hakkında da akıllı olması gerekir - örneğin, tüm müşteri e-posta adreslerini "nobody@company.com" olarak yeniden yazması gerekir - veya veritabanınızın, uygulamalarınızın, diğer araçların herhangi bir kısmı bir müşterinin e-posta adresinin (veya SSN veya her neyse) benzersiz mi? Yoksa kredi kartı numaralarını kontrol eden ve hepsini 0000 0000 0000 0000 olarak sıfırlarsanız kesilecek bir kısmı var mı? Yoksa telefon sisteminiz bir müşterinin

Temel olarak, bunu yapmak için herhangi bir aracı yapılandırmak, uygulama bilginizi kullanarak kendi komut dosyanızı yazmaktan daha fazla veya daha fazla iş olacaktır. Sitemde, bu tür verileri içeren bir sütun ekleyen herkesin, tüm bu sütunları bulmak ve sürüm 1 yazmak için ilk denetimden sonra komut dosyasını aynı anda anonimleştirmek üzere güncellemesini sağladık.


1
Önceki bir işyerinde Oracle dbs için bir tane kullanmak için (başarısız) bir girişim olduğu gibi ticari araçlar olduğunu biliyorum. (Bu projeyle ilgilenmedim, bu yüzden başarısızlığın nedenlerini bilmiyorum. Eski bir db için bir veri maskeleme aracı oluşturmanın, önerdiğiniz gibi, çok sıkıcı bir görev olacağından şüpheleniyorum).
testerab

3
Oh, birinin size bunun olduğunu iddia eden bir şey satmasını bekliyorum , ama dediğim gibi, bunu yapılandırmak SQL'de kendi yazmanızdan daha fazla iş olacak çünkü önce hokey DSL'lerini öğrenmek zorunda kalacaksınız!
Gaius

5

Veritabanınız küçükse, basit bir veri modeline sahipse ve mevcut DBA'lar tarafından iyi anlaşılmışsa, komut dosyası “olabilir”. Bununla birlikte, tipik veritabanlarını manuel olarak analiz etme ve maskeleme çabası (ve maliyeti), gereksinimler değiştikçe, işlevsellik eklendikçe ve geliştiriciler / DBA'lar gelip gittiğinde oldukça hızlı bir şekilde kontrolden çıkabilir.

Herhangi bir açık kaynak veri maskeleme ürününün farkında olmasam da, makul derecede kapsamlı, nispeten kolay ve ticari açıdan makul maliyetli olabilecek ticari teklifler var. Birçoğu, hassas verileri (SSN, kredi kartları, telefon numaraları) tanımlamak ve sınıflandırmak için kullanıma hazır keşif yeteneğinin yanı sıra sağlama toplamlarını, e-posta adresi biçimlendirmesini, veri gruplamasını vb. gerçek görünüyor.

Ama benim (kuşkusuz önyargılı) sözümü almak zorunda değilsin. Maskeleme konusunda yardımcı olabilecek birkaç tarafsız raporu olan Gartner veya Forrester gibi endüstri analistlerine sorun.

Umarım bu yorumlar iç ürünleri geliştirmenin yanı sıra ticari ürünleri keşfetmeyi de teşvik edecektir. Günün sonunda, en önemli şey, çoğumuzun işimizi yapmak için görmemize gerek duymadığımız, gün ve gün gördüğümüz hassas verileri korumaktır - bizi ve kişisel insanları risk altında tuttuğumuz veriler.

Kevin Hillier, Kıdemli Entegrasyon Uzmanı, Kamuflaj Yazılım A.Ş.


1
Kendi ürününüzü satmak olarak karşılaşmak istemediğinizin farkındayım, ancak birkaç ticari ürünü adlandırabilir veya belirli bir tavsiyeye işaret edebilmeniz yararlı olacaktır?
testerab

1
Bu şirket için çalıştığınızı ve muhtemelen kendi ürününüzü tavsiye etmek istediğinizi ve buna karşı olmadığınızı anlıyorum, ancak sig nedeniyle "Neden bahsettiğimi biliyorum. , çünkü bu benim yaptığım şey "... Ben daha çok" blah blah blah kullan (Tam açıklama: Bu ürün üzerinde çalışıyorum) çünkü blah blah blah "diye ikna etmekteyim ve isminizi sonuna koymayın. Kişisel bilgilerinizi istiyorsak profesörünüzü tıklayıp o sig'ı okuyabilir ve oradaki bağlantıyı tıklayabiliriz.
jcolebrand

5

Böyle bir öğeyi hiç görmedim, ancak zamanımda birkaç hassas veri setiyle çalıştığımızda, karıştırılması gereken ana şey insanların kimlikleri veya kişisel olarak tanımlayıcı bilgiler. Bu gerektiğini sadece veritabanındaki birkaç yerde bir görünüm yapmak.

Maskeleme işleminiz verilerin istatistiksel özelliklerini ve ilişkilerini korumalıdır ve muhtemelen gerçek referans kodlarını (veya en azından bir tür kontrollü çeviri mekanizmasını) tutması gerekir, böylece gerçek verilerle mutabakat yapabilirsiniz.

Bu tür bir şey, alanlardaki adların ayrı bir listesini alıp FirstNameXXXX gibi bir şeyle değiştirerek elde edilebilir (burada XXXX, her ayrı değer için bir tane olmak üzere bir sıra numarasıdır). Kimlik hırsızlığı için kullanılabilecek kredi kartı numaraları ve benzer bilgilerin bir geliştirme ortamında hayır olması muhtemeldir, ancak yalnızca ödeme işleme sistemlerini test ediyorsanız gerçek olanlara ihtiyacınız vardır - genellikle satıcı size özel kodlar verecektir kukla hesaplar için.

Bu tür anonimleştirme prosedürleri yazmak özellikle zor değildir, ancak işletme ile anonimleştirilmesi gerekenleri tam olarak kabul etmeniz gerekecektir. Gerekirse, veritabanı alan adım adım gidin. Evet / hayır sormak size istemediğiniz yanlış pozitifler verecektir. İşletme temsilcisinden belirli verileri anonimleştirmemenin sonuçlarını veya sonuçlarını veya düzenleyici etkilerini açıklamalarını isteyin.


3

Aynı görevi birkaç hafta önce yaptım. bazı yazılım sistemlerini değerlendirdik, ancak çoğu sadece tam olarak bir tür veri tabanı içindir, örneğin oracle ve genellikle kullanımı çok karmaşıktır ... bu yüzden bunu değerlendirmek için en güzel şey yok. Bizi haftalar aldı.

Veri maskeleme paketi profesyonel sürümünü satın almaya karar verdik, çünkü en kolayı ue. Ayrıca verileri maskelemek için harika olasılıklara sahiptir, örneğin e-posta adreslerini gerçek görünümlü adreslerle değiştirebilirsiniz, örneğin ... @ siemens.com'dan mike.miller@seimsen.com.

Hatırladığım kadarıyla yaklaşık 500 (?) Kayıt için ücretsiz deneyebilirsiniz.

İşte bağlantı http://www.data-masking-tool.com/


1
Sadece bir veri noktası: Bu yazıdan itibaren, veri maskeleme aracı sadece 1000 $ 'dan utangaç çalışır.
Michael Teper

2

Bunu yapmanın yolu:

  1. Kullanıcılar için yalnızca görüntüleme ve seçme haklarına sahip yeni bir veritabanı oluşturun
  2. Diğer veritabanlarında görüntülenmesi gereken tabloları görüntüleme
  3. Maskeleme gerektiren sütunları maskeleyin: repeat ('*', char_length ( column to be masked))

2

Bu yolu ilk olarak birkaç yıl önce belirtmiştim ve o zamandan beri bu uygulamaya dayalı bir danışmanlık yaptım.

Amacın, verilere erişen personelin üretim bilgilerini görüntüleme hakları olmadığı test ortamlarında kullanım için test verileri oluşturmak olduğunu varsayıyorum.

Kurulması gereken ilk şey, tam olarak hangi veri öğelerini maskelemeniz ve bunu yapmak için Schema Spy (Açık kaynak) gibi bir veri bulma aracıyla başlamak en iyisidir ve bu görev için ilgili jdbc sürücüsüne ihtiyacınız olacaktır, ancak bu süreçte çok faydalı bir adımdır.

Talend Open Studio, son yıllarda bazı ETL işlevlerini gerçekleştirmek için kullandığım en iyi araçlardan biridir ve ayrıca değerleri rasgele veya ile değiştirerek bazı temel maskeleme uygulamaları da yapabilirsiniz. Harita bileşenini kullanarak arama / değiştirme - tutarlılığı korumak için.

Ama gerçek bir veri maskeleme aracı arıyorsanız, uygun bir açık kaynak aracı bulamadım. Araçlar için çok makul bir bütçeniz varsa, Veri Masker'ı öneririm, ancak yalnızca bu protokoller aracılığıyla bağlandığı için MS SQL veya Oracle üzerinden bazı içe aktarma ve dışa aktarma yapmanız gerekir.

Veri maskeleme, veri maskeleme metodolojisi, veri keşfi ve test verileri hakkında bilgi için http://www.datakitchen.com.au/2012-08-14-15-04-20/data-masking/data-masker-toolset adresine göz atın. yönetimi. Http://www.dataobfuscation.com.au adresinde de faydalı bir blog var.


1

Piyasada Informatica'dan Informatica ILM (TDM) adı verilen bir araç bulunmaktadır. Bu, PowerCenter'ı ETL için bir backone olarak kullanır ve farklı maskeleme seçeneklerine sahip maske verileri. Verilerin nasıl maskelenmesi gerektiğini anlayabilen bir veri analisti veya KOBİ'ye ihtiyacınız olsa da. Aracın kendisi hangi alanların maskelenmesi gerektiği konusunda bilgi sağlamaz, ancak Ad, sayı içeren kimlik sütunları, Kredi kartı, SSN numarası, Hesap Numarası vb.Gibi hassas veri alanlarını tanımlamak için dahili bir algoritma veya prosedür veya işlem vardır.


Ayrıca Informatica ILM TDM veri altkümesi oluşturmaya izin verir. Böylece verileri alt gruplara ayırabilir ve maskeleyebilir veya Tüm verileri maskeleyebilir ve daha sonra iş gereksinimlerine göre alt kümelere ayırabilirsiniz.
Awadhesh Yona

1

Bu yıl, talep edileni yaptığını iddia eden IBM Optim ile çalışma fırsatım var. Ücretsiz değil, ama iyi çalışıyor.


1

En çok sevdiğim , çok yönlülük (çoğu veri maskeleme işlevi), hız (içerideki veri hareketi için CoSort motoru) ve ergonomi (basit 4GL işleri) olarak IRI FieldShield ( https://www.iri.com/products/fieldshield ). Eclipse GUI'sinde tonlarca DB ve dosya bağlantısı ile desteklenir). Fiyat açısından IBM ve Informatica'nın yarısı kadardır, ancak 'büyük' ​​veri dönüşümü, geçiş ve BI için daha büyük bir veri entegrasyon paketinde de mevcuttur. Bu yüzden de ücretsiz değil, ancak bazı açık kaynak (IDE ve OpenSSL ve GPG kullanabilir) ve komut dosyaları Windows, Linux ve diğer Unix lezzetlerinde çalışıyor.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.