İyi veri anonimleştirme yazılımının farkında olan var mı? Ya da belki de R için veri anonimleştirme yapan bir paket? Açıkçası, kırılmaz anonimleştirme beklememek - sadece zorlaştırmak istiyorum.
İyi veri anonimleştirme yazılımının farkında olan var mı? Ya da belki de R için veri anonimleştirme yapan bir paket? Açıkçası, kırılmaz anonimleştirme beklememek - sadece zorlaştırmak istiyorum.
Yanıtlar:
Cornell Anonimleştirme Tookit açık kaynaklıdır. Onların araştırma sayfası ilişkili yayınlara bağlantıları vardır.
Uyarı: Verilerin değerinin çoğunu kaybetmeden verileri yeniden tanımlamayı (anonimleştirmeyi) önleyecek şekilde anonimleştirmenin çok zor olabileceğine dikkat edin. Bu, düşünmeden bir parça yazılım atabileceğiniz bir durum değildir. İnsanların gizliliğini korumak dikkatli düşünmeyi gerektirir. Örneğin, bunun neden önemsiz olmadığına dair daha dikkatli bir açıklama için bkz .
Uyarıcı bir hikayenin bir örneği, görünüşte anonimleştirilmiş bir veri kümesinin aslında Netflix kullanıcılarının kimliğine bağlı olduğu ya da çoğu (araştırmacıların keşfettiği) hala geri bağlanabileceği anonimleştirilmiş AOL arama kayıtlarının yayınlandığı Netflix sorunudur. daha karmaşık analizlerle Başka bir örnek, bir sağlık sigortası komisyonunun adlarını, adreslerini, SSN'leri vb. Kaldırarak anonimleştirdikten sonra tüm devlet çalışanları hakkında veri yayınladığı Massachusetts'ten alınmıştır. Ancak, bir gizlilik araştırmacısı bireyleri yeniden tanımlamanın hala mümkün olduğunu keşfetti.ve bir gösteri olarak valinin sağlık kayıtlarının nasıl belirleneceğini gösterdi. Daha sonra, örneğin, çoğu insanın sadece posta kodlarından (veya nüfus sayımı sisteminden), doğum tarihinden ve cinsiyetinden benzersiz bir şekilde tanımlanabileceğini gösterdi. Bunlar, verileri özenle anonimleştiren insanların hikayeleriydi; iyi bir anonimleştirme işi yaptıklarını düşündüler ve bu sorunun ne kadar zor olduğunu fark etmediler. Bu uyarıcı hikayeler sizi duraklatmalıdır.
Bu nedenlerden dolayı, bu alanda daha önce deneyiminiz yoksa, veri kümenizi kendi adınıza anonimleştirmeye çalışmaktan vazgeçiyorum.
Önemli: Verilerin anonimleştirilmesi için gerekli teknikler büyük olasılıkla sahip olduğunuz veri türüne ve içinde çalıştığınız uygulama alanına bağlı olacaktır. Maalesef, bu bilgileri vermediniz. Sonuç olarak, veri kümenizi nasıl anonimleştireceğiniz konusunda size iyi bir tavsiye vermek neredeyse imkansızdır.
Bu cevabı yararsız görmenin cazip gelebileceğini hayal ediyorum, çünkü "mutlu ol, endişelenme, sadece bu sihirli yazılım parçasını veriye at ve düşünmek zorunda değilsin" diyorum " bekleyin, bu ilk bakışta göründüğünden daha zor, dikkatli olun ". Bu mesajın çok popüler olmayabileceğini biliyorum, ama bence bu millet duyması gereken bir mesaj.
Bir yaklaşım Bloom filtrelerini kullanmak olacaktır. Kontrol SafeLink için proje web sitesi programlarının Java ve Python. Kağıt açıklama yöntemi burada .
ANU Veri Madenciliği Grubu tarafından geliştirilen n-gram kullanılarak kayıt bağı bağlamında dizelerin anonimleştirilmesine yönelik ilginç bir yaklaşım da vardır . Açıklama ve örnek Python kodlu makaleye buradan ulaşabilirsiniz .