(Bunu ne ile etiketleyeceğime dair gerçek bir fikrim yok çünkü istatistikçi değilim ve bunun hangi alana girdiğini bilmiyorum. Daha uygun etiketler eklemekten çekinmeyin.)
Veri analiz yazılımı üreten bir şirkette çalışıyorum ve en son ürünümüzü test etmek ve tanıtmak için iyi bir veri setine ihtiyacımız var. Veritabanını rastgele bir sayı üretecinin çıktısıyla dolduramayız çünkü programın çıktıları saçma olur. Bu tür verileri almanın en basit yollarından biri bir istemciden; yürüttüğümüz bir denemeden büyük miktarda veri var. Şimdi, bir müşterinin gerçek verilerini yayınlayamayacağımız açıktır, bu yüzden biraz değiştirmemiz gerekir, ancak yine de gerçek veriler gibi davranması gerekir.
Buradaki amaç, kendi veri kümelerini almak ve bu veri tabanına "fuzz" uygulamak, böylece özellikle kendi verileri olarak tanınamamaktır. İstatistik teorisinin hafızamın kendisi biraz bulanık, bu yüzden bunu sizin tarafınızdan çalıştırmak istiyorum:
Esasen, sahip olduğumuz verilerin (müşteriden) kendisi (ülkede veya dünyada) var olan tüm verilerin bir örneğidir. Bilmek istediğim şey, numuneyi artık müşterinin örnek popülasyonunu güçlü bir şekilde temsil etmemek için ne tür operasyonların uygulanabileceğini, ancak yine de dünya nüfusunun kabaca temsil edilmesini sağlıyor.
Referans olarak, bildiğimiz kadarıyla, genel olarak kaba normal (Gauss) dağılımları takip ediyoruz.
Orijinal veri kümesi yaygın olarak mevcut değildir, ancak teorik olarak bölgeye özgü bazı özelliklerden tanınabilir (bu özelliklerin ne olduğunu bilmiyoruz ve herhangi birinin yeterli bir seviyede yapılıp yapılmadığından şüpheleniliyor , ancak varyasyonların yerden var olduğunu biliyoruz. yerleştirmek). Her neyse, bunun teorisiyle pratiğe daha çok ilgi duyuyorum - bir işlemin, kaynak veri kümesini X parametresi ile tanımlamayı imkansız (veya en azından zor), kimsenin çalışıp çalışmadığı veya çalışamayacağını bilmek istiyorum parametre X ilk etapta.
Yaklaştığım yaklaşım, okumaları çeşitli türlere ayırmaktır (çok fazla vermeden, bir grubun "uzunluk" veya "X yapmak için harcanan zaman" olabileceğini varsayalım.) Bunların her biri için standart sapma. Daha sonra, her bir değere, (n * stddev) 'in pozitif ve negatif değerleri arasına, veriler yeterince "bulanıklaşana" kadar sonucu ayarlamak için kullanabileceğim bir kesir olan rastgele bir değer ekleyin. Basitçe statik bir aralık uygulamak istemedim (örneğin, orijinal değerin% 90 ila% 110'u arasında rastgele) çünkü bazı değerler diğerlerinden çok daha fazla veya daha az değişir - bazı ölçümlerde, ortalamanın% 10 üzerinde olması zar zor fark edilir , ancak diğerlerinde sizi ciddi bir aykırı yapar.
Bu, orijinal verilerin kaynağını maskelemek için yeterli mi? Değilse, veriler hangi istatistiksel önlemlerle hala tanımlanabilir olacak ve sonuçta elde edilen verileri belirsiz bir şekilde gerçekçi tutarken bunları nasıl maskeleyebilirim?