Orijinal veri seti ile öğrenilen makine öğrenme modelini kullanarak sentetik veri seti nasıl oluşturulur?


19

Genellikle, makine öğrenme modeli veri kümeleri üzerine inşa edilmiştir. Orijinal veri seti özelliklerini koruyan bu tür eğitimli makine öğrenme modelini kullanarak sentetik veri kümesi oluşturmanın herhangi bir yolu olup olmadığını bilmek ister misiniz?

[orijinal veri -> makine öğrenme modeli inşa -> sentetik veri üretmek için ml modelini kullanın .... !!!]

Mümkün mü ? Lütfen beni mümkünse ilgili kaynağa yönlendirin.

Yanıtlar:


27

Genel yaklaşım, aynı istatistiksel özelliklere sahip veriler üretecek çok boyutlu rasgele bir süreç tanımlamak için veri kümenizde geleneksel istatistiksel analizler yapmaktır. Bu yaklaşımın sonucu, sentetik verilerinizin ML modelinizden bağımsız olması, ancak verilerinize istatistiksel olarak "yakın" olmasıdır. (alternatifinizi tartışmak için aşağıya bakın)

Özünde, süreçle ilişkili çok değişkenli olasılık dağılımını tahmin ediyorsunuz. Dağılımı tahmin ettikten sonra, Monte Carlo yöntemiyle veya benzeri tekrarlı örnekleme yöntemleriyle sentetik veriler oluşturabilirsiniz. Verileriniz bir miktar parametrik dağılıma benziyorsa (örn. Lognormal), bu yaklaşım basit ve güvenilirdir. Zor kısmı değişkenler arasındaki bağımlılığı tahmin etmektir. Bkz . Https://www.encyclopediaofmath.org/index.php/Multi-boyutlu_statistik_analiz .

Verileriniz düzensizse, parametrik olmayan yöntemler daha kolay ve muhtemelen daha sağlamdır. Çok değişkenli çekirdek yoğunluğu tahmini , ML geçmişi olan insanlar için erişilebilir ve çekici bir yöntemdir. Genel bir giriş ve belirli yöntemlere bağlantılar için bkz . Https://en.wikipedia.org/wiki/Nonparametric_statistics .

Bu sürecin sizin için çalıştığını doğrulamak için, makine öğrenme sürecinden sentezlenen verilerle tekrar geçersiniz ve orijinalinize oldukça yakın bir model elde etmelisiniz. Aynı şekilde, sentezlenen verileri ML modelinize koyarsanız, orijinal çıktılarınızla benzer dağılıma sahip çıktılar almalısınız.

Bunun aksine, bunu öneriyorsunuz:

[orijinal veri -> makine öğrenme modeli inşa -> sentetik veri üretmek için ml modelini kullanın .... !!!]

Bu, daha önce tarif ettiğim yöntemin farklı bir şeyi başarıyor. Bu ters problemi çözecektir : "hangi girdiler herhangi bir model çıktı seti oluşturabilir". Senin ML modeli orijinal verilere aşırı takılmıştır sürece, bu sentez veri olmaz hatta en her açıdan orijinal veriler gibi görünmek ya.

Doğrusal bir regresyon modelini düşünün. Aynı doğrusal regresyon modeli, çok farklı özelliklere sahip verilere özdeş bir uyum sağlayabilir. Bunun ünlü bir gösterisi Anscombe'un dörtlüsüdür .

Dört kümenin tümü, basit özet istatistikleri kullanılarak incelendiğinde özdeştir, ancak grafik çizildiğinde büyük ölçüde farklılık gösterir

Referanslarım olmadığını düşündüğümde, bu sorunun lojistik regresyonda, genelleştirilmiş doğrusal modellerde, SVM ve K-kümeleme anlamına da gelebileceğine inanıyorum.

Biraz çalışma gerektirse de, sentetik veri üretmek için bunları tersine çevirmenin mümkün olduğu bazı ML modeli türleri (örn. Karar ağacı) vardır. Bakınız: Veri Madenciliği Kalıplarına Uygun Sentetik Veriler Oluşturma .


Monte-Carlo ve çok boyutlu istatistiksel analiz hakkında daha fazla okuma zamanı ... güzel açıklama için teşekkürler .. !!!
hadooper

2

Azınlık sınıfından sentetik örnekler üreten, SMOTE adı verilen dengesiz veri kümeleriyle başa çıkmak için çok yaygın bir yaklaşım vardır. Komşularıyla olan farkları kullanarak azınlık örneklerini bozarak çalışır (0 ile 1 arasında rastgele bir sayıyla çarpılır)

İşte orijinal kağıttan bir alıntı:

Sentetik örnekler aşağıdaki şekilde üretilir: İncelenen özellik vektörü (numune) ile en yakın komşusu arasındaki farkı ele alın. Bu farkı 0 ile 1 arasında rastgele bir sayıyla çarpın ve dikkate alınan özellik vektörüne ekleyin.

Daha fazla bilgiyi burada bulabilirsiniz .


1

Veri büyütme, mevcut verilere dayalı olarak örnekleri sentetik olarak oluşturma işlemidir. Orijinal veri özelliklerinin çoğunu koruyan yeni veriler oluşturmak için mevcut veriler biraz bozulur. Örneğin, veriler görüntülerse. Görüntü pikselleri değiştirilebilir. Veri çoğaltma tekniklerinin birçok örneğini burada bulabilirsiniz .

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.