Sentetik veri setleri oluşturmak için bazı standart uygulamalar nelerdir?


26

Bağlam olarak: Çok büyük bir veri kümesiyle çalışırken, bazen yordayıcılar ve yanıt değişkeni arasındaki ilişkiyi veya "yordayıcılar arasındaki ilişkileri" bildiğimiz "sentetik bir veri kümesi oluşturabilir miyiz?

Yıllar boyunca, ya geçici bir şekilde hazırlanmış gibi görünen bir kerelik sentetik veri setleriyle ya da araştırmacının önerdiği modelleme yöntemi için özellikle uygun görünen daha fazla yapılandırılmış veri setleriyle karşılaşıyor gibiyim.

Sentetik veri setleri oluşturmak için standart yöntemler aradığımı düşünüyorum. Her ne kadar bootstrap yeniden örnekleme, sentetik veri seti oluşturmak için yaygın bir yöntem olsa da , yapıyı önceden bilmemiz şartını sağlamıyor . Ayrıca, önyükleme örneklerinin başkalarıyla değiştirilmesi, esasen bir veri üretme yönteminden ziyade, veri değişimini gerektirir.

Verilere parametrik bir dağılım sığdırabilir veya yeterince yakın bir parametreli model bulabilirsek, bu sentetik veri setlerini üretebileceğimiz bir örnektir.

Başka hangi yöntemler var? Özellikle yüksek boyutlu veri, seyrek veri ve zaman serisi verileri ile ilgileniyorum. Yüksek boyutlu veriler için, ilgilenilen yapıları (örn. Kovaryans yapısı, doğrusal modeller, ağaçlar vb.) Üretebilecek yöntemler ararım. Zaman serisi verileri için, FFT'ler, AR modelleri veya diğer çeşitli filtreleme veya tahmin modelleri üzerindeki dağılımlardan başlangıç ​​gibi görünüyor. Seyrek veriler için, bir seyreklik modelinin çoğaltılması faydalı görünmektedir.

Bunların sadece yüzeyi çizdiğine inanıyorum - bunlar buluşsal, resmi pratik değil. Uygulayıcıların bilmesi gereken sentetik veri üretmek için referanslar veya kaynaklar var mı?


Not 1: Bu sorunun , belirli bir zaman serisi modeli gibi verilerin nasıl üretilebileceği hakkındaki literatüre değindiğinin farkındayım . Buradaki ayrım, bilhassa bilinen bir yapıya (soruma) işaret etmek amacıyla, mevcut bir veri setine benzerlik / sadakat gibi uygulamalar üzerindedir. Benim durumumda, bilinen yapı kadar benzerlik olması şart değil, benzerlik benzerlikten çok daha fazla tercih edilir. Bir modelin vaat gösterdiği egzotik bir sentetik veri seti gerçekçi bir simülasyondan daha az tercih edilir.

Not 2: Vikipedi verilerine ilişkin Wikipedia yazısı, Rubin ve Fienberg gibi armatürlerin bu konuyu ele aldığını, ancak en iyi uygulamalara atıfta bulunmadığımı belirtiyor. Uygulamalı İstatistik Annals (veya AOS) ile neyin geçip geçmeyeceğini veya bu veya diğer dergilerdeki inceleme çalışmalarında neyin başarılı olacağını bilmek ilginç olurdu. Basit ve tuhaf terimlerle, "(kabul edilebilir şekilde pişmiş)" ve "fazla pişmiş" arasındaki eşiğin nerede olduğu sorulabilir.

Not 3: Araştırma gündemi nerede sorusunu etkilemez rağmen, kullanım senaryosu içinde modelleme olduğunu, büyük, yüksek boyutlu veri setlerini değişir olduğu (hem insan ve makine ;-) ile veri) yapısını öğrenmek. Tek değişkenli, iki değişkenli ve diğer düşük boyutlu senaryoların aksine, yapı kolayca çıkarılmaz. Yapının daha iyi anlaşılması yönünde adım atarken, bir modelleme yönteminin verilerle nasıl etkileşime girdiğini görmek için benzer özelliklere sahip veri kümeleri üretebilmek ilgi çekicidir (örneğin parametre kararlılığını incelemek için). Bununla birlikte, düşük boyutlu sentetik veri üzerindeki eski kılavuzlar, daha yüksek boyutlu veri kümeleri için genişletilebilecek veya uyarlanabilecek bir başlangıç ​​noktası olabilir.

Yanıtlar:


7

Emin orada değilim vardır sentetik verilerin üretilmesi için standart uygulamalar - amaca veriler daha yaygın ve belki daha makul bir yaklaşım gibi görünüyor bu araştırmanın çok farklı yönleriyle bu kadar ağır kullanılır.

Benim için en iyi standart uygulamam veri setini yapmak değil , modelle iyi çalışacak. Bu, araştırma aşamasının bir parçası, veri oluşturma aşamasının bir parçası değil. Bunun yerine, verilerin veri üretme sürecini yansıtacak şekilde tasarlanması gerekir . Örneğin, Epidemiyolojideki simülasyon çalışmaları için, her zaman bilinen bir dağılıma sahip büyük bir varsayımsal popülasyondan başlıyorum ve ardından doğrudan "çalışma popülasyonu" oluşturmak yerine, o popülasyondan çalışma örneklemesini simüle ediyorum.

Örneğin, aşağıdaki tartışmamıza dayanarak yaptığım iki simüle verinin örneği:

  • Aşağıdaki SIR modeli örneğinize benzer bir şekilde, sonuçları bir sonuç olarak değerlendirirseniz, belirli bir sabit parametrenin zorunlu bir tehlike yaratmadığını göstermek için kendimi bir ağ üzerinden hastalığın yayılmasının matematiksel bir modelini kullandım. bir kohort çalışması. Analitik bir çözüm için araştırmaya devam ederken faydalı bir kavram kanıtıydı.
  • Bir vaka kontrol çalışması için belirli bir örnekleme planının etkisini araştırmak istedim. Çalışmayı doğrudan oluşturmaya çalışmak yerine, sürecin her adımında yürüdüm. Bilinen bir hastalık prevalansı ve bilinen bir ortak değişken paterni olan 1.000.000 kişilik bir nüfus. Sonra örnekleme sürecini simüle eden bu durumdan - bu durumda, nasıl vakalar ve kontroller nüfustan alınmıştır. Ancak o zaman toplanan "benzetilmiş çalışmalarda" gerçek bir istatistiksel model fırlattım.

İkincisi gibi simülasyonlar, çalışma işe alım yöntemlerinin, eş değişkenleri kontrol etmedeki istatistiksel yaklaşımların, vb. Etkilerini incelerken çok yaygındır.


Cevapladığınız için teşekkürler. Bununla birlikte, epidemiyoloji hakkında bildiklerime dayanarak, oldukça faydalı olan stokastik modeller, özellikle de SIR modelleri geliştirmede çok daha fazla şey yapıldı. Diğer birçok alanda bu doğru değildir, ancak hızlı bir şekilde kabul edilebilir stokastik veri modelleri geliştirebilmek niyetimin bir parçasıdır.
İteratör

@Iterator Bu, nerede olduğunuza ve epidemiyolojinin hangi yönüyle konuştuğunuza bağlıdır. Örneğin, bir kanser epidemiyoloğu, SIR modelleri ile "çok daha fazla" yapıldığını duyduğunda şok olur - muhtemelen işlerinde hiç karşılaşmadılar. SIR tipi modeller epidemiyolojinin belirli bir bölümünün bir özelliği olsa da (Enfeksiyöz hastalık epi ve hatta geniş bir ID Epi alt kümesi bile olmasa da ), bir alan olarak Epidemiyoloji istatistiksel modellerin, özellikle genel lineer modellerin, hayatta kalmanın muazzam kullanımını sağlar analiz ve zaman serileri.
Fomite

Vay. Suçu düşünülmedi, sadece SIR modellerinin standart veri üreten modellere çok iyi bir örnek olduğunu belirttim. Tabii ki, tüm modelleme yöntemlerini kullanan başka epi alanları olduğunun farkındayım. Epidemiyolojide kullanılan diğer veri üreten yöntemlerle ilgili bazı işaretçileriniz veya referanslarınız varsa, onlara oldukça açığım.
Iterator

1
@Iterator Üzgünüm izlenimi verirsem özür dilerim. Çok değil;). Bu sadece aldığım bir şey çünkü matematiksel epi ile gözlemsel epidemiyoloji arasındaki kesişme noktasında oturuyorum ve bir bölgedeki insanlar diğer bölgedeki varlıklar patladı . Cevabımı SIR olmayan bir örnekle düzenleyeceğim.
Fomite

2

R istatistik paketi, mevcut verilere uygun bir modele dayalı verileri simüle edecek bir benzetme işlevine sahiptir. Bu, takılan modeli "bilinen" popülasyon ilişkisi olarak kullanır, ardından o modele dayalı yeni verileri simüle eder. Lme4 paketinde bu fonksiyon için bir yöntem vardır. Takılan bu nesneler rastgele ve sabit etkiler ve korelasyonu dikkate alabilir (zaman serileri için otomatik korelasyon dahil).

Bu işe yarayabilir ne istersen yap.


Önerin için teşekkürler. Bu işlev kesinlikle kullanışlıdır, ancak ilgim belirli bir çözüm için kod yerine istatistiksel uygulamalar ve metodoloji açısından daha fazladır. Bu, söz konusu yöntemleri ve analizleri uygulayan özel paketler yerine, örnekleme yöntemleri veya tekrarlanabilir analizler hakkında sorular sormaya benzer. Bununla birlikte, iyi yöntemler paket haline gelmelidir. :)
Iterator
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.