Bağlam olarak: Çok büyük bir veri kümesiyle çalışırken, bazen yordayıcılar ve yanıt değişkeni arasındaki ilişkiyi veya "yordayıcılar arasındaki ilişkileri" bildiğimiz "sentetik bir veri kümesi oluşturabilir miyiz?
Yıllar boyunca, ya geçici bir şekilde hazırlanmış gibi görünen bir kerelik sentetik veri setleriyle ya da araştırmacının önerdiği modelleme yöntemi için özellikle uygun görünen daha fazla yapılandırılmış veri setleriyle karşılaşıyor gibiyim.
Sentetik veri setleri oluşturmak için standart yöntemler aradığımı düşünüyorum. Her ne kadar bootstrap yeniden örnekleme, sentetik veri seti oluşturmak için yaygın bir yöntem olsa da , yapıyı önceden bilmemiz şartını sağlamıyor . Ayrıca, önyükleme örneklerinin başkalarıyla değiştirilmesi, esasen bir veri üretme yönteminden ziyade, veri değişimini gerektirir.
Verilere parametrik bir dağılım sığdırabilir veya yeterince yakın bir parametreli model bulabilirsek, bu sentetik veri setlerini üretebileceğimiz bir örnektir.
Başka hangi yöntemler var? Özellikle yüksek boyutlu veri, seyrek veri ve zaman serisi verileri ile ilgileniyorum. Yüksek boyutlu veriler için, ilgilenilen yapıları (örn. Kovaryans yapısı, doğrusal modeller, ağaçlar vb.) Üretebilecek yöntemler ararım. Zaman serisi verileri için, FFT'ler, AR modelleri veya diğer çeşitli filtreleme veya tahmin modelleri üzerindeki dağılımlardan başlangıç gibi görünüyor. Seyrek veriler için, bir seyreklik modelinin çoğaltılması faydalı görünmektedir.
Bunların sadece yüzeyi çizdiğine inanıyorum - bunlar buluşsal, resmi pratik değil. Uygulayıcıların bilmesi gereken sentetik veri üretmek için referanslar veya kaynaklar var mı?
Not 1: Bu sorunun , belirli bir zaman serisi modeli gibi verilerin nasıl üretilebileceği hakkındaki literatüre değindiğinin farkındayım . Buradaki ayrım, bilhassa bilinen bir yapıya (soruma) işaret etmek amacıyla, mevcut bir veri setine benzerlik / sadakat gibi uygulamalar üzerindedir. Benim durumumda, bilinen yapı kadar benzerlik olması şart değil, benzerlik benzerlikten çok daha fazla tercih edilir. Bir modelin vaat gösterdiği egzotik bir sentetik veri seti gerçekçi bir simülasyondan daha az tercih edilir.
Not 2: Vikipedi verilerine ilişkin Wikipedia yazısı, Rubin ve Fienberg gibi armatürlerin bu konuyu ele aldığını, ancak en iyi uygulamalara atıfta bulunmadığımı belirtiyor. Uygulamalı İstatistik Annals (veya AOS) ile neyin geçip geçmeyeceğini veya bu veya diğer dergilerdeki inceleme çalışmalarında neyin başarılı olacağını bilmek ilginç olurdu. Basit ve tuhaf terimlerle, "(kabul edilebilir şekilde pişmiş)" ve "fazla pişmiş" arasındaki eşiğin nerede olduğu sorulabilir.
Not 3: Araştırma gündemi nerede sorusunu etkilemez rağmen, kullanım senaryosu içinde modelleme olduğunu, büyük, yüksek boyutlu veri setlerini değişir olduğu (hem insan ve makine ;-) ile veri) yapısını öğrenmek. Tek değişkenli, iki değişkenli ve diğer düşük boyutlu senaryoların aksine, yapı kolayca çıkarılmaz. Yapının daha iyi anlaşılması yönünde adım atarken, bir modelleme yönteminin verilerle nasıl etkileşime girdiğini görmek için benzer özelliklere sahip veri kümeleri üretebilmek ilgi çekicidir (örneğin parametre kararlılığını incelemek için). Bununla birlikte, düşük boyutlu sentetik veri üzerindeki eski kılavuzlar, daha yüksek boyutlu veri kümeleri için genişletilebilecek veya uyarlanabilecek bir başlangıç noktası olabilir.