Telafi verileri için en iyi terim?

23

Bir örnek yazıyorum ve bazı veriler oluşturdum. Okuyucunun net bir veri olmadığını açıkça belirtmek istiyorum, ama aynı zamanda bir örnek teşkil ettiği için kötülük izlenimi vermek istemiyorum.

Bu özel verinin (sözde) rastgele bileşeni yoktur, bu yüzden bana 'benzetimin' uygun olmadığı anlaşılıyor. Eğer onu hayali ya da uydurma olarak adlandırırsam, sahte veri izlenimi veriyor mu? 'Oluşturan' bilimsel bir çerçeveye uyacak bir kelime midir?

Simüle edilmemiş telafi verileri için istatistiksel literatürdeki terminoloji nedir?

terminology synthetic-data

— Frans Rodenburg
kaynak

9

Sadece birkaç cevaba yayılan bir yorum eklemek için: "sentetik", olabildiğince gerçekçi görünmeye çalışan ve "sahte" özel bir şey göstermek için hazırlanmış verileri ortaya koyan veriler için iyi bir kelimedir. Örneğin, "sahte" veri, aykırı değerlerle düzgün bir şekilde baş etmenin ne kadar önemli olduğunu göstermek için saçma aykırı değerler içerebilir.

— Cort Ammon - Monica,

Ben şahsen "benzetilmiş" terimini tercih ediyorum ve en çok istatistiksel literatürde karşılaştım (yani, "modelimizi karşılaştırmak için simülasyonlar yaptık, X, Y, Z ..."

— Samir Rachid Zaim

45

Muhtemelen bu "sentetik" veya "yapay" veri olarak adlandırırım, buna "benzetim" de diyebilirim (simülasyon sadece çok basit).

— Louis Cialdella
kaynak

30

Biri "oyuncak verisi", "oyuncak örneği" ve "yapay veriler" i duyar. Ayrıca, "benzetim" in rasgele sayıların yokluğunda bile uygun olacağı konusunda hemfikir.

— rolando2 9

7

"Örnek veri" veya "örnek veri" de işe yarayabilir

— Henry

8

+1 ' sentetik veriler ' ve ' oyuncak örneği ', eğer durum ortaya çıkarsa, 'inşa edilmiş örnek' olduğu gibi kullanabileceğim terimlerdir. Bazen, özellikle örnek belirli özelliklere sahip olmak için açıkça yapılandırıldığında (örneğin bazı yanlış kavramlara karşı bir örnek olarak tasarlandığında) "açıklayıcı örnek" veya benzer bir şey diyorum.

— Glen_b -Reinstate Monica

1

Bir şeyi göstermek için "kötüye kullandığım" gerçek (ölçülen) veri kümeleri için oyuncak verilerini ( yapay veya taklit olmadan) kullanma eğilimindeyim .

— cbeleites, Monica

1

Uygulamanıza, en iyi neyin işe yarayacağına biraz bağlı. Örneğin, "sahte" verileri olan bir proje de yapıyorum, ancak projenin başka bir kısmı bir bilgisayar modeli simülasyonu kullanmayı içeriyor. Bu yüzden, okuyucunun sahte verilere "benzetilmiş" olarak atıfta bulunmasına neden olabilir, bu verilerin yanlış bir şekilde simülasyondan geldiğine işaret eder. Bu yüzden "yapay" olana güveniyorum ve zaman zaman verileri "üretilmiş" olarak tanımlıyorum. Ben şahsen "sentetik" den kaçınacağım için bu terim, verilerin diğer veri kaynaklarının bir tür birleşimi olduğu anlamına gelir (örneğin, veri A ve veri B'nin bir "sentezi").

— Ceph

12

Verilerinize hayali olarak atıfta bulunmak istiyorsanız, iyi bir şirket olurdunuz, çünkü Francis Anscombe şimdiki ünlü dörtlüsünü tarif etmek için kullanılan terim .

Anscombe, FJ (1973) 'den. " İstatistiksel Analizde Grafikler ", Am. Stat. 27 (1):

Bu noktaların bazıları, tabloda gösterilen her biri on bir (x, y) çiftten oluşan dört kurgusal veri seti ile gösterilmektedir.

Fakat OED'im (v4) kurgusallığın bu kullanımının eski olduğunu gösteriyor gibi gözüktüğünüz için dikkatli olduğunuzu düşünüyorum.

hayali , a.

(Fɪktɪʃəs)

[F. L. fictīci-us (f. Moda, parmak gibi) + -ous: bkz. -İtious.

1.1 † a.1.a Doğal olanın aksine yapay (obs.). b.1.b Sahte, 'taklit', sahte; hakiki değil.

— AkselA
kaynak

Okunabilirlik açısından ilk öneri ve yorumlar çok daha iyi bir alternatiftir. Yaygın, karmaşık kelimeler kullanmanıza gerek yok.

— Tim

1

@Tim: Aynı fikirdeyim ama ne ile hemfikir olduğumdan tam olarak emin değilim. Daha önce benzer bir bağlamda kullanılmasına rağmen , kurgusallığın kötü bir seçim olacağını mı söylüyorsunuz ? Çünkü ben de onu söylüyorum.

— AkselA

7

BT'de genellikle mockup (uygulama) aracılığıyla sunulabilen mockup verileri olarak adlandırıyoruz .

Mockup verileri, örneğin uygulamanın işlevselliğini kontrollü bir şekilde test etmek için tamamen işlevsel bir uygulama aracılığıyla da sunulabilir.

— ErikE
kaynak

5

İyi bir nokta, ancak mockup verilerinin ve simüle edilmiş verilerin tamamen aynı olmadığına inanıyorum. Birim testleri için mockup verileri oluştururken, sadece gerçek verilerin bazı çok temel özelliklerini korumak için ihtiyacınız olurken, istatistiksel analiz için benzetilmiş verileri kullanırken, genellikle daha karmaşık veri örnekleri kullanırsınız.

— Tim

2

Yine de ErikE'nin doğru olduğuna inanıyorum, analitik kod yazarken ya gerçek şeye ya da alay verilerine ihtiyacın var. Sahte veri, imo olmasını istediğiniz kadar büyük olabilir.

— Mathijs Segers

1

Muhtemelen terminoloji kullanımıyla ilgili uygulamalar muhtemelen değişiyor sanırım. Test ve analizlerimizin birçoğunda, güvenlik ve anonimlik nedeniyle "etkisiz hale getirilmiş" canlı verileri kullanıyoruz. Diğerleri için, Tim'in tanımladığı gibi, çıplak kemikler verileri oluşturuyoruz. Güçlü bir fikrim yok ama mockup terimini oldukça gevşek kullanıyoruz.

— ErikE

3

"Sentetik veri" terimi için tekrarlanan öneriler gördüm. Bununla birlikte, bu terimin ifade etmek istediklerinden çokça kullanılmış ve çok farklı bir anlamı vardır: https://en.wikipedia.org/wiki/Synthetic_data

Genel kabul görmüş bir bilimsel terimin olduğundan emin değilim, ancak "örnek veri" teriminin yanlış anlaşılması zor görünüyor?

— srass
kaynak

1

Bu makale biraz karışık gibi görünüyor - anonimleştirmenin ilişkisi oldukça hassastır.

— Matt Krause,

+1 ama önceki yorumu kabul ediyorum: ikinci paragraflardan ayrı olarak (sentezlenmiş verilerin bir tür anonimlaştırılmış veri olduğunu söyleyerek), Wikipedia makalesinin geri kalanının sorgulayıcının istediğini açıkladığı görülüyor. Yani gerçekçi görünümlü telafi verileri.

— Darren Cook,

3

'Sahte veri' terimine adil bir miktar rastladım. Sanırım bazı olumsuz çağrışımları olabilir ama benim için olumsuz bir şekilde kayıt yaptırmamasını yeterince sık duydum.

FWIW, Andrew Gelman da kullanıyor:

https://statmodeling.stat.columbia.edu/2009/09/04/fake-data_simul/

https://statmodeling.stat.columbia.edu/2019/03/23/yes-i-really-really-really-like-fake-data-simulation-and-i-cant-stop-talking-about-it/

https://books.google.dk/books?id=lV3DIdV0F9AC&pg=PA155&lpg=PA155&dq=fake+data+simulation&source=bl&ots=6ljKB6StQ4&sig=ACfU3U17GLP_84q_HfIQB4u5O6wV0yA2Aw&hl=en&sa=X&ved=2ahUKEwiF2_eB0uvjAhWswcQBHSn5Cn04ChDoATAAegQICRAB#v=onepage&q=fake%20data%20simulation&f=false

'Sahte veri' için hızlı bir google araması, terimi benzer bir şekilde kullanıyor gibi görünen pek çok sonuç getirir:

https://scientistseessquirrel.wordpress.com/2016/03/10/good-uses-for-fake-data-part-1/

http://modernstatisticalworkflow.blogspot.com/2017/04/an-easy-way-to-simulate-fake-data-from.html

https://clayford.github.io/dwir/dwr_12_generating_data.html

Ve bunun fakeRnispeten yaygın olduğunu gösteren bir paket bile var : https://cran.r-project.org/web/packages/fakeR/fakeR.pdf

— mkt - Monica'yı yeniden yerleştirin
kaynak

2

Verileri kullanma şeklimize bağlı olarak farklı bir kelime kullanıyorum. Telafi veri setinin etrafta yattığını tespit ettiğim ve algoritmamı onaylayıcı bir şekilde işaret ettiğimde, "sentetik" kelimesi gayet iyi.

Ancak, çoğu zaman ne zaman bu tip bir veri kullandığımda, verileri algoritmamın yeteneklerini gösterme niyetiyle icat ettim. Başka bir deyişle, “iyi sonuçlar” elde etmek için belirli bir veriyi icat ettim. Bu gibi durumlarda, veriler için beklentilerimin açıklanmasının yanı sıra “kabul edilen” terimine de düşkünüm. Bunun nedeni, algoritmamı, etrafta yattığım rastgele bir sentetik veri setine işaret ettiğimi düşünme hatası yapmasını istemememdir ve gerçekten iyi sonuç vermiştir. Özellikle algoritmamın iyi çalışmasını sağlamak için kirazdan toplanmış verilerim varsa (gerçekten telafi etme noktasına), bunu söylüyorum. Bunun nedeni, bu tür sonuçların algoritmamın yapabileceğine dair kanıt sağlamasıdır.İyi çalışın, ancak algoritmanın genel olarak iyi sonuç vermesini bekleyebileceğiniz yalnızca çok zayıf kanıtlar sağlayın . "Contcont" kelimesi gerçekten bir aklımda "iyi sonuçlar" olan verileri seçtiğim gerçeğini güzelce özetliyor.

“Bu sahte verilerin izlenimini veriyor mu?”

Hayır, ama, herhangi bir veri kümesi kaynağı ve hakkında açık olmak önemlidir sizin herhangi veri kümesi sonuçlarınızı bildirirken deneyci olarak önsel beklentilere. Terimi "dolandırıcılık" açıkça bir şey örtbas ettikten veya düpedüz yalan olan bir yönünü kapsamaktadır. Bilimde sahtekarlık önlemek komisyonuna 1. yolu basitçe olmaktır dürüst ve açık sözlü verileriniz ve beklentileriniz doğası hakkında. Başka bir deyişle, verileriniz üretilirse ve herhangi bir şekilde söyleyemiyorsanız ve verilerin üretilmemesi yönünde bir beklenti varsa veya daha da kötüsü, verilerin üretilmemiş bir sıralamada toplandığını iddia ediyorsunuz. yol, o ise"Dolandırıcılık". O şeyi yapma "Sentetik" gibi "kulağa daha iyi geliyor" anlamına gelen "fabrikasyon" terimi için bazı eş anlamlılar kullanmak isterseniz, hiç kimse sizi suçlamayacak, ama aynı zamanda sizden başka kimsenin farkına varamayacağını da sanmıyorum.

Bir not:

Daha az aşikar olan, bir iddiaya göre aslında hoc açıklamalar yapan priori beklentileri olan durumlar . Bu aynı zamanda verilerin sahte analizidir.

Özellikle bir veriyi, sıklıkla sentetik verilerde söz konusu olan bir algoritmanın yeteneklerini “göstermek” amacıyla seçtiği zaman bunun tehlikesi vardır.

$D$ $H$ $H$ $D$ $D$

$H$ $D$ $H$ $D$

Yaptıklarınızla ilgili dürüst ve dürüst olduğunuz sürece, bunu yaparken hiçbir sorun yoktur . Eğer "iyi sonuçlar" veren bir veri seti oluşturmak için acı çekmişseniz, bunu söyleyin. Okuyucunun veri analizinizde attığınız adımları bilmesine izin verdiğiniz sürece, hipotezlerinize veya kanıtlarınıza etkili bir şekilde ağırlık vermek için gerekli bilgilere sahiptir. Eğer olmadığında dürüst veya olmayan açık sözlü , o zaman bu sizin kanıtlar olduğundan daha güçlü olduğu izlenimini verebilir. Delilinizi gerçeğe göre daha güçlü göstermesi uğruna dürüst ve dürüst olmak gerekirse , bildiğinizden daha az zaman , o zaman bu gerçekten sahtekarlıktır..

Her durumda, bu yüzden bu tip veri setleri için “kabul edilen” terimini, akıllarında bir hipotezle seçildikleri kısa bir açıklama ile birlikte tercih ediyorum. "Contended", yalnızca sentetik bir veri kümesi oluşturduğumun değil, aynı zamanda hipotezimin veri setimin oluşturulmasından önce var olduğu gerçeğini yansıtan özel niyetlerle de ifade ediyor.

Bir örnekle göstermek için: İsteğe bağlı zaman serilerinin analizi için bir algoritma yaratırsınız. Bu algoritmanın zaman serisine işaret ettiğinde "iyi sonuçlar" vereceğini varsayıyorsunuz. Şimdi, şu iki olasılığı göz önünde bulundurun: 1) Algoritmanızın iyi çalışmasını beklediğiniz türden bir görünüme sahip bazı sentetik veriler yaratırsınız. Bu verileri analiz edersiniz ve algoritma iyi performans gösterir. 2) Bazı sentetik veri kümelerini aldınız, çünkü bunlar neden olmasın diye mevcut. Bu verileri analiz edersiniz ve algoritma iyi performans gösterir. Bu iki durumdan hangisi algoritmanızın keyfi zaman serilerinde iyi performans gösterdiğine dair daha iyi kanıt sağlar? Açıkçası, seçenek 2'dir. Ancak, seçenek 1 veya seçenek 2'de "algoritma uyguladığımızı" bildirmek kolay olabilir $A$ $D$ $x.y$

tl; Dr.

"Sentetik", "kesinleşmiş", "uydurulmuş", "hayali" olarak ne demek isterseniz kullanın. Ancak, kullandığınız terim, sonuçlarınızın yanıltıcı olmadığından emin olmak için yetersizdir . Raporda, verilerle ilgili beklentileriniz ve seçtiğiniz verileri seçtiğiniz nedenler de dahil olmak üzere verilerin nasıl ortaya çıktığı konusunda net olduğunuzdan emin olun.

— Scott
kaynak

Buradaki cevaplar birbiriyle örtüşse ve hemen hemen hepsi iyi puan vermesine rağmen, bence en iyisi tek bir terimin tüm okuyucular için veri oluşturma niyetini iletmeyeceği kilit noktayı aktarıyor . Nedenler sadece uygun değil aynı zamanda tembellikten (zayıf tanıtım metinleri) aldatma ve dolandırıcılıktan geçebilir. Neden bir süredir bunu yaptığınızı açıklamak iyi bir fikir olabilir.

— Nick Cox

... sebepler ...

— Nick Cox

1

Öncelikle, buna "veri kümesi" dememek için hiçbir neden yoktur. "Sahte" vs "benzetilmiş" vs ... veriler için evrensel olarak onaylanmış terimler yoktur. Eğer amaç tamamen açıksa, bu veri setinin ne olduğunu nitelemek için bir cümle yerine bir cümleyi ayırmak en iyisidir. Bundan sonra, atamayı rahatlatabilir ve verilerinize veri olarak bakabilirsiniz.

"Sentetik", "yapay" aklımdaki diğer MCMC örneklenmiş "benzetilmiş" veri kümelerinden ayırt etmiyor. Sabit bir tohum ile bir quasirandom sayı üreteci kullanmak (uygun eğitim dikte edeceği gibi), aynı zamanda sentetik veya yapay bir veri seti oluşturur.

Bir olasılık modelinden bir örnek veya gerçekleştirme yapmak yerine, belirli bir gösterim için bir veri setinin küratörlüğünü yapma noktası varsa, böyle bir veri setine " örnek veri seti " demenin daha iyi olacağını düşünüyorum . Bunun gibi veriler Anscombe'nun dörtlüsüne benziyor: tamamen soyut ve mantıklı değil, ancak bir noktaya değiniyor.

— Adamo
kaynak

1

Biyolojide, analizler bazen efsanevi hayvanlardan oluşan bir veri kümesi kullanılarak gösterilmektedir. Verilerin simüle edildiğini açıkça belirtmemek veya belirtmemek yazar / eleştirmene bağlıdır.

Bir ekolojistin hayvan modeli rehberi, 2009

Bu eğitimler, bir gripon popülasyonu üzerine bir dizi kantitatif genetik analiz tanımlamaktadır (yazarların kuş ve memeli önyargıları arasındaki bir uzlaşmayı yansıtmaktadır). Grifon efsanevi bir canavar olduğu için, sağlanan veriler mutlaka benzetildi.

Sabit etki varyansı ve tekrarlanabilirliklerin ve kalıtımsallıkların tahmini: Sorunlar ve çözümler, 2017

Bunu göstermek için, Wilson'un (2008) tek boynuzlu at veri kümesine geri dönelim. Tek boynuzlu atlarda, boynuz uzunluğunun bireysel vücut kütlesine göre değiştiği bilinen bir gerçektir (eğim:, = 0.403 yaş, cinsiyet ve etkileşimlerini içeren tam bir model için).

— DA Wells
kaynak

1

İlginç yaklaşım! Bunun biyoloji öğrencilerine istatistik öğretmek için harika olabileceğini düşünüyorum. Ancak halka sunarken bunun doğru izlenimi sağlayıp sağlamayacağından emin değilim

— Frans Rodenburg 23

0

Sezgisel olarak “Kukla veri” terimine giderdim, aynı anlamda “Lorem ipsum ...” 'Kukla metin' olarak adlandırılır. 'Kukla' kelimesi, farklı kökenden gelen insanlar için oldukça genel ve anlaşılması kolaydır ve bu nedenle daha az istatistiksel bir geçmişe sahip okuyucular tarafından yanlış anlaşılma olasılığı daha düşüktür.

— Mathijs
kaynak

2

Regresyon bağlamında, "kukla "'yı aşırı yüklemekten kaçınırım, kukla verileri kodlayan kukla değişkenleriniz varsa.

— Matt Krause

Kabul ediyorum, "Kukla" nın regresyonda zaten bir çağrışımı olduğu için kişisel olarak bundan kaçınırdım. Mevcut terimler bolluğu göz önüne alındığında, farklı insanlar için farklı şeyler ifade edebilecek terimleri kullanmaktan kaçınmak en iyisidir.

— Samir Rachid Zaim

0

Veri Latince verilen için bir kısaltma olarak modern zamanlarda kullanılan, kaydedilen gerçeklerin kümesi verilen . Bu nedenle, fabrikada yapılan kayıtlara bir tür belirli gerçeklerin atıfta bulunulması açık bir çelişki olacaktır.

Bununla birlikte, basitçe kayıtlara atıfta bulunmak için artan veri kullanımı nedeniyle - kayıtların gerçeklerin olduğu varsayımına bakılmaksızın - birbirini mutlu bir şekilde anlıyoruz - gerçeğe uygun olabilecek veya olamayabilecek kayıtlardan söz ederken - bu nedenle gerçek / sahte veriler.

Aşağıdaki fabrikasyon kayıtları ele almanın yollarını deneyimleyeceğim. Kullanılan etiket, daha fazla analiz sağlamak için makul ölçüde gerçekçi görünmek için tasarlanmış bir kayıt olarak veriden ya da bir hesaplama yükü olarak verilerden bahsettiğimizi varsayıyor olup olmamasına bağlıdır.

Analitik / veri bilimi / stratejik danışmanlık çevrelerinde, insanlar en sık sentetik veriler olarak gerçekçi varsayımlar altında üretilen ve bazen de benzetilmiş veriler olarak üretilen fabrikasyon bir kayıt kümesini ele almaktadır . Ham varsayımlar kullanılarak oluşturulan fabrikasyon kayıtlara oyuncak veri kümesi adı verilir .
Yazılım mühendisleri arasında, sahte veriler , sahte veriler , tamamlanmış veriler ve sahte veriler , çoğunlukla gerçekçi özelliklere sahip olmak zorunda olmadıklarını ancak esas verileri orijinal verilerle paylaşmayı gerektiren kayıtlara işaret eden sık kullanılan etiketlerdir (yaş verileri her zaman sayısaldır. , e-posta adresleri daima “@“) içeren karakter dizileridir.
Akademik araştırmacılar, sahte veri veya benzetilmiş veri olarak yapılmış gerçekçi bir dizi kayıttan bahsedebilir . Bazı çevrelerde, yapılan bir dizi gözlem bir Monte Carlo simülasyonunun sonucuysa, konuşmaya Monte Carlo olarak atıfta bulunabilir . Yarı gerçekçi kayıtlar, genel amaçlı açıklama amacıyla veya alternatif hipotezleri test etmek için kullanılır ve oyuncak veri kümesi olarak adlandırılır.

— famargar
kaynak

2

"Monte Carlo", yöntemin adıdır, bu yüzden "konuşma" adı çok yanıltıcı olacaktır.

— Tim

@Tim gerçekten, yanıltıcı olarak görülebilir. Bununla birlikte, dil, bir topluluktan bir şeyleri ifade etmenin bir yolu olarak fikir birliğine dayanan bir araçtır. Olarak O kadar ki kayıtlar ve ölçümler için bu sitedeki atıfta ki verilen (Latince İngilizce verilerine ). Eğer görüşünüzü benimsemeliysem, simule edilmiş ölçümleri sahte olarak verilmiş olarak sorgulanabilir buluyordu .

— famargar

Umarım şimdi “Monte Carlo simülasyonu” nu basitçe “Monte Carlo” olarak adlandırmanın “verilen gözlemleri” “verilen” olarak adlandırmanın modern bir versiyonu olduğunu göreceksiniz. Bu veriyi ve “veri” kelimesinin fiili kullanımı anlamında daha fazla düşünceye yer vermek için cevabımı düzenlemiştim.

— famargar

1

“Akademik araştırmacılar, en sık sözde veriler olarak üretilmiş gerçekçi bir dizi kayıttan bahsediyorlardı”: 40 yılı aşkın akademik araştırmalarda bu terimi gördüğümü hatırlamıyorum. "Akademisyenler tipik olarak gerçekçi olmayan kayıtları kullanmaz": pardon ama bu oldukça yanlış. Bir çok alandaki akademisyenler, birçok farklı türde simülasyon kullanırlar. Gerçekçi olmayan simülasyonlar bile faydalı olabilir, örneğin normal numunelerin değişkenliği normal olmayanların değerlendirilmesinde önemli bir konudur.

— Nick Cox

@NickCox Pseudodata fizikte sıkça kullanılıyor ve biyoloji ve istatistik alanlarında gördüm. Alanınızın ne olduğunu ve alanınızın simülasyonlara nasıl atıfta bulunduğunu bilmek merak ediyorum. Gerçekçi olmayan verilere gelince, gerçekçi olmayan ve yarı gerçekçi arasında bir ayrım yaptım. Kullanım durumunuzu özledim mi?

— famargar