Verileri kullanma şeklimize bağlı olarak farklı bir kelime kullanıyorum. Telafi veri setinin etrafta yattığını tespit ettiğim ve algoritmamı onaylayıcı bir şekilde işaret ettiğimde, "sentetik" kelimesi gayet iyi.
Ancak, çoğu zaman ne zaman bu tip bir veri kullandığımda, verileri algoritmamın yeteneklerini gösterme niyetiyle icat ettim. Başka bir deyişle, “iyi sonuçlar” elde etmek için belirli bir veriyi icat ettim. Bu gibi durumlarda, veriler için beklentilerimin açıklanmasının yanı sıra “kabul edilen” terimine de düşkünüm. Bunun nedeni, algoritmamı, etrafta yattığım rastgele bir sentetik veri setine işaret ettiğimi düşünme hatası yapmasını istemememdir ve gerçekten iyi sonuç vermiştir. Özellikle algoritmamın iyi çalışmasını sağlamak için kirazdan toplanmış verilerim varsa (gerçekten telafi etme noktasına), bunu söylüyorum. Bunun nedeni, bu tür sonuçların algoritmamın yapabileceğine dair kanıt sağlamasıdır.İyi çalışın, ancak algoritmanın genel olarak iyi sonuç vermesini bekleyebileceğiniz yalnızca çok zayıf kanıtlar sağlayın . "Contcont" kelimesi gerçekten bir aklımda "iyi sonuçlar" olan verileri seçtiğim gerçeğini güzelce özetliyor.
“Bu sahte verilerin izlenimini veriyor mu?”
Hayır, ama, herhangi bir veri kümesi kaynağı ve hakkında açık olmak önemlidir sizin herhangi veri kümesi sonuçlarınızı bildirirken deneyci olarak önsel beklentilere. Terimi "dolandırıcılık" açıkça bir şey örtbas ettikten veya düpedüz yalan olan bir yönünü kapsamaktadır. Bilimde sahtekarlık önlemek komisyonuna 1. yolu basitçe olmaktır dürüst ve açık sözlü verileriniz ve beklentileriniz doğası hakkında. Başka bir deyişle, verileriniz üretilirse ve herhangi bir şekilde söyleyemiyorsanız ve verilerin üretilmemesi yönünde bir beklenti varsa veya daha da kötüsü, verilerin üretilmemiş bir sıralamada toplandığını iddia ediyorsunuz. yol, o ise"Dolandırıcılık". O şeyi yapma "Sentetik" gibi "kulağa daha iyi geliyor" anlamına gelen "fabrikasyon" terimi için bazı eş anlamlılar kullanmak isterseniz, hiç kimse sizi suçlamayacak, ama aynı zamanda sizden başka kimsenin farkına varamayacağını da sanmıyorum.
Bir not:
Daha az aşikar olan, bir iddiaya göre aslında hoc açıklamalar yapan priori beklentileri olan durumlar . Bu aynı zamanda verilerin sahte analizidir.
Özellikle bir veriyi, sıklıkla sentetik verilerde söz konusu olan bir algoritmanın yeteneklerini “göstermek” amacıyla seçtiği zaman bunun tehlikesi vardır.
D'H'HDD
'HD'HD
Yaptıklarınızla ilgili dürüst ve dürüst olduğunuz sürece, bunu yaparken hiçbir sorun yoktur . Eğer "iyi sonuçlar" veren bir veri seti oluşturmak için acı çekmişseniz, bunu söyleyin. Okuyucunun veri analizinizde attığınız adımları bilmesine izin verdiğiniz sürece, hipotezlerinize veya kanıtlarınıza etkili bir şekilde ağırlık vermek için gerekli bilgilere sahiptir. Eğer olmadığında dürüst veya olmayan açık sözlü , o zaman bu sizin kanıtlar olduğundan daha güçlü olduğu izlenimini verebilir. Delilinizi gerçeğe göre daha güçlü göstermesi uğruna dürüst ve dürüst olmak gerekirse , bildiğinizden daha az zaman , o zaman bu gerçekten sahtekarlıktır..
Her durumda, bu yüzden bu tip veri setleri için “kabul edilen” terimini, akıllarında bir hipotezle seçildikleri kısa bir açıklama ile birlikte tercih ediyorum. "Contended", yalnızca sentetik bir veri kümesi oluşturduğumun değil, aynı zamanda hipotezimin veri setimin oluşturulmasından önce var olduğu gerçeğini yansıtan özel niyetlerle de ifade ediyor.
Bir örnekle göstermek için: İsteğe bağlı zaman serilerinin analizi için bir algoritma yaratırsınız. Bu algoritmanın zaman serisine işaret ettiğinde "iyi sonuçlar" vereceğini varsayıyorsunuz. Şimdi, şu iki olasılığı göz önünde bulundurun: 1) Algoritmanızın iyi çalışmasını beklediğiniz türden bir görünüme sahip bazı sentetik veriler yaratırsınız. Bu verileri analiz edersiniz ve algoritma iyi performans gösterir. 2) Bazı sentetik veri kümelerini aldınız, çünkü bunlar neden olmasın diye mevcut. Bu verileri analiz edersiniz ve algoritma iyi performans gösterir. Bu iki durumdan hangisi algoritmanızın keyfi zaman serilerinde iyi performans gösterdiğine dair daha iyi kanıt sağlar? Açıkçası, seçenek 2'dir. Ancak, seçenek 1 veya seçenek 2'de "algoritma uyguladığımızı" bildirmek kolay olabilirbirDx . y
tl; Dr.
"Sentetik", "kesinleşmiş", "uydurulmuş", "hayali" olarak ne demek isterseniz kullanın. Ancak, kullandığınız terim, sonuçlarınızın yanıltıcı olmadığından emin olmak için yetersizdir . Raporda, verilerle ilgili beklentileriniz ve seçtiğiniz verileri seçtiğiniz nedenler de dahil olmak üzere verilerin nasıl ortaya çıktığı konusunda net olduğunuzdan emin olun.