Jürgen Schmidhuber tarafından üretilen üretici rakip ağlar var mıydı?


32

Https://en.wikipedia.org/wiki/Generative_adversarial_networks adresinde okudum :

[Üretken ters ağlar] 2014 yılında Ian Goodfellow ve arkadaşları tarafından tanıtıldı.

Ancak Jurgen Schmidhuber bu yönde daha önce benzer çalışmalar yaptığını iddia ediyor (örneğin, üretici karşıt ağlar eğitimi sırasında NIPS 2016'da bazı tartışmalar yapıldı: https://channel9.msdn.com/Events/Neural-Information-Processing-Systems- Konferans / Sinir-Bilgi İşlem-Sistemleri-Konferans-NIPS-2016 / Üretken- Değişken -Ağlar bkz. 1h03min).

Jürgen Schmidhuber tarafından ilk kez kamuya açık olan üretken rakip ağların ardındaki fikir miydi? Değilse, Jürgen Schmidhuber'in fikirleri ne kadar benzerdi?


5
Burada reddit konuyla ilgili tartışma , özellikle de bu yorum .
Dougal


1
Wikipedia sayfasının tarih bölümü güncellendi ve artık tüm ilgili referansları ve birbirleriyle olan bağlantılarını içerdiğini düşünüyorum. Bence bu şimdi oldukça adil ve tamamlandı.
Albert

@Albert güncelleme için teşekkürler!
Franck Dernoncourt

Yanıtlar:


50

2010'daki bir blog yazısında (archive.org) deterministik çeşitlilikteki üretici adversarial ağların (GAN) temel fikrini kendim yayınladım . Aradım ama hiçbir yerde benzer bir şey bulamadım ve uygulamayı denemek için zamanım olmadı. Bir sinir ağı araştırmacısı değildim ve hala değildim ve bu alanda hiçbir bağlantım yok. Blog gönderisini buraya kopyalayıp yapıştıracağım:

2010-02-24

Yapay sinir ağlarını değişken bir bağlamda eksik veri üretmek için eğitmek için bir yöntem . Fikir tek bir cümleye koymak zor olduğundan, bir örnek kullanacağım:

Bir görüntünün eksik pikselleri olabilir (diyelim, bir lekenin altında). Sadece çevreleyen pikselleri bilerek, eksik pikselleri nasıl geri yükleyebilirim? Bir yaklaşım, çevreleyen pikselleri girdi olarak verdiğinde eksik pikselleri üreten bir "jeneratör" sinir ağı olacaktır.

Ama böyle bir ağ nasıl eğitilir? Ağın eksik pikselleri tam olarak üretmesi beklenemez. Örneğin, eksik verilerin bir çim parçası olduğunu düşünün. Birisi, ağa bölümleri kaldırılmış, bir sürü çimler imgesiyle öğretebilir. Öğretmen, eksik olan verileri bilir ve ağı, üretilen çim yaması ile orijinal veriler arasındaki ortalama kare kök farkına (RMSD) göre puanlayabilir. Sorun, eğer jeneratör eğitim setinin bir parçası olmayan bir görüntüyle karşılaşırsa, sinir ağının tüm yaprakları, özellikle yamanın tam ortasına tam olarak doğru yerlere koymasının imkansız olması. En düşük RMSD hatası muhtemelen ağın orta alanını, tipik çim görüntülerinde piksellerin renginin ortalaması olan düz bir renkle dolduran ağla gerçekleşebilir. Ağ, bir insana ikna edici görünen ve bunun amacını yerine getiren çim üretmeye çalışırsa, RMSD metriği tarafından talihsiz bir ceza olacaktır.

Benim fikrim şudur (aşağıdaki şekle bakınız): Jeneratörle eşzamanlı olarak, rasgele veya değişken bir sırayla, oluşturulan ve orijinal veriler verilen bir sınıflandırıcı ağını eğitin. Sınıflandırıcı daha sonra, çevreleyen görüntü bağlamı bağlamında, girişin orijinal (1) veya oluşturulmuş (0) olup olmadığını tahmin etmek zorundadır. Jeneratör ağı aynı anda sınıflandırıcıdan yüksek bir puan (1) almaya çalışıyor. Sonuç, umarım, her iki ağın da gerçekten basit bir şekilde başlaması ve daha fazla gelişmiş özelliklerin üretilmesi ve tanınması, insanın üretilen veri ile orijinal arasında ayırt etme kabiliyetine yaklaşılması ve muhtemelen yenilmesi yönünde ilerleme kaydedilmesidir. Her puan için birden fazla eğitim örneği göz önünde bulundurulursa, RMSD kullanılacak doğru hata ölçütüdür,

görüntü tanımını buraya girin
Yapay sinir ağı eğitim kurulumu

Sonunda RMSD'den bahsettiğimde, piksel değerlerini değil, "olasılık tahmini" için hata ölçümünü kastediyorum.

Başlangıçta 2000'de (comp.dsp post) sinir ağlarının, yukarı örnekleme için (daha yüksek örnekleme frekansına yeniden örneklenmiş) dijital ses için eksik yüksek frekanslar üretmek için doğru değil ikna edici bir şekilde kullanılmasını düşünmeye başladım . 2001 yılında eğitim için bir ses kütüphanesi topladım. 20 Ocak 2006 tarihinden itibaren (yehar) başka bir kullanıcıyla (_Beta) fikir hakkında konuştuğum bir EFNet #musicdsp Internet Relay Chat (IRC) günlüğünün parçaları:

[22:18] <yehar> numunelerle ilgili sorun şu ki, "orada" bir şeyiniz yoksa zaten örnek alırsanız ne yapabilirsiniz ...
[22:22] <yehar> bir keresinde büyük bir topladım ses kütüphanesi bu problemi çözmek için "akıllı" bir algo geliştirebildim
[22:22] <yehar> sinir ağları kullanırdım
[22:22] <yehar> ama işi bitirmedim: - D
[22:23] <_Beta> sinir ağları ile ilgili sorun, sonuçların
doğruluğunu ölçmenin bir yolunun olması gerektiğidir [22:24] <yehar> beta: adresinde "dinleyici" geliştirebileceğiniz fikrine sahibim. aynı zamanda "akıllı ses yaratıcısı" geliştirirken
[22:26] <yehar> beta: ve bu dinleyici, yaratılmış veya doğal bir spektrumun ne zaman dinlendiğini tespit etmeyi öğrenecek. ve yaratıcı, aynı zamanda bu algılamayı aşmaya çalışmak için de gelişir.

2006-2010 yılları arasında bir arkadaşım fikrime bakmak ve tartışmak için bir uzman davet etti. Bunun ilginç olduğunu düşündüler, ancak tek bir ağ işi yapabildiği zaman iki ağı eğitmenin ekonomik olmadığını söylediler. Çekirdek fikri anlamadılar mı ya da derhal tek bir ağ olarak formüle etmenin bir yolunu gördüler mi, belki de topolojide bir yerde bir darboğaz ile iki parçaya ayırmaktan asla emin olmadılar. Bu, geri yayılımın hala fiili olmayan eğitim yöntemi olduğunu bile bilmediğim bir zamandı (2015'in Derin Rüyası'nda çılgınlık çekerek video çekmeyi öğrendi ). Yıllar boyunca, birkaç veri bilim insanı ve ilgimi çekebileceğini düşündüğüm diğerleriyle fikrim hakkında konuştum, ancak cevap hafifti.

Mayıs 2017’de Ian Goodfellow’un YouTube [Mirror] konulu tanıtım sunumunu gördüm ki bu tamamen benim günümdü. Bana şu anda aşağıda ana hatlarıyla anladığım farklılıklar ile aynı temel fikir olarak geldi ve iyi sonuçlar vermesi için sıkı bir çalışma yapıldı. Ayrıca hiçbir zaman fikrimin resmi bir analizini yapmamam sırasında bir teori verdi ya da neyin işe yaraması gerektiğine dair teoriye dayandı. Goodfellow'un sunumu, sahip olduğum soruları ve çok daha fazlasını yanıtladı.

Goodfellow'un GAN'ı ve önerilen uzantıları, jeneratörde bir gürültü kaynağı içeriyor. Bir gürültü kaynağı dahil etmeyi hiç düşünmedim ama bunun yerine eğitim veri içeriğine sahiptim , fikri bir gürültü vektör girişi olmadan koşullu bir GAN (cGAN) ve verinin bir bölümünde şartlandırılmış model ile daha iyi eşleştirdim . Şu anki anlayışım Mathieu ve ark. 2016 , eğer yeterli giriş değişkenliği varsa, yararlı sonuçlar için bir gürültü kaynağına ihtiyaç duyulmamasıdır. Diğer fark, Goodfellow’un GAN’ının log olasılığını en aza indirmesidir. Daha sonra, en küçük kareler GAN (LSGAN) tanıtıldı ( Mao ve diğ. 2017) benim RMSD önerime uyuyor. Bu yüzden benim fikrim, jeneratöre gürültü vektörü girişi olmayan ve koşullandırma girişi olarak verinin bir kısmıyla koşullu en küçük kareler üreteci ters ağ (cLSGAN) ile eşleşecektir. Bir üretici verileri dağılımının bir yaklaşımdan jeneratör örnekleri. Artık gerçek dünyadaki gürültülü girdinin benim fikrim ile bunu yapıp yapmayacağına şüphe duyduğumu biliyorum ve bunun sonuçların işe yaramazsa işe yaramayacağını söylemek değildir.

Yukarıda belirtilen farklılıklar, Goodfellow'un fikrimi bilmediğine ya da duymadığına inanmamın ana nedenidir. Bir diğeri ise, blogumun başka bir makine öğrenme içeriğine sahip olmaması, bu nedenle makine öğrenme çevrelerinde çok sınırlı bir maruz kalmanın keyfini çıkaracaktı.

Bir eleştirmen, yazarın kendi çalışmasını belirtmesi için bir yazara baskı uyguladığı zaman bir çıkar çatışmasıdır.


8
Söylemeliyim ki, çok etkilendim. Görünüşe bakılırsa, blog postanız, Ian ve ekibi bağımsız olarak keşfetmiş olsalar bile, bu fikir için itibar kazanmayı hak ediyor.
user2808118 13:17

2
Çalışmanızı yayınlamış olsaydınız, düşman devrimine ilham veren kişi olabilirdiniz. GASP !!
user2808118

5
@ user2808118 Sadece düşünmeyi değil, yayınlamak için bazı sonuçlar üretmek için üzerinde çalışmayı gerektiriyordu.
Olli Niemitalo

4
Sizi iki kez selamlıyorum: öncelikle Goodfellow'dan en az 3 yıl önce keşfettiğiniz için ve ikincisi de büyük bir kalbe çok olumlu bakması için.
Bilim Adamı

19

Ian Goodfellow'dan bir cevap , NIPS 2016'da GAN'lar için kredi talep ettiğinde Jürgen Schmidhuber miydi? 2017-03-21 tarihinde gönderildi:

Tam olarak GAN'lar için kredi talep etmiyor. Daha karmaşık.

NIPS 2014’in GAN’lar üzerine yaptığı gönderinin hakemliğini yaparken, kendi sözleriyle ne yazdığını görebilirsiniz: Yorumları, Tartışmaları, Yazarı Geribildirimini ve Meta-İncelemelerini Dışa Aktar ( ayna )

GAN'ların ismini “ters PM” olarak değiştirmemizi isteyen yorumcu.

İşte yeterince kabul edilmediğine inandığı makale: http: // ftp: //ftp.idsia.ch/pub/juergen/factorial.pdf ( ayna )

Böyle bir konuda karar vermenin iyi bir yolu olmadığını sevmiyorum. NIPS organizatörleriyle temasa geçtim ve Jürgen'in benim hakkımda bir şikayette bulunmasının ve NIPS temsilcilerinden oluşan bir komitenin yayınımın haksız davranıp davranmadığını yargılamasının bir yolu olup olmadığını sordum. Böyle bir işlem olmadığını söylediler.

Şahsen, tahmin edilebilirliğin en aza indirgenmesi ve GAN'lar arasında önemli bir bağlantı olduğunu düşünmüyorum. GAN'lar ve gerçekte ilişkili olan diğer algoritmalar arasındaki bağlantıları kabul etmede hiçbir zaman sorun yaşamadım, gürültü kontrastlı tahmin ve kendi kendini denetleyen güçlendirme gibi.

Jürgen ve ben kısa bir süre sonra, Başbakan ve GAN'lar arasındaki benzerlik ve farklılıkları anlatan bir makale yazmak istiyoruz.


2
Ne yazık ki önümüzdeki ikisi arasında bir kağıt görünmüyor. :-(
ComputerScientist

@BilgisayarScientist yep hala bekliyor, başkası onunla
başa çıkabilirdi
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.