Sinir ağları neden kolayca kandırılır?


13

Bir sinir ağını "kandırmak" için el ile çelişen görüntüler hakkında bazı makaleler okudum (aşağıya bakınız).

Bunun nedeni, ağların yalnızca koşullu olasılık modellemesi olduğu için mi? Bir ağ ortak olasılığını modelleyebiliyorsa , bu gibi durumlar yine de olur mu?p(y|x)
p(y,x)

Tahminimce yapay olarak üretilen görüntüler eğitim verilerinden farklı, bu yüzden düşük olasılıkta . Bu nedenle bu görüntüler için yüksek olsa bile düşük olmalıdır .p(x)p(y,x)p(y|x)

Güncelleme

Bazı üretken modelleri denedim, yararlı olmadığı ortaya çıktı, bu yüzden muhtemelen bu MLE'nin bir sonucu mu?

Demek istediğim KL diverjansının kayıp fonksiyonu olarak kullanılması durumunda, nin küçük olduğu değeri kaybı etkilemez. Yani eşleşmeyen bir yapmacık görüntü için , değeri keyfi olabilir.pθ(x)pdata(x)pdatapθ

Güncelleme

Andrej Karpathy tarafından gösteren bir blog buldum

Bu sonuçlar görüntülere, ConvNets'e özgü değildir ve ayrıca Derin Öğrenme'deki bir “kusur” değildir.

resim açıklamasını buraya girin
MACERA ÖRNEKLERİNİN AÇIKLANMASI VE SÜRDÜRÜLMESİ Derin Sinir Ağları Kolayca Aldatılabilir: Tanınmayan Görüntüler İçin Yüksek Güven Tahminleri
resim açıklamasını buraya girin


Soru genel olarak NN'lerden ziyade DNN'lerden mi çıkıyor?
Matthew Gunn

@MatthewGunn Emin değilim, seanv507'nin cevabına göre daha genel bir sorun gibi görünüyor.
dontloo

@MattewGunn muhalif örnekler belgesini açıklayan ve kullanan - lojistik regresyon için de geçerlidir
seanv507

Yanıtlar:


10

Bahsettiğiniz modellere, ayrımcılığın aksine 'üretken' modeller denir ve gerçekten yüksek boyutlu verilere kadar ölçeklenmez. NN'nin dil görevlerindeki başarılarının bir kısmı, üretken bir modelden (HMM) 'daha' ayrımcı bir model yapmaktan geçiyor (örneğin, MEMM, bağlamsal verilerin etkili bir şekilde kullanılmasına izin veren lojistik regresyon kullanıyor https://en.wikipedia.org/ wiki / Hidden_Markov_model # Uzantılar )

Kandırılma nedeninin daha genel bir sorun olduğunu iddia ediyorum. Daha karmaşık yöntemlere göre 'sığ' ML güdümlü yapay zekanın şu anki baskınlığıdır. [pek çok makalede diğer ML modellerinin de kolayca kandırıldığından bahsediliyor - http://www.kdnuggets.com/2015/07/deep-learning-adversarial-examples-misconceptions.html - Ian Goodfellow]

birçok görev için en etkili 'dil modeli' 'kelime torbası'dır. Hiç kimse bunun anlamlı bir insan dili modeli olduğunu iddia edemez. bu tür modellerin de kolayca kandırıldığını hayal etmek zor değil.

benzer şekilde, nesne tanıma gibi bilgisayar görme görevleri, daha hesaplamalı olarak daha yoğun yöntemleri patlatan (büyük veri setlerine uygulanamayan) 'görsel kelime torbası' ile devrim yarattı.

CNN, daha iyi bir 'görsel kelime torbası' olduğunu iddia ediyorum - resimlerinizde gösterdiğiniz gibi, hatalar piksel düzeyinde / düşük seviye özelliklerinde yapılır; tüm abartıya rağmen gizli katmanlarda üst düzey bir temsil yoktur- (herkes hata yapar, mesele, bir kişinin daha yüksek seviye özellikler nedeniyle 'hatalar' yapacağını ve örneğin bir kedinin karikatürünü tanıyacağıdır. NN inanmaz).

Daha karmaşık bir bilgisayar görme modeline (NN'den daha kötü performans gösteren) bir örnek, örneğin 'deforme olabilen parçalar' modelidir.


4

Bildiğim kadarıyla, çoğu sinir ağı giriş görüntüleri üzerinde a priori olasılık dağılımı kullanmıyor. Ancak eğitim setinin seçimini böyle bir olasılık dağılımı olarak yorumlayabilirsiniz. Bu görünümde, yapay olarak oluşturulan bu görüntülerin test setinde görüntü olarak seçilmesi olası değildir. 'Ortak olasılığı' ölçmenin bir yolu görüntüleri rastgele oluşturmak ve daha sonra etiketlemek olacaktır. Sorun, büyük VAST çoğunluğunun etiketinin olmamasıdır. Dolayısıyla, makul sayıda etiketli örnek elde etmek çok fazla zaman alacaktır.


cevapladığınız için teşekkür ederim :) "Ortak olasılık" ı ölçmenin bir yolu görüntüleri rastgele oluşturmak ve daha sonra etiketlemek olacaktır. "rastgele görüntüleri elle etiketlemek (başka bir kategori olarak) )?
dontloo

1
Her pikselin RGB değerlerini rastgele seçerek görüntü üretmek demek. Bu, yazınızdaki sağ üst panda görüntüsünün ve sol üst "jibon" panda görüntüsünün eşit üretilme olasılığına sahip olacağı anlamına gelir. Buradaki sorun, her pikselin 2 ^ 24 olası rengine sahip olması ve oluşturulan görüntülerin büyük çoğunluğunun saçma olması. “Panda” olarak etiketlenebilecek tek bir görüntü bile ürettiğiniz zaman, evren gitmiş olurdu.
dimpol

oh, görüyorum ki, bu yapılacak çok iş gibi, yine de teşekkür ederim.
dontloo
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.