Şimdi derin öğrenme modellerinin yorumlanabileceği söylenemez mi? Düğüm özellikleri mi?


27

İstatistiksel ve makine öğrenimi modelleri için çok sayıda yorumlanabilirlik vardır: 1) bir bütün olarak algoritma, 2) genel olarak algoritmanın bir kısmı 3) belirli girdiler için algoritmanın bir kısmı ve bu üç seviye iki bölüme ayrılır, Biri eğitim için, biri de işlev değerlendirmesi için Son iki kısım birinciden çok daha yakın. # 2 hakkında soruyorum, bu genellikle # 3'ün daha iyi anlaşılmasını sağlar. (bunlar 'yorumlanabilirlik' ne anlama gelmiyorsa, o zaman ne düşünmeliyim?)

Yorumlanabilirlik devam ettiği sürece, lojistik regresyon, yorumlanması en kolay olanlardan biridir. Bu örnek neden eşiği geçti? Çünkü bu örnek bu özel olumlu özelliğe sahipti ve modelde daha büyük bir katsayısı var. Çok açık!

Bir sinir ağı, yorumlanması zor olan modelin klasik bir örneğidir. Bütün bu katsayılar ne anlama geliyor ? Hepsi öyle karmaşık çılgın yollarla toplanıyorlar ki, belirli bir katsayının gerçekte ne yaptığını söylemek zor.

Ancak tüm derin sinir ağları ortaya çıkarken, işler daha da netleştiğini hissediyor. DL modelleri (örneğin görme), erken katmanlardaki kenarlar ya da oryantasyon gibi şeyleri yakalar gibi görünür ve daha sonraki katlarda bazı düğümler aslında anlamsaldır (atasözü 'büyükanne hücresi' gibi ). Örneğin:

görüntü tanımını buraya girin

( 'Derin Öğrenme Hakkında Öğrenme' )

Bu sunum için elle yaratılmış bir grafiktir ( pek çoğunun dışında ), bu yüzden çok şüpheliyim. Fakat birinin böyle çalıştığını düşündüğünün kanıtı .

Belki geçmişte, tanınabilir özellikleri bulmamız için yeterli katman yoktu; modeller başarılıydı, ancak post-hoc analizleri belirli olanları analiz etmek kolay değildi.

Ama belki grafik sadece arzulu bir düşüncedir. Belki de NN'ler gerçekten anlaşılmazdır.

Fakat düğümleri resimlerle etiketlenmiş birçok grafik de çok etkileyici.

DL düğümleri gerçekten özelliklere karşılık geliyor mu?


6
Bu sorunun öncülünü göremiyorum. Bu sinir ağları daha karmaşık hale geldi ve daha iyi tahminler vermek onları daha fazla yorumlanamaz hale getirmiyor. Bunun tersi genellikle doğrudur: karmaşıklık / daha iyi tahmin <-> basitlik / daha iyi yorum.
AdamO

4
@AdamO tam olarak doğru. Bu nedenle, regresyon ağaçları (özyinelemeli bölümleme) yalnızca kesin değildir çünkü sonuçlar yanlış . Yanılıyorlar çünkü değişkenler; yeni bir örnek alın ve ağaç keyfi farklı olabilir. Ve bekar ağaçlar, öngörülü ayrımcılık konusunda rekabetçi değildir. Parsimony, genellikle tahmine dayalı ayrımcılığın düşmanıdır. Ve asıl soruya, biyomedikal alanında, AI / ML sonuçları yorumlanamamıştır.
Frank Harrell

1
Bu makaleye bakın AI araştırmacıları makine öğreniminin simya olduğunu iddia ediyorlar sciencemag.org/news/2018/05/…
Mike Hunter

4
Vücuttaki cesur soru ve başlığınızdaki soru çok farklı. Maden dahil tüm cevaplar başlıktaki soruyu ele alıyor gibi görünüyor. Belki kendi ipindeki düğümler ve özellikler hakkındaki daha dar soruları sorabilirsiniz. Ancak, bunu yapmadan önce, olumlu sorunuzu cevaplayan cesur sorunuzu yanıtlayan bir makaleye zaten bağlı olduğunuzu düşünün, bu nedenle sormadan önce tam olarak bir cevapta ne öğrenmek istediğinizi düşünün.
Sycorax, Reinstate Monica’nın

@Sycorax Yeni eklediğim bağlantı bir blog yazısına değil, bir kağıda değil, bu yüzden olumlu bakış açısına şüpheyle yaklaşıyorum. Başlıkta DL hakkında sorduğum yorumlanabilirliğin çeşitliliği metinde koyu yazılmış bir yazı olarak kabul ediyorum.
Mitch,

Yanıtlar:


30

Derin modellerin yorumlanması hala zor.

  1. Yazınız yalnızca bilgisayarlı görüntü uygulamaları için CNN'lerden bahseder, ancak (derin veya sığ) ileri beslemeli ağlar ve yinelenen ağlar anlaşılması güçtür.

  2. Piksel yamalarının kenarları ve oryantasyonu gibi belirgin "özellik detektörü" yapılarına sahip CNN'lerde bile, bu düşük seviyeli özelliklerin yukarı doğru nasıl toplandığı ya da tam olarak bu vizyon özelliği olduğunda neler olduğu tam olarak açık değildir. tamamen bağlı bir katmanda toplanır.

  3. Farklı örnekler, ağın yorumlanmasının ne kadar zor olduğunu gösteriyor. Bir rakip örnek, üzerinde yapılan bazı küçük değişikliklere sahiptir, ancak modelin verdiği kararda çarpıcı bir kayma ile sonuçlanır. Görüntü sınıflandırması bağlamında, görüntüye eklenen küçük bir miktar gürültü, bir kertenkele görüntüsünü, bir köpek türü gibi, başka bir hayvan gibi oldukça güvenli bir sınıflandırmaya sahip olacak şekilde değiştirebilir.

Bu, sınıflandırma kararındaki (küçük) gürültü miktarı ile (büyük) kayma arasında güçlü, öngörülemeyen bir ilişki olduğu anlamında yorumlanabilirlikle ilgilidir. Bu ağların nasıl işlediğini düşünmek bir anlam ifade ediyor: önceki katmanlardaki hesaplamalar ileriye doğru yayılıyor, böylece bir çok hata - bir insana küçük, önemsiz hatalar - büyütülerek ve biriktirilerek daha fazla hesaplama yapıldı. "bozuk" girişler.

Öte yandan, olumsuz örneklerin varlığı, herhangi bir düğümün belirli bir özellik veya sınıf olarak yorumlanmasının zor olduğunu göstermektedir, çünkü düğümün aktif hale getirilmiş olması, orijinal görüntünün gerçek içeriği ile ilgisi olmayabilir. Bu ilişki orjinal imaj açısından pek öngörülemez. Ancak aşağıdaki örnek görüntülerde, görüntülerin içeriği hakkında hiçbir insan aldatılmıyor: bayrak direğini bir köpek için karıştırmazsınız. Bu kararları, (küçük bir gürültü paterni bir kertenkele köpeğe "dönüştürür" veya bir köpeğe bayrak direği) veya daha küçük parçalar halinde (birkaç özellik detektörünün gürültü düzenine gerçek görüntüden daha duyarlı olduğunu, nasıl yorumlayabiliriz? içeriği)?

HAAM, harmonik fonksiyonlar kullanarak ters görüntüler üretmek için umut verici yeni bir yöntemdir. ("Harmonik Adversarial Attack Method" Wen Heng, Shuchang Zhou, Tingting Jiang.) Bu yöntem kullanılarak oluşturulan görüntüler aydınlatma / gölge efektlerini taklit etmek için kullanılabilir ve genellikle insanlar tarafından değiştirilmiş olarak algılaması daha da zorlayıcıdır.

Örnek olarak, Seyed-Mohsen Moosavi-Dezfooli, Alhussein Fawzi, Omar Fawzi ve Pascal Frossard'ın " Evrensel olumsuz etkilerinden " alınan bu resmi görün . Bu görüntüyü seçtim, çünkü karşılaştığım ilk çekişmeli görüntülerden biriydi. Bu görüntü, belirli bir gürültü paterninin görüntü sınıflandırma kararında garip bir etkisi olduğunu, özellikle de bir giriş görüntüsünde küçük bir değişiklik yapabileceğinizi ve sınıflandırıcının sonucun bir köpek olduğunu düşünmesini sağlayabileceğinizi belirler. Altta yatan orijinal görüntünün hâlâ açık olduğunu unutmayın: Her durumda, köpek olmayan görüntülerden herhangi birinin köpek olduğunu düşünmekle bir insanın kafası karışmaz. adversaria

İşte Ian J. Goodfellow, Jonathon Shlens ve Christian Szegedy tarafından hazırlanan " KANATLI ÖRNEKLERİN İNCELENMESİ VE İNCELENMESİ " başlıklı daha kanonik bir makaleden ikinci bir örnek . Eklenen gürültü, sonuçtaki görüntüde tamamen ayırt edilemez, ancak sonuç, gizli olarak yanlış sonuç, bir panda yerine bir jibon olarak sınıflandırılır. Bu durumda, en azından, iki sınıf arasında en azından geçici bir benzerlik vardır, çünkü gibonlar ve pandalar, en geniş anlamda biyolojik ve estetik olarak en azından bir şekilde benzerdir. panda

Bu üçüncü örnek, João Monteiro, Zahid Akhtar ve Tiago H. Falk tarafından " Bi-model Karar Uyuşmazlığına Göre Genelleştirilebilir Olumsuz Örnekler Tespiti " nden alınmıştır . O kurar gürültü deseni bir insana ayırt edilemez olabilir ama yine de sınıflandırıcı karıştırmayın.ayırt edilemez

Referans olarak, bir çamurluk dört uzuv ve bir kuyruk ile koyu renkli bir hayvandır, bu yüzden bir akvaryum balığı için gerçekten çok benzerliği yoktur. mudpuppy

  1. Bu yazıyı bugün buldum. Christian Szegedy, Wojciech Zaremba, İlya Dikişçi, Joan Bruna, Dumitru Erhan, Ian Goodfellow, Rob Fergus. " Sinir ağlarının ilgi çekici özellikleri ". Özet, bu ilginç teklifi içerir:

Öncelikle, çeşitli birim analiz yöntemlerine göre, bireysel yüksek seviye birimler ile yüksek seviye birimlerin rastgele doğrusal kombinasyonları arasında bir fark olmadığını bulduk. Sinir ağlarının yüksek katmanlarındaki anlamsal bilgileri içeren tekil birimler yerine alan olduğunu öne sürer.

Bu nedenle, 'özellik algılayıcıları' daha yüksek seviyelerde tutmak yerine, düğümler yalnızca ağın verileri modellemek için kullandığı bir özellik alanındaki koordinatları temsil eder.


2
Güzel nokta. Ancak, en basit modellerde (lojistik, karar ağaçları) bile, belirli bir katsayı / harmancılığın neden ne olduğunun (ancak bu benim sorduğum aynı yorumlanabilirlik olmadığını) belirsiz olduğunu unutmayın. Tamamen ilgisiz değil, herhangi bir iyi olumsuz çalışma / dil / RNN / LSTM için örnekler var mı?
Mitch,

7
Ayrıca, lojistik regresyon gibi basit modellerin bile, rakip saldırılara karşı savunmasız olduğunu belirtmek isterim. Aslında, Goodfellow ve diğ. ark. Bu tür saldırılara karşı koyma kabiliyetine sahip olmayan sığ modeller olduğuna işaret ediyor. Yine de lojistik gerilemeyi yorumlayabildiğini iddia ediyoruz.
shimao

2
İki nedenden dolayı tartışmalı olan 3. nokta hariç, iyi cevap. 1) Çok nadiren, ağır bir görüntünün, ciddi bir görme bozukluğu olmadığı sürece, "bir insana, değiştirilmemiş bir görüntüden ayırt edilemez" olduğu durumudur. Neredeyse her zaman görüntünün kendisine eklenen bazı gürültü modellerinin olduğunu fark edebilirsiniz, özellikle arka planda JPEG gürültüsüne estetik olarak benzeyen (sadece görsel olarak: pertürbasyonun gerçek istatistiksel özellikleri farklıdır). Ne şaşırtıcı sınıflandırıcı bir olsun belirsiz olduğunu değil iyi niyetli bir 1 / bozuk, kedi diyelim ziyade
DeltaIV

2
2 / image, ama bunun bir otobüs olduğu neredeyse kesin. 2) Yorumlanabilirlik ile ilgili olumsuz örnekler nasıldır? Doğrusal modeller, genelleştirilmiş doğrusal modeller ve ayrıca karar ağaçları olumsuz örneklere açıktır. Aslında bu daha kolay düşmanca lojistik regresyon aptallar örnek yerine birini aptal ResNet bulmak için. Buna rağmen, genellikle (G) LM'i yorumlanabilir bir model olarak görüyoruz; bu nedenle, olumsuz örneklerin varlığını bir modelin yorumlanabilirliği ile ilişkilendirmem.
DeltaIV

3
@DeltaIV nokta gürültüyü fark edemez değilsinizdir. Çok fazla bozulmuş her jpeg gürültülüdür. Mesele şu ki, gürültünün DNN'yi çılgınca şeyler yapması için manipüle edilebileceği, gürültünün kendisi görünse bile insan gözlemciye bir anlam ifade etmeyen şeyler olduğu.
Hong Ooi

13

Katmanlar, istediğimiz kadar temiz bir şekilde daha soyut özelliklerle eşleşmez. Bunu görmenin iyi bir yolu çok popüler iki mimariyi karşılaştırmak.

VGG16 , ara sıra havuz katmanı ile birbiri üzerine yığılmış birçok geleneksel katmanı içerir - çok geleneksel bir mimari.

O zamandan beri insanlar, her katmanın sadece önceki katmana değil, aynı zamanda modelde daha aşağıya bir (veya muhtemelen daha fazla) katmana bağlandığı artık mimarileri tasarlamaya başladılar. ResNet , bunu ilk yapanlardan biriydi ve kullandığınız değişkene bağlı olarak yaklaşık 100 katmanı var.

VGG16 ve benzeri ağların katmanları az ya da çok yorumlanabilir bir şekilde hareket etse de, daha yüksek ve daha yüksek seviye özellikler öğrenirken, ResNets bunu yapmaz. Bunun yerine, insanlar kendilerini daha doğru hale getirmek için rafinaj yapma özelliklerini koruduğunu ya da sadece gizli modellerin öğrendiği şeylerin "geleneksel görüşleri" ile uyuşmayan sadece bir grup sığ ağ olduklarını önerdiler .

ResNet ve benzeri mimariler, görüntü sınıflandırma ve nesne tespitinde VGG'yi çok daha iyi bir performans sergilerken, VGG'nin basit aşağıdan yukarıya özellik hiyerarşisinin çok önemli olduğu bazı uygulamalar var gibi görünüyor. İyi bir tartışma için buraya bakın .

Dolayısıyla, daha modern mimarilerin artık resme uymadığı düşünülürse, CNN'lerin henüz yorumlanamayacağını söyleyemeyeceğimizi söyleyebilirim.


Muhtemelen bir DL ağının tamamen yapılandırılmamış / tasarlanmamış topolojisi, büyük bir rasgele kısmi düzenlenmiş küme olurdu, sensörleri girer ve istenen işlevi çıkarır (yani katman oluşturma denemesi yapmaz). Buradaki düğümler çok anlaşılmaz olurdu . Ancak bu, bir topoloji ne kadar tasarlandıysa, bazı yorumlanabilirlik olasılığı o kadar fazla olduğu anlamına gelmez mi?
Mitch,

3
@Mitch Densenet gibi bazı yeni mimariler, her katmanı diğer katmanlara bağlamanın sınırına doğru - yavaş yavaş "tasarlanmamış ağınız" gibi gözüküyor gibi görünüyor. Fakat elbette, ResNet ve Densenet, VGG16'dan daha sofistike bir tasarıma sahiptir, ancak bir tanesi daha az yorumlanabilir olduğunu söyleyebilir - yani hayır, daha fazla tasarımın daha fazla yorumlanabilir olduğunu düşünmüyorum. Muhtemel, daha az sayıda bağlantı daha fazla yorumlanabilir demektir.
shimao

7

Doktora tezimin konusu, sinir ağlarının, özellikle ileri beslemeli sinir ağlarının kara kutu özelliklerini bir ya da iki gizli katmanla ortaya çıkarmaktı.

Tek katmanlı, ileri beslemeli bir sinir ağında ağırlık ve önyargı terimlerinin ne anlama geldiğini herkese açıklamak için mücadele edeceğim. İki farklı bakış açısına değinilecektir: parametrik bir ve olası bir yaklaşım.

xinput=αx+βαβxinput(0,1)

  • 01
  • vv7

Giriş katmanındaki ağırlıkların (mutlak değer) boyutunu yorumlayabilmek için giriş verilerinizin bu şekilde gösterilmesi gerekir.

Parametrik anlam:

  • 0
  • gizli bir düğümden bir çıkış düğümüne olan ağırlık, mutlak anlamda bu gizli nöron tarafından büyütülen, belirli çıkış düğümünü destekledikleri veya azaltan girdi değişkenlerinin ağırlıklı olarak büyütülmüş olduğunu gösterir. Ağırlığın işareti, promosyon (pozitif) veya inhibisyon (negatif) olduğunu gösterir.
  • 132
  • β

1iltsil1Δj,k=∣wi,jwi,kijk

Daha gizli olan gizli düğümler, bir çıkış düğümü için (frekanslarla konuşmak, eğitim seti üzerinden), hangi 'giriş ağırlıkları zaman giriş frekansları' en önemlidir? Sonra ileri beslemeli sinir ağlarının parametrelerinin önemini kapattık.

Olasılıksal yorumlama:

xinput

Bireysel dava - desen

xinput[1,0,0,0,0,0,0][0,1,0,0,0,0,0]veya hafta içi herhangi bir gün) ve en muhtemel sonuç değişir, o zaman sayılan değişkenin sınıflandırmanın sonucu üzerinde potansiyel etkisi vardır .

xinputxinputE(xinputxinput)xinputxinput

Derin eğilme - ve NN parametrelerinin anlamı

Bilgisayar vizyonuna uygulandığında, sinir ağları son on yılda kayda değer bir ilerleme göstermiştir. 1989 yılında LeCunn tarafından tanıtılan evrimsel sinir ağları, görüntü tanıma açısından sonunda gerçekten iyi sonuç verdi. Bilgisayar tabanlı tanıma yaklaşımlarının çoğundan daha iyi performans gösterebilecekleri bildirilmiştir.

İlginç ortaya çıkan özellikler, evrişimli sinir ağları nesne tanıma konusunda eğitildiğinde ortaya çıkar. Gizli düğümlerin ilk katmanı, ölçek alanı operatörleri T. Lindeberg, Otomatik Ölçek Seçimi ile Özellik Algılama, 1998 gibi düşük seviye özellik dedektörlerini temsil eder . Bu ölçek alanı operatörleri algılar

  • çizgiler,
  • köşeler,
  • T bağlantıları

ve diğer bazı temel görüntü özellikleri.

Daha da ilginç olanı, memeli beynindeki algısal nöronların, (biyolojik) görüntü işlemenin ilk adımlarında bu çalışma biçimine benzediği gösterilmiştir. CNN'lerle birlikte, bilimsel topluluk insan algısını bu kadar olağanüstü kılan şeyin üzerine yaklaşıyor. Bu, bu araştırma hattını daha ileriye götürmek için çok değerlidir.


Bu ilginç - ilişkili özellikler söz konusu olduğunda daha fazla yorumlanabilirlik sağlayacak gibi görünmüyor mu?
khol

Beklenen vallue E (.) Ayrıca koşullu dağılımın ortalamasıdır, x_-giriş verilen x_-giriş, diğer tüm değişkenler. Dolayısıyla, korelasyonlar bu beklenen etki kavramına tamamen dahil edilmiştir. Olasılıklı bağımsızlığın “korelasyon” dan daha geniş bir tanımına sahip olduğuna dikkat edin - ikincisi öncelikle Gauss dağınık verileri için tanımlanır.
Maç Maker EE

Güzel. Bu, lojistik regresyonun yorumlanmasının, biri diğerine beslenen bir dizi yığılmış regresyon modeline genelleştirilmesi midir?
Mitch,

Gizli düğümlerin bir alt kümesi, bir çıkış nöronu için mantıksal bir "OR" veya mantıksal bir "AND" gibi davranabilir. VEYA, bir gizli düğüm aktivasyonu, çıkış nöronunun 1'e yakın olmasına neden olmak için yeterli olduğunda meydana gelir. VE, yalnızca gizli düğüm aktivasyonlarının bir toplamı, çıkış düğümü aktivasyonunun 1'e yakın olmasına neden olabilir. AND ',' in 'fanının eğitilmiş ağırlık vektörüne bağlı olarak çıkış düğümüne bağlıdır.
Maç Maker EE
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.