Sinir ağı - ikili / ayrık / sürekli giriş


14

Tüm giriş düğümleri (geri yayılımlı olsun veya olmasın) için ileri beslemeli bir ağ için girdi olarak, ayrık veya sürekli normalize edilmiş değerlere (örn. (1; 3) göre ikili değerleri (0/1) tercih etmenin iyi bir nedeni var mı?

Tabii ki, sadece her iki formata dönüştürülebilecek girdilerden bahsediyorum; örneğin, birden fazla değer alabilen bir değişkeniniz varsa, bunları doğrudan bir giriş düğümünün değeri olarak besleyin veya her ayrık değer için bir ikili düğüm oluşturun . Ve varsayım, olası değerlerin aralığının tüm giriş düğümleri için aynı olacağı varsayımıdır . Her iki olasılık için bir fotoğrafa bakın.

Bu konuyu araştırırken, bu konuda soğuk ve sert gerçekler bulamadım; Bana öyle geliyor ki - az çok - sonunda her zaman “deneme yanılma” olacak. Tabii ki, her ayrık giriş değeri için ikili düğümler daha fazla giriş katmanı düğümü (ve dolayısıyla daha gizli katman düğümleri) anlamına gelir, ancak bir düğümde aynı değerlere sahip olmaktan çok daha iyi bir çıkış sınıflandırması üretir, gizli katman?

Bunun sadece "dene ve gör" olduğunu kabul eder misin yoksa bu konuda başka bir fikrin var mı? Birinci olasılık: olası değerlerin doğrudan girişi {1; 3} İkinci olasılık: her bir giriş değerini bir ikili düğüm alın

Yanıtlar:


11

Giriş değişkenlerinin ikilik biçime dönüştürülüp dönüştürülmeyeceği, giriş değişkenine bağlıdır. Sinir ağı girişlerinin bir tür "yoğunluğu" temsil ettiğini düşünebilirsiniz: yani, giriş değişkeninin daha büyük değerleri, bu giriş değişkeninin daha yüksek yoğunluğunu temsil eder. Sonuçta, ağın sadece bir girişi olduğu varsayılarak, ağın belirli bir gizli düğümü işlevini öğrenecektir . burada , transfer fonksiyonudur (örneğin sigmoid) ve giriş değişkenidir.f(wx+b)fx

Bu kurulum kategorik değişkenler için anlamlı değildir. Kategoriler sayılarla temsil ediliyorsa, onlara işlevini uygulamak mantıklı değildir . Örneğin, giriş değişkeninizin bir hayvanı temsil ettiğini ve koyun = 1 ve inek = 2 olduğunu hayal edin. Koyunları ile çoğaltmak ve ona eklemek mantıklı değildir, ayrıca ineğin her zaman koyundan daha büyük olması da mantıklı değildir. Bu durumda, ayrık kodlamayı ikili, 1-of- kodlamasına dönüştürmelisiniz.f(wx+b)wbk

Gerçek değerli değişkenler için, onları gerçek değerli bırakın (ancak girdileri normalleştirin). Örneğin, biri hayvan diğeri hayvan sıcaklığı olmak üzere iki giriş değişkeniniz olduğunu varsayalım. Hayvanı 1-of- dönüştürürsünüz , burada = hayvan sayısı ve sıcaklığı olduğu gibi bırakırsınız.kk


Kısaca, değişkenlerin ölçeğine işaret ediyorsunuz: metrik, sıralı ve nominal. Bence nominal ölçeklerin bir işlevle "hesaplanamadığı" veya temsil edilemeyeceği açıktır. Gerçek değerlerle ilgili olarak, sizin gibi gerçek değerlerin, daha yumuşak geçişler nedeniyle "sınıflandırılmış" gerçek değerlerden "daha iyi" olabileceğini düşünüyorum, ancak bununla ilgili kesin bir kanıt bulamadım. Bana bir "deneme yanılma" vakası gibi geliyor.
cirko

4

Evet var. Hedefinizin bir ikili sınıflandırıcı oluşturmak olduğunu hayal edin. Daha sonra sorununuzu, bir özellik vektörü verildiğinde sonucun bir sınıfa veya karşı tarafa ait olduğu bir Bernoulli dağılımını tahmin etmek olarak modellersiniz. Böyle bir sinir ağının çıktısı şartlı olasılıktır. 0,5'ten büyükse, onu bir sınıfa, yoksa diğer sınıfa ilişkilendirirsiniz.

İyi tanımlanabilmesi için, çıkışın 0 ile 1 arasında olması gerekir, bu nedenle etiketlerinizi 0 ile 1 olarak seçersiniz ve çapraz entropiyi en aza indirirsiniz, burada ağınızın çıktısıdır ve , egzersiz örnekleriniz için hedef değerlerdir. Bu nedenle, . y ( x ) t t { 0 , 1 }

E=y(x)t(1y(x))1t
y(x)tt{0,1}

Bu, ağın ürettiği ikili çıkışlara daha çok benzediğinden, normalleştirilmiş bir girişin değişken giriş değerleri aralıklarında tercih edileceğini anlıyorum. Ama sorum, belirli bir aralığın normalleştirilmiş ayrık değerlerine atıfta bulunmak istedim , yani girdiler bir aralık içinde olabilirse, tüm düğümler aynı aralığa sahip olmalı, yani normalleştirilmelidir. Bu durumda, her ayrık değer için ikili düğümlerin kullanılması yine de tercih edilebilir mi? (Şimdi bu ön koşulu karşılamak için soruyu düzenledim)
cirko

1

Bir problem çözerken de aynı ikilemle karşılaştım. Her iki mimariyi de denemedim, ancak benim girişim, eğer giriş değişkeni ayrıksa, sinir ağının çıkış fonksiyonu dürtü işlevi özelliğine sahip olacak ve sinir ağı dürtü işlevini modellemede iyi olacaktır. Aslında herhangi bir fonksiyon, sinir ağının karmaşıklığına bağlı olarak değişen hassasiyetle sinir ağı ile modellenebilir. Tek fark, ilk mimaride, giriş sayısını arttırmanızdır, böylece dürtü işlevini modellemek için ilk gizli katmanın düğümünde daha fazla ağırlık elde edersiniz, ancak ikinci mimari için ilk mimariye kıyasla gizli katmandaki daha fazla düğüme ihtiyacınız vardır aynı performansı elde etmek için.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.