Motivasyonu uygulamak için mevcut yöntem bir tür yapay ödültür. Örneğin Deepmind'in DQN'si oyunun skoruyla yönlendirilir. Puan ne kadar yüksek olursa o kadar iyidir. AI en yüksek puanı ve dolayısıyla en yüksek ödülü almak için eylemlerini ayarlamayı öğrenir. Buna takviye eğitimi denir . Ödül , yapay zekayı hareketlerini uyarlaması için motive ediyor.
Daha teknik bir terimde AI, uygulanan yardımcı program işlevine bağlı olan yardımcı programı en üst düzeye çıkarmak istiyor . DQN durumunda, bu oyundaki puanı en üst düzeye çıkarır.
İnsan beyni benzer bir şekilde işlev görür, ancak biraz daha karmaşık ve çoğu zaman düz değildir. İnsanlar olarak genellikle eylemlerimizi yüksek bir dopamin ve serotonin çıkışı üretmek için ayarlamaya çalışıyoruz . Bu, takviye öğrenimi sırasında AI'ları kontrol etmek için kullanılan ödüle benzer. İnsan beyni, hangi maddelerin bu maddelerin en fazla miktarını ürettiğini öğrenir ve çıktıyı en üst düzeye çıkarmak için stratejiler bulur. Bu, elbette, bu karmaşık sürecin basitleştirilmesidir, ancak resmi elde edersiniz.
Motivasyon hakkında konuşurken, lütfen onu bilinç veya nitelik ile karıştırmayın . Bunlar hiç motivasyon için gerekli değildir. Yapay zekadaki bilinç ve nitelikleri tartışmak istiyorsanız, bu tamamen farklı bir top oyunudur.
Bir çocuk merak uğruna merak etmez. Keşfederken olumlu pekiştirir, çünkü çocuğun beyninin yararlı işlevi, ödüllendirici nörotransmitterleri serbest bırakarak keşfi ödüllendirir. Yani mekanizma aynı. Bunu AI'ye uygulamak, yeni deneyimleri ödüllendiren bir yardımcı program işlevi tanımlamak anlamına gelir. Bir çeşit takviye ödülü olmadan içsel bir tahrik yoktur.