Lovelace Test 2.0 akademik bir ortamda başarıyla kullanıldı mı?


18

Ekim 2014'te, Dr. Mark Riedl , orijinal Lovelace Testinden (2001'de yayınlanan) esinlendikten sonra "Lovelace Test 2.0" adlı AI zekasını test etmek için bir yaklaşım yayınladı. Mark, orijinal Lovelace Testinin geçmesinin imkansız olduğuna inanıyordu ve bu nedenle daha zayıf ve daha pratik bir versiyon önerdi.

Lovelace Testi 2.0, bir yapay zekanın akıllı olması için yaratıcılık sergilemesi gerektiğini varsayar. Makalenin kendisinden:

Lovelace 2.0 Testi şu şekildedir: yapay ajan a aşağıdaki gibi zorlanır:

  • a, t tipinde bir artefakt yaratmalıdır;

  • o ci ∈ C'nin doğal dilde ifade edilebilir herhangi bir kriter olduğu bir dizi kısıtlamaya uymalıdır;

  • t ve C'yi seçmiş olan bir insan değerlendirici h, o'nun t'nin geçerli bir örneği olması ve C'yi karşılaması; ve

  • bir insan hakem r, ortalama bir insan için gerçekçi olmamak üzere t ve C kombinasyonunu belirler.

Bir insan değerlendiricinin bir yapay zekanın yenmesi için bazı kolay kısıtlamalar bulması mümkün olduğundan, insan değerlendiricinin AI başarısız olana kadar yapay zeka için giderek daha karmaşık kısıtlamalar getirmeye devam etmesi beklenir. Lovelace Test 2.0'ın amacı Turing Test'in yaptığı gibi 'istihbarat' ve 'istihbarat dışı' arasında kesin bir ayrım çizgisi sağlamak değil, farklı AI'ların yaratıcılığını karşılaştırmaktır .

Bununla birlikte, bu testin gerçekten akademik bir ortamda kullanılıp kullanılmadığını merak ediyorum ya da şu anda sadece bir düşünce deneyi olarak görülüyor. Lovelace Testinin akademik ortamlarda uygulanması kolay görünüyor (sadece yapay ajanı test etmek için kullanabileceğiniz bazı ölçülebilir kısıtlamalar geliştirmeniz gerekiyor), ancak aynı zamanda çok öznel olabilir (insanlar belirli kısıtlamaların esası hakkında hemfikir olmayabilir ve bir yapay zeka tarafından üretilen yaratıcı bir eser aslında nihai sonuca ulaşır).

Yanıtlar:


5

Hayır.

TL; DR: Lovelace Testi 2.0 çok belirsizdir ve zekanın değerlendirilmesi için uygun değildir. Ayrıca, yaratıcılığı değerlendirmek için zaten kendi testleri olan Hesaplamalı Yaratıcılık araştırmacıları tarafından göz ardı edilir.

Daha Uzun Cevap: Google Akademik'e göre, "Lovelace Test 2.0" makalesine 10 referans var. Tüm bu referanslar sadece Lovelace Test 2.0'ın mevcut olduğuna işaret etmek için var. Aslında, danıştığım makalelerin en az ikisi ( İnsana benzeyen bir öz bilinçli davranışı tanımlamak için yeni bir yaklaşım ve FraMoTEC: Uyarlanabilir Kontrol Sistemlerini Değerlendirmek için Modüler Görev-Çevre İnşası için Çerçeve ) kendi testlerini önerdi .

FraMoTEC belgesini yazan yazarlardan biri de tezini FraMoTEC üzerine yazdı ve dolaylı olarak Lovelace Testi 2.0 ve benzeri benzer testleri eleştirdi:

Piaget-MacGyver Odası problemi [Bringsjord ve Licato, 2012], Lovelace Test 2.0 [Riedl, 2014] ve Toy Box problemi [Johnston, 2010] hepsi çok belirsiz bir şekilde tanımlanma uyarısı ile geliyor - bu değerlendirme yöntemleri muhtemelen gelebilir istihbarat için makul bir değerlendirme yapmakla birlikte, kendi alanlarına özgü değerlendirmelerinde yer alan iki farklı aracıyı (veya denetleyiciyi) karşılaştırmak çok zordur;

Lovelace Test 2.0 ile ilgili bir başka önemli sorun , AI'nın yaratıcılığını "ölçmek" için başka testlerin çoğalmasıdır . Değerlendirmenin Değerlendirilmesi: Anna Jordanous tarafından 2011 yılında yayınlanan ( Lovelace Testi 2.0'ın icadından 3 yıl önce ) Hesaplamalı Yaratıcılık Araştırmalarındaki Gelişmenin Değerlendirilmesi AI yaratıcılığı hakkındaki araştırma makalelerini analiz etti ve şunları yazdı:

Sistemlerinin yaratıcılığını değerlendirmek için yaratıcılık değerlendirme metodolojilerini uygulayan 18 makaleden, toplumda standart olarak tek bir metodoloji ortaya çıkmadı. Colton'un yaratıcı tripod çerçevesi ( Colton 2008 ) en çok (6 kullanım), Ritchie'nin ampirik ölçütlerini kullanan 4 makale ile kullanılmıştır ( Ritchie 2007 ).

Bu , çeşitli yaratıcılık değerlendirme yöntemleri ile 10 makale bırakmaktadır .

"Değerlendirmeyi Değerlendirme" nin amacı, çok fazla yaratıcılık testinin çoğalması nedeniyle alanın durgunlaşmasını önlemek için yaratıcılığı değerlendirme sürecini standartlaştırmaktı. Anna Jordanous, yaratıcılık testlerini değerlendirmek, "İlerleme İlerlemesine Geri Dönmek: Hesaplamalı Yaratıcılığın Meta-Değerlendirilmesi için Standartlar Belirlemek" ve Dört PPPP Hesaplamalı Yaratıcılık Perspektifi gibi makaleler yayınlamakla ilgilenmeye devam etti .

"Değerlendirmeyi Değerlendirme", yaratıcılığı değerlendirmek için sistemlerin çoğalmasını açıklamak için bazı yorumlar sunar:

Değerlendirme standartlarını tanımlamak kolay değildir. Yaratıcılığı değerlendirmek zordur ve yaratıcılığı, insan yaratıcılığını ve hesaplama yaratıcılığını nasıl değerlendirdiğimizi tanımlamak daha da zordur. Aslında, yaratıcılığın tanımı bile sorunludur (Plucker, Beghetto ve Dow 2004). 'Yaratıcı olmanın' neyi gerektirdiğini belirlemek zordur, bu nedenle ölçülecek hiçbir ölçüt veya temel gerçek yoktur.

Çok fazla yaratıcılık testinin zaten mevcut olması (Jordanous'un onları incelemek için akademik bir kariyer yapabileceği ölçüde), herhangi bir yeni testin (Lovelace Testi 2.0 gibi) fark edilmesinin (çok daha az alıntılanması) çok zor olduğu anlamına geliyor. ). Bunun yerine kullanabileceğiniz çok fazla test olduğunda neden Lovelace Test 2.0 gibi bir şey kullanmak istersiniz?

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.