İşte son zamanlarda öğrendiklerim.
Açıkçası, metin üretimi RNN'lerden bahsederken, RNN dil modellerinden bahsediyoruz. Hakkında soran kelime / karakter tabanlı metin nesil RNNs, biz Sorduğunuz kelime / karakter tabanlı RYSA dil modelleri (LM).
Kelime tabanlı LMS görüntüler daha yüksek doğruluk ve daha az hesaplama maliyeti daha karakter tabanlı İcracı.
Bu performans düşüşü olduğu olası da uzun Kısa süreli bellek (LSTM) tekrarlayan ağlar daha iyi bir kelime bazlı girdi çalışmak beri nedeniyle yakalama uzun kısa süreli belleğe karakter seviyesi modeli için zorluk.
Bunun nedeni, char tabanlı RNN LM'lerin uzun vadeli bağımlılıkları başarılı bir şekilde modellemek için çok daha büyük gizli katman gerektirmesidir, bu da daha yüksek hesaplama maliyetleri anlamına gelir.
Bu nedenle şunu söyleyebiliriz:
kelime seviyesi ve karakter seviyesi modelleri arasındaki temel farklılıklardan biri , RNN'nin eğitim ve test sırasında erişmesi gereken parametre sayısıdır . RNN'nin giriş ve çıkış katmanı ne kadar küçükse, modelin eğitimini pahalı hale getiren tam bağlı gizli katman olması gerekir.
Ancak, karakter tabanlı kullanma vb Finish, Türkçe, Rusça olarak zengin bir morfolojiye sahip RYSA LMS daha iyi bir model dilleri kelime bazlı bu tür dilleri modellemek için RYSA LMS hiç mümkünse zordur ve tavsiye edilmez.
Yukarıdaki analiz, özellikle char tabanlı RNN'ler tarafından üretilen çıktı metnine baktığınızda mantıklıdır:
Yatırımcıların şaşırtması para toplamayacaktı. Ben hızla ilginç olan zamanla şirket değilim, aynı programcılardan kurtulmak zorunda değilsiniz.
13 karakterlik pencereye sahip basit karakter tabanlı Maksimum Olabilirlik LM bunu sağlar:
Ve birçok sağlam tuğla yaptığında. Onları üst üste yığdı ve ayaklarını çaldı. Doktor ona bir yarasa teşhisi koydu. Kız ve erkek arkadaşı ona çıkma teklif etti.
Tabii ki örneği aldım (aslında ML LM örneklerinin çoğu şimdiye kadar okuduğum RNN tarafından üretilen herhangi bir metinden daha iyi görünüyordu) ve bu küçük ML LM daha basit bir corpus üzerinde eğitildi, ancak fikri anladınız: doğrudan koşullu olasılık daha iyi üretir metinler çok daha karmaşık karakter tabanlı RNN'den daha fazla .
Karakter tabanlı RNN LM'ler, çok çeşitli diller için dizileri dilbilgisel olarak düzeltebilir, daha büyük gizli katman ve hesaplamalı olarak daha pahalı gerektirirken, kelime tabanlı RNN LM'ler daha hızlı antrenman yapar ve daha tutarlı metinler oluşturur ve yine de bu üretilen metinler bile gerçek anlamda anlamlı olmaktan uzaktır .