Makine çevirilerinin asıl kalitesi nedir?


27

Bugüne kadar I - AI uzmanı olarak - otomatik çevirinin vaat edilen ve elde edilen iyileştirmeleri ile kafam karıştı.

Benim izlenim şudur: Hala gitmek için çok çok uzak bir yol var. Veya oldukça basit Wikipedia makalelerinin otomatik olarak çevirilerinin (örneğin Google tarafından sunulan ve Google tarafından sağlanan) hala aptalca okuyup ses çıkarmasının, zor okunabilir ve sadece kısmen yardımsever ve yararlı olduğuna dair başka açıklamalar var mı?

Kişisel tercihlere bağlı olabilir (okunabilirlik, yardımseverlik ve kullanışlılık ile ilgili), ancak kişisel beklentilerim şiddetle hayal kırıklığına uğradı.

Diğer yol: Google’ın çevirileri yine de çoğu kullanıcı için okunabilir, yardımcı ve yararlı mı?

Veya Google’ın başarılarını korumak için nedenleri var (ve kullanıcılara gösterebileceklerini en iyi şekilde göstermemek)?


Ön sonuç: Yapay zekâlarla eşit bir temel ve anlayışla konuşabilmekten hala uzaktayız - sadece karakter dizileri düzeyinde. Öyleyse neden korkmalıyız? Çünkü bildiğimizden daha çok şey biliyorlar - ama biz bilmiyoruz?


2
Makine çevirisi zor bir sorundur, çünkü modern teknikler çevrilecek metni anlamaya çalışmaz. Bu, çoğu durumda az ya da çok çalışır, ancak olağanüstü şekilde başarısız olabilir. Ben şahsen bunu düşünüyorum - bunu akılda tutarak - çoğu çeviri yardımcı oluyor ve MT şirketlerinin geri aldıklarına inanmak için hiçbir nedenim yok. Belki de ticari olarak daha hassas olan ancak geniş genel MT olmayan, etki alanına özgü bazı uygulamalar.
Oliver Mason

@OliverMason: "Modern teknikler çevrilecek metni anlamaya çalışma" - söylenecek özün bu mu? MT'nin sonuçlarını nasıl anladım? Yeterince üzücü. (AI topluluğundan bazı çelişkiler memnuniyetle karşılanacaktır!)
Hans-Peter Stricker

1
@ Hans-PeterStricker: Pekala, Fred Jelinek'in dilbilimcileri kovmanın konuşma tanıyıcıyı daha doğru yaptığını fark etmesiyle başladı . O zamandan beri, çeşitli makine öğrenmesi biçimleri kurala dayalı AI'yı üstlendi ve şimdi çoğu AI sisteminin "gerçekten nasıl çalıştığını" - belki de stokastik düzeyde hariç - en ufak bir fikre sahibiz.
Kevin,

2
@ Hans-PeterStricker Modern bir AI sistemini bir şeyi 'anlamak' olarak düşünmek gerçekten yararlı değil. Bunu bir dizi girdi alan ve bir dizi çıktı oluşturan bir sistem olarak düşünün. Girdi bir İngilizce metin olabilir ve çıktı bir İspanyolca metin olabilir. Sistem bunu bir sürü İngilizce metinden ve eşdeğer İspanyolca metinlerinden 'öğrendi'. Bu İngilizce'yi mi yoksa İspanyolca'yı mı anladığını mı gösteriyor? Bu daha çok felsefe meselesi. Pratikte önemli olan, bir derece güvenilirlikle İngilizceyi İspanyolcaya dönüştürebilmesi.
Josh Eller,

Cevaplarda hafifçe değindi, ancak cevabın büyük ölçüde bahsettiğiniz dil çiftlerine bağlı olduğunu göstermeye değer olduğunu düşünüyorum. Diyelim ki ingilizce <-> ispanyolca, ingilizce <-> japondan çok daha fazla.
mbrig

Yanıtlar:


21

Makine çevirisinin insan tercümanı kadar iyi olduğunu kim iddia etti? Benim için, 35 yıldır çeviri hayatını sürdüren profesyonel bir tercüman olarak MT, kaynak metnin karmaşıklığına bağlı olarak günlük insan kalitesi çeviri üretimimin 3 ila 5 kat arttığı anlamına geliyor.

MT'nin kalitesinin yabancı dil girdisinin uzunluğuyla düştüğünü kabul edemem. Bu, anlamsal ve gramersel analizleri olan eski sistemler için geçerliydi. Tüm eski sistemleri bildiğimi sanmıyorum (Systran'ı, Siemens'ten bir şirketten diğerine bir Danaer'in hediyesi, XL8, Kişisel Tercüman ve Tercüme gibi sattığım beş parasız bir araç olduğunu biliyorum), hatta profesyonel bir sistem bile biliyorum. yatırım yaptığım 28.000 DM (!!!!) sefil başarısız oldu.

Örneğin, cümle:

Bu sıcak yaz gününde çalışmak zorunda kaldım ve kıçımdaki bir acıydı.

Birkaç MT aracı kullanılarak Almanca'ya çevrilebilir.

Kişisel Tercüman 20 :

Auf diesem heißen Sommertag musche ich arbeiten, und ees ee Schmerz im Esel.

İstemi :

Schmerz im Esel ve Warner Sommertag'ın canavarı arbeiten.

DeepL :

Diesem heißen Sommertag musste ich arbeiten und war eine Qual.

Google:

Schmerz im Arsch’ın en büyük savaşlarından biri olan Sommertag mustel ich.

Bugün, Google genellikle bana okunabilir, neredeyse doğru çeviriler sunuyor ve DeepL daha da iyi. Sadece bu sabah 3500 kelimeyi 3 saat içinde çevirdim ve kaynak metin hatalarla dolu olmasına rağmen (Çince tarafından yazılmıştı) sonuç kusursuz.


4
Almanca bilmeyenler için, bu alternatiflerden hangisinin iyi ve kötü olduğu belli değil. "Esel" in "eşek (hayvan)" ve "Arsch" in "eşek (vücut kısmı)" olduğunu biliyorum. "Qual" in ne anlama geldiğini veya "ein Schmerz im Arsch" in kabul edilebilir olup olmadığını bilmiyorum.
Stig Hemmer

3
"Schmerz im Esel" komik (ve yanlış). "Arsch", yazılı Almanca olarak kullanmayacağınız oldukça konuşma dilidir. "Qual", "acı" dır, bu yüzden cümle gerçek acıdan ziyade sıkıntı ifade ettiğinden, doğru olmasa da, daha iyi bir seçimdir.
Oliver Mason

1
@OliverMason Qual iyi bir çeviridir
yunzen

4
@OliverMason Ben asıllı bir Alman konuşmacısıyım ve çok iyi
uyduğunu düşünüyorum

5
@OliverMason “kıçından ağrı” bir deyimdir. “Schmerz im Arsch” değil: kimse öyle demiyor. “Qual”, söylediklerinizin aksine, gerçek, fiziksel acıyı nadiren gösteren (ve aynı şekilde “Qual” in hem gerçek hem de figüratif ağrı olabileceği) İngilizce deyimin doğru bir çevirisidir. Başka bir bağlam olmadan DeepL çeviri mükemmel görünüyor.
Konrad Rudolph

7

Google’ın çevirileri yararlı olabilir , özellikle çevirilerin mükemmel olmadığını biliyorsanız ve metnin anlamı hakkında bir fikir edinmek istiyorsanız (Google’ın çevirileri bazen oldukça yanıltıcı veya yanlış olabilir). Google’ın çevirisini (veya insan dışı herhangi bir çevirmeni) ciddi bir çeviri yapmasını tavsiye etmem, muhtemelen ortak bir cümle veya kelime olmadığı sürece, çok uzun metinler ve gayrı resmi bir dil (veya argo) içermez, çeviriler İngilizce dili veya bir insan çevirmene erişiminiz yok.

Google Çeviri şu anda sinirsel bir makine çeviri sistemi kullanıyor . Bu modeli (ve benzer modelleri) değerlendirmek için, BLEU metriği ( 100'ün insan altın standart çevirisine tekabül ettiği 0 ile 100 arasında bir ölçek ) ve yan yana değerlendirmeler (bir insan çevirileri değerlendirir) kullanılmıştır. Yalnızca BLEU metriğini kullanırsanız, makine terazileri oldukça zayıftır (ancak BLEU metriği de mükemmel bir değerlendirme metriği değildir, çünkü verilen cümlenin birden fazla çevirisi vardır). Ancak, GNMT, öbek tabanlı makine çevirisine (PBMT) kıyasla çeviri hatalarını azaltır100 .

Yazıda AI Anlamlı Bir Kez Daha yapma , yazarlar da olduğuna inanılmaktadır çevirinin görevin zorluk (tartışmak AI-tam problem ). Ayrıca söz transformatör (metrik BLEU kullanılarak değerlendirilmiştir) oldukça kötü sonuç elde (başka bir state-of-the-art makine çevirisi modeli).

Sonuç olarak, makine çevirisi zor bir sorundur ve mevcut makine çevirisi sistemleri kesinlikle profesyonel bir tercüman kadar iyi performans göstermemektedir.


100 BLEU puanı, insan altın standart çeviri anlamına gelmez, referans çeviriyle tam olarak eşleşir. Bir cümleyi çevirmenin genellikle birden fazla yolu olduğu için, insan çevirisinde bile genellikle 100 BLEU yoktur, ancak daha çok 50-60 olur.
justhalf

@justhalf Cevabımı tekrar oku.
nbro

1
Cevabınız için teşekkürler ve önceki yorumum kaba görünüyorsa üzgünüm. Önceki yorumumdaki noktam, insan çevirisinin 100 BLEU puanı alacağı izlenimini vermenin yanlış olduğu ve şu anki cevabınız gibi görünüyor.
justhalf

Sadece bunu dedim ya 100insan "altın standart" çevirisine karşılık gelir. Bununla birlikte, BLUE metriğinin mükemmel olmadığını da belirtiyorum, çünkü genellikle bir metnin birden fazla çevirisi vardır.
nbro

5

Bazıları kesin olarak cevaplanamayan birçok soru sordunuz. Makine çevirilerinin kalitesine (ve tarihine) ilişkin bir fikir vermek için , dersinde sunulduğu şekliyle, 'bir cümle değerlendirme ölçütünü' Christopher Manning'e atıfta bulunmayı seviyorum . Google Translate çıktısıyla karşılaştırılan bir Çince - İngilizce örneği içerir. Örnek için doğru çeviri şöyle olacaktır:

1519'da, altı yüz İspanyol Aztek İmparatorluğunu birkaç milyon nüfusuyla ele geçirmek için Meksika'ya indi. İlk çatışmada askerlerinin üçte ikisini kaybettiler.

Google Çeviri aşağıdaki çevirileri verdi.

2009 1519 600 İspanyollar, Aztek imparatorluğunu ele geçirecek milyonlarca insan, askerlerin üçte ikisini kaybettikleri zamana karşı indi.

2011 1519 600 İspanyol, Aztek imparatorluğunu ele geçirecek milyonlarca insan, ilk asker kaybı, karşılaşmalarının üçte ikisi.

2013 1519 600 İspanyol, Aztek imparatorluğunu fethetmek için Meksika'ya indi, yüz milyonlarca insan, ilk üçte ikilik asker kaybını kaybetti.

2015 1519 600 İspanyol, Meksika'ya indi, milyonlarca insan Aztek imparatorluğunu ele geçirdi, asker kaybının ilk üçte ikisi çarpıştı.

2017 1519'da Meksika'da, Aztek imparatorluğunun milyonlarca insanını ele geçirmek için Meksika'ya indi, ilk üçte ikisini öldürdüler.

Google’ın en iyi sonuçları elde edip etmediğini veya gizleyip gizlemediği: Bundan şüpheliyim. Doğal dil işleme (NLP) alanında çalışan birçok mükemmel araştırmacı vardır. Google'ın çeviri için 'en büyük başarıya sahip olması' durumunda, araştırmacılar er ya da geç anlarlar. (Google neden yine de 'en büyük başarılarını' gizlesin? Açık kaynağın faydasını görüyorlar, Transformer [1] veya BERT [2] 'ye bakınız)

NB. NLP'deki son teknoloji algoritmaların güncellenmiş bir listesi için, SQuAD2.0 lider tablosuna bakın. .

[1] Vaswani, Ashish ve ark. "Dikkat, ihtiyacın olan tek şey." Sinir bilgi işlem sistemlerinde gelişmeler. 2017.

[2] Devlin, Jacob ve ark. "Bert: Dil anlayışı için iki yönlü transformatörlerin ön eğitimi." arXiv ön baskı arXiv: 1810.04805 (2018).


"İyi dengelenmiş araştırmacılar" bağlantısı için çok teşekkür ederiz. Tazminat sahibi olmak her zaman işleri daha iyi anlamaya yardımcı olur (bu bağlantıyı ayarlarken ne düşündüğümü bilmeme rağmen).
Hans-Peter Stricker

Argüman da çok sağlam değildi. Bağlantıyı kaldırdınız ve tartışmayı geliştirmeye çalıştım. Çok sayıda NLP makalesi okudum ve bulgularıma oldukça güveniyorum, ancak bu tartışmaya destek bulmak zor.
RikH,

Lütfen bulduklarınız hakkında bana bilgi verin (sakıncası yoksa). Posta adresimi profil sayfamda bulabilirsiniz.
Hans-Peter Stricker

1
2019 :In 1519, 600 Spaniards landed in Mexico to conquer the Aztec empire of millions of people, and they first met two-thirds of their soldiers.
Dan M.

4

Bu gerçekten dil çiftine ve içeriğin konusuna bağlı. İngilizceden İngilizceye veya başka bir dile geçmek genellikle en iyi şekilde desteklenir. Popüler dillere ve popüler dillere çeviri yapmak daha iyi sonuç verir, örneğin İngilizceden Rumence'ye çeviri İngilizceden Rusçaya daha kötü bir çeviridir. Fakat İngilizceden Rusça veya Romence'ye çeviri, Rusça'yı Romence'ye çevirmekten daha iyidir. Ve Romence'yi İngilizceye çevirmek, İngilizceyi Romence'ye çevirmekten daha iyidir.

Ancak, tercümanlarla çalışmaya alışkınsanız ve dilleri, çeviri hatalarını ve konuyu çok iyi aşinaysanız, orada ne olması gerektiğini anlamak kolaydır. Ve bu noktada, bazen hızlı tarama için anadilinize çevrilmiş bir şeyi okumak, ikinci bir dilde okumaktan daha kolaydır.

Daha az popüler olan diller (zorunlu olarak konuşmacı sayısında olmayan çeviriler için) edebi çevirilere, tanımadığınız iki dilin sözlüğünü kullanarak kişisel olarak yapacağınızdan biraz daha iyidir.


2

Yanlış mıyım ve Google’ın çevirileri yine de çoğu kullanıcı için okunabilir, yardımcı ve faydalı mı?

Evet, biraz yardımcı oluyorlar ve daha hızlı çeviri yapmanıza izin veriyorlar.

Veya Google’ın en büyük başarılarını elde etmek için nedenleri var (ve kullanıcılara gösterebileceklerini en iyi şekilde göstermemek)?

Belki bilmiyorum. Bilgi ararsanız, Google, kullanıcıların internette söylediklerini öğrenmek, güvenilir girdi veri setleri olarak uygun olmayan verileri almak gibi gerçekten de çok aptalca şeyler yapar.


2

İngilizce yazmadığım için özür dilerim. Lütfen uyarlanmış çeviriyi burada bulun:

İlgilenen kişilere MT'nin (DeepL) kalitesi hakkında bir fikir vermek için, lütfen bu sabah bu sabah üzerinde çalıştığım bir metinden bakın (6.300 kelime, sabah 9'da başladı, bugün öğleden sonra teslim ve hala bu yazı için zaman buluyor). Yorum yazarken bu cümle üzerinde çalışıyordum (201 kelime).

ya da bu Web Sitesinde oturum açmamışsanız ya da bu Web sitesinin altyapısına uygun olmayan bir şekilde yüklenirken ya da uygun olmayan bir şekilde yüklenirken, bu işlem sırasında gerçekleşen ya da aktif olan herhangi bir işlem; veya (e) Bu Web Sitesinin herhangi bir sayfasını "taramak", "kazımak" veya "örümcek" için manuel veya otomatik yazılım, aygıt veya diğer işlemleri kullanın; veya (f) Bu Web Sitesinin kaynak kodunu decompile, ters mühendis veya başka türlü girmeye çalışmak. "

DeepL bunu döndürür:

Güney Amerika’nın en genç, garantili ve en son derece güçlü ABC’sinin kurbanı, Sie ’, icht a a a: a a (a a a a a (a) oder (b) Mitteilungen oder Aufforderungen, cömert enerjik mürettebat sicakları, Passwörter, Özel bilgi ve hizmetler Nutzern dieser İnternet sitesi zu erhalten, zu posten oder zu übertragen oder posten oder zu posten ya da zer üreer; ender (c) ölmek Sicherheit eines Computernetzwerks verletzen, Passwörter oder Sicherheitsverschlüsselungscodes knacken, kaçakçılar Materyal ausdrücklich verboten sind ölmek; oder (d) Mailliste, Listerver oder jede andere Otomatik Yanıtlayıcı ya da "Spam" auf dieser web sitesi Formu web sitesi Prozesse, die ausgeführt werden oder aktiviert werden Belastung der Infrastruktur ölür Web sitesi stören; oder (e) manuel oder otomatiği yazılımı Yazılım, Gerçe oder veere Prozesse verwenden, um eine Dilimleyici Web sitesi zu "crawlen", zu kratzen, zu spinnen oder zu spinnen; oder (f) dekompilieren, zurückzuentwickeln oder anderweitig zu versuchen, den Quellcode dieser Web sitesi zu erhalten. ausgeführt werden oder aktiverert werden, während Sie nicht auf dieser Web sitesi angokelde sind, oder die anderweitig das ordnungsgemäße Funktionieren oder eer unangemessene Belastung der Infrastruktur dieser Web sitesi stören; oder (e) manuel oder otomatiği yazılımı Yazılım, Gerçe oder veere Prozesse verwenden, um eine Dilimleyici Web sitesi zu "crawlen", zu kratzen, zu spinnen oder zu spinnen; oder (f) dekompilieren, zurückzuentwickeln oder anderweitig zu versuchen, den Quellcode dieser Web sitesi zu erhalten. ausgeführt werden oder aktiverert werden, während Sie nicht auf dieser Web sitesi angokelde sind, oder die anderweitig das ordnungsgemäße Funktionieren oder eer unangemessene Belastung der Infrastruktur dieser Web sitesi stören; oder (e) manuel oder otomatiği yazılımı Yazılım, Gerçe oder veere Prozesse verwenden, um eine Dilimleyici Web sitesi zu "crawlen", zu kratzen, zu spinnen oder zu spinnen; oder (f) dekompilieren, zurückzuentwickeln oder anderweitig zu versuchen, den Quellcode dieser Web sitesi zu erhalten. zu kratzen, zu spinnen oder zu spinnen; oder (f) dekompilieren, zurückzuentwickeln oder anderweitig zu versuchen, den Quellcode dieser Web sitesi zu erhalten. zu kratzen, zu spinnen oder zu spinnen; oder (f) dekompilieren, zurückzuentwickeln oder anderweitig zu versuchen, den Quellcode dieser Web sitesi zu erhalten.

Bu paragrafın ayarlanması 5 ila 10 dakika sürdü.

Bir tercüman olarak, makine çevirisine güvenemeyeceğimi biliyorum, fakat zamanla farklı sistemlerin özelliklerini ve yeteneklerini öğrendim ve nelere dikkat edeceğimi biliyorum.

MT işimde bana çok yardımcı oluyor.


2
Bu alanda çok dilli metinler bir sürü olduğundan, yasal metinlerin daha iyi otomatik çeviriler sağladığına dikkat edin.
Quora

1

Bu bir yorum olarak bir cevap olmayacak.

Kalite (yukarıda Aaron'un söylediği gibi) 1) dil çifti ve 2) konu değil, aynı zamanda 3) cins ve 4) orijinalin stili ve 5) sahip olduğunuz paralel metinlerin miktarı da dahil olmak üzere çeşitli şeylere bağlıdır. MT sistemini eğitmek.

Aşamayı ayarlamak için, günümüzde neredeyse tüm MT, biri muhtemelen diğeri'nin çevirisi olan (ya da her ikisi de üçüncü bir dilin çevirisi olan) paralel metinlerden, yani iki farklı dilde bir metindir; ve paralel metinler belirli kelimeler içermediğinde, potansiyel olarak sözlükleri (belki de morfolojik süreçlerin desteklediği) geri dönüş olarak kullanmak.

Üstelik, başkalarının da söylediği gibi, bir MT sistemi, çevirdiği metinleri hiçbir şekilde anlamaz; sadece karakter dizilerini ve karakterlerden oluşan kelimelerin dizilerini görür ve daha önce çevrildiği metinlerdeki benzer dizileri ve dizileri arar. (Tamam, bundan biraz daha karmaşıktır ve hesaplamalı sistemlerde anlamsallık kazanma girişimleri olmuştur, fakat şimdilik çoğunlukla dizeleri vardır.)

1) Diller değişebilir. Bazı dillerin birçok morfolojisi vardır, bu da başka dillerin birkaç kelimeyle yaptığı tek bir kelimeyle şeyler yaptıkları anlamına gelir. Basit bir örnek İspanyolca 'cantaremos' = İngilizce olur "şarkı söyleriz". Ve bir dil, diğer dilin bile rahatsız etmeyeceği şeyleri yapabilir, örneğin İspanyolca'daki gayri resmi / biçimsel (tu / usted) ayrım gibi, ingilizceye denk değildir. Veya bir dil, başka bir dilin kelime sırasına göre yaptığı morfolojiyle şeyler yapabilir. Veya dilin kullandığı senaryo kelime sınırlarını bile işaretlemeyebilir (Çince ve diğerleri). İki dil ne kadar farklı olursa, MT sisteminin aralarında dönüşüm yapması o kadar zor olacaktır. İstatistiksel MT'da ilk deneyler Fransızca ve İngilizce arasında yapıldı.

2) Konu: İncil'de paralel metinleriniz varsa (bu, neredeyse her tür yazılı dil için geçerlidir) ve MT sisteminizi bunlardan kurtaracaksanız, mühendislik metinlerinde iyi iş yapmasını beklemeyin. (Eh, İncil, yine de MT sistemlerinin eğitimi standartlarına göre nispeten küçük bir metindir, ancak :-) gibi davranın.) İncil'in kelime bilgisi, mühendislik metinlerinden çok farklıdır ve bu nedenle çeşitli gramerlerin sıklığı da öyledir. yapılar. (Dilbilgisi temelde aynıdır, ancak İngilizce'de, örneğin, bilimsel ve mühendislik metinlerinde çok daha pasif bir ses ve daha fazla birleşik isimler elde edersiniz.)

3) Genera: Paralel metniniz tamamen bildirici ise (traktör kılavuzları gibi), sonuçta ortaya çıkan MT sistemini diyalogda kullanmaya çalışmak size iyi sonuçlar vermez.

4) Stil: Hilary'ye karşı Donald'ı düşünün; bilge karşı popüler. Birinde eğitim almak diğerinde iyi sonuçlar elde etmez. Aynı şekilde MT sistemini yetişkin seviyesindeki romanlarda eğitmek ve çocuk kitaplarında kullanmak.

5) Dil çifti: İngilizce'nin birçok metni vardır ve belirli bir İngilizce metne paralel olan başka bir dilde metin bulma şansı, Rusça ve Igbo'daki paralel metinleri bulma şansından çok daha yüksektir. (Bu, Hindistan'ın dilleri gibi istisnalar olabileceğini söyledi.) Genel bir genelleme olarak, bu tür paralel metinler MT sistemini ne kadar iyi eğitmek zorunda kalırsa, o kadar iyi sonuç verir.

Özetle, dil karmaşıktır (bu yüzden onu seviyorum - ben bir dilbilimci). Dolayısıyla, MT sistemlerinin her zaman iyi çalışmaması şaşırtıcı değildir.

BTW, insan çevirmenleri de her zaman bu kadar iyi yapmıyor. On yıl ya da iki yıl önce, MT sistemlerinde eğitim materyali olarak kullanılmak üzere insan çevirmenlerinden İngilizce'ye çeviriler alıyordum. Çevirilerin bazıları anlaşılmıyordu ve bazı durumlarda iki (ya da daha fazla) insan tercümandan çeviri aldığımız zaman, çevirmenlerin aynı belgeleri okuduğuna inanmak zordu.

Ve son olarak, (neredeyse) hiçbir zaman yalnızca bir doğru çeviri yoktur; İstediğiniz özelliklere (gramer doğruluğu, stil, kullanım tutarlılığı, ...) bağlı olarak, az ya da çok iyi olabilen bir pasajı çevirmenin birçok yolu vardır. "Hassaslık" için kolay bir önlem yoktur.


1

Şaşırtıcı bir şekilde, diğer tüm cevaplar çok belirsizdir ve buna insan tercüman POV'sundan yaklaşmaya çalışın. ML mühendisine geçelim.

Bir çeviri aracı oluştururken, göz önünde bulundurmamız gereken ilk sorulardan biri "Aracımızın çalışıp çalışmadığını nasıl ölçeriz?".

Temel olarak OP'nin sorduğu şey budur.

Şimdi bu kolay bir iş değildir (diğer bazı cevaplar nedenini açıklar). Makine çevirisi sonuçlarını değerlendirmenin farklı yollarından bahseden bir Wikipedia Makalesi var - hem insan hem de otomatik puanlar var ( BLEU , NIST , LEPOR gibi) ).

Sinir ağları tekniklerinin yükselmesiyle birlikte, bu puanlar önemli ölçüde iyileşmiştir.

Çeviri karmaşık bir sorundur. Doğru (ya da yanlış) gidebilen birçok şey var ve bilgisayar çeviri sistemi genellikle bir insan konuşmacı için öne çıkan inceliklerini görmezden geliyor.

Bence gelecek hakkında düşünecek olursak, güvenebileceğimiz çok az şey var:

  • Tekniklerimiz daha iyi, daha geniş şekilde bilinen ve test ediliyor. Bu uzun vadede doğruluğunu artıracak.
  • Daha önce göz ardı edilen değişkenleri hesaba katabilecek veya daha iyi bir iş çıkarabilecek yeni teknikler geliştiriyoruz.
  • Şu anda var olan çeviri modellerinin çoğu, diğer dilleri çevirmek için genellikle "yeniden kullanılıyor" (örneğin, "JEDEN" i Lehçe’dan Çince’ye (geleneksel) Google Tercüman kullanarak çevirmeyi deneyin; Google’ın Lehçe’yi İngilizce’ye, ardından İngilizce’yi Çince’ye çevirmesi). Bu açıkçası iyi bir yaklaşım değil - bu süreçte bazı bilgileri kaybedeceksiniz - ama yine de işe yarayacak bir yaklaşım, bu nedenle Google gibi şirketler yeterli iş gücü veya veriye sahip olmayan diller için kullanıyor. Zamanla, durumu iyileştirecek daha özel modeller ortaya çıkacaktır.
  • Ayrıca, önceki noktalarda belirtildiği gibi, giderek daha fazla veri sadece makine çevirisinin iyileştirilmesine yardımcı olacaktır.

Özetlemek gerekirse, bu karmaşık sorun çözülmemiş olmasına rağmen kesinlikle iyi bir yoldur ve iyi araştırılmış dil çiftleri için etkileyici sonuçlar alınmasını sağlar.


"Şaşırtıcı bir şekilde diğer tüm cevaplar ...", diğer tüm cevaplar değil. "Diğer bazı cevaplar" ya da "Diğer birçok cevaplar" derdim.
nbro

0

"Veya Google’ın başarılarını korumak için nedenleri var (ve kullanıcılara gösterebileceklerini en iyi şekilde göstermemek)"

Onlar olsaydı, o zaman tuttukları inanılmaz olurdu . Google , Doğal Dil İşlemede, son teknoloji ürünü sonuçları elde eden veya önemli kavramsal atılımlar da içeren çok sayıda güçlü makale yayınlamaktadır. . Ayrıca çok faydalı veri setleri ve araçları yayınladılar. . Google, mevcut araştırmaların son teknolojisini kullanmakla kalmayıp, literatüre aktif olarak katkıda bulunan birkaç şirketten biridir.

Makine çevirisi sadece zor bir problem. İyi bir insan tercüman olması gerekir , işi iyi yapmak için her iki dilde akıcı . Her dilin kendi deyimleri ve değişmez veya bağlamsal anlamı vardır. Sadece iki dilli bir sözlükten çalışmak korkunç sonuçlar doğurur (bir insan veya bilgisayar için), bu nedenle, kelimelerin gerçekte nasıl kullanıldığını öğrenmek için modellerimizi birden fazla dilde var olan varolan şirket üzerinde eğitmemiz gerekir (nb el-derlenmiş cümle çeviri tabloları özellik olarak kullanılabilir sadece hikayenin tamamı olamaz). Bazı dil çiftleri için, paralel kurumlar bol miktarda bulunur (örneğin, AB dilleri için için Avrupa Parlamentosu'nun tam işlemlerini yürütüyoruz).). Diğer çiftler için, eğitim verileri çok daha az bulunur. Ve eğer eğitim verilerimiz olsa bile, öğrenilmesi için yeterince sık görünmeyen daha az kullanılmış kelimeler ve ifadeler olacaktır.

Bu daha büyük bir problemdi, çünkü eş anlamlılarını hesaba katmak zordu. Eğitim verilerimiz "Köpek topu yakaladı", ancak "Köpek yavrusu topu yakaladı" ifadesi içermiyorsa, ikinci cümle için düşük olasılıkla sonuçlanır. Gerçekten de, bu gibi birçok durumda olasılığın sıfır olmasını önlemek için önemli bir düzleştirme gerekli olacaktır .

Sinir dili modellerinin son 15 yıl içerisinde ortaya çıkması, kelimeler arasındaki bağlantıları öğrenmeden önce kelimelerin gerçek değerli bir anlamsal alanla eşleştirilmesine izin vererek bu soruna büyük ölçüde yardımcı olmuştur . Bu, anlamsal olarak birbirine yakın olan kelimelerin anlamsal alanda da birbirine yakın oldukları modellerin öğrenilmesine olanak sağlar ve dolayısıyla bir kelimenin eş anlamlısı için değiştirilmesi, cümlenin olasılığını büyük ölçüde etkilemeyecektir. word2vecbunu çok iyi gösteren bir modeldir; örneğin, "kral" için semantik vektörü alabildiğinizi, "adam" için vektörü çıkarabildiğinizi, "kadın" için vektör ekleyebileceğinizi ve elde edilen vektöre en yakın kelimenin "kraliçe" olduğunu bulabildiğinizi gösterdi. Sinirsel dil modellerinde araştırma ciddiyetle başladığında , şaşkınlıkta derhal ve büyük düşüşler görmeye başladık (yani modellerin doğal metinle nasıl karıştığını) ve şimdi BLEU puanlarında (yani çeviri kalitesi) buna bağlı artışlar görüyoruz. dil modelleri makine çeviri sistemlerine entegre edilmiştir.

Makine çevirileri hala kaliteli insan çevirileri kadar iyi değillerdir ve tamamen yapay bir AI alamadıkça o kadar da iyi olmazlar . Ancak iyi insan tercümanları pahalıdır, İnternet erişimi olan herkesin makine tercümanı vardır. Soru, insan çevirisinin daha iyi olup olmadığı değil, makinenin bu kalite seviyesine ne kadar yaklaştığıdır. Bu boşluk küçülüyor ve küçülmeye devam ediyor.


Bu yaklaşımı sevmiyorum - ama bu bir zevk ve düşünce meselesi. "Öğrenen / bilgiyi / anlayışı" çevirmeden, sadece "insan çevirmenleri pahalı" olduğu için yapmak beni üzüyor. Öyleyse çeviri neyle ilgili?
Hans-Peter Stricker

@ Hans-PeterStricker Çeviri, ortak bir dili paylaşmadığınız insanlarla iletişim kurabilmeyle ilgili. Makine çevirisi şu anda bunu biraz iyi yapmamıza izin verecek kadar iyidir, ancak sonuçta elde edilen çeviriler çoğu zaman programlama dışı veya yerel olmayan bir konuşmacı gibi ses çıkarır. (devam ...)
Ray

"Öğrenilmiş / bilgili / anlayışlı" derken ne kastettiğinize bağlı olarak, bunu zaten yapıyor olabiliriz. Anlamsal bir vektörle haritalamanın anlamı budur; kelimeler, temel anlamlarını temsil eden bir vektör uzayına gömülüdür. Bağladığım Sutskever makalesi ("kavramsal" olarak) aslında tüm cümleyi anlamsal bir vektöre eşleyerek ve daha sonra bu vektörü hedef dilde bir cümleye dönüştürerek çeviri yapıyor . Yani bir çeşit "anlayış" kesinlikle orada oluyor. (devam ...)
Ray

Ayrıca, altta yatan sözdizimini öğrenen modeller de var (yani cümle yapısı) ve şu anda cümlenin hangi kısımlarına dikkat etmesi gerektiğini öğrenen modeller görünmesine rağmen, bunları sinirsel modellere entegre etmeye yönelik çalışmalar yapıldı. Bu tür şeylerin ele alınmasında açık sözdizimsel modellerden daha etkili olmak. (devam ...)
Ray

True Anlayış olarak "anlayış" sayar bu tür herhangi, o zaman ne düşünüyorum yoksa ediyorum Turing Testi, yani tam sapient birini geçtiği bir AI dışındaki saymak? Biz söylemedim o notu Do olamaz . (; Alanın benim parçası olmadığını Ama biraz biz sonunda oraya şüphe var ben alacağım ne kadar diyemedi) tam sapient AI olun. Fakat burada tarif ettiğim modeller şu anda kullandığımız şeydir ve insanların iletişim kurmasına izin vermek için oldukça iyi çalışırlar. AI araştırması tamamen "yeterince iyi" sürümlerinin art arda daha iyi sürümlerini almakla ilgili
Ray
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.