Bu bir yorum olarak bir cevap olmayacak.
Kalite (yukarıda Aaron'un söylediği gibi) 1) dil çifti ve 2) konu değil, aynı zamanda 3) cins ve 4) orijinalin stili ve 5) sahip olduğunuz paralel metinlerin miktarı da dahil olmak üzere çeşitli şeylere bağlıdır. MT sistemini eğitmek.
Aşamayı ayarlamak için, günümüzde neredeyse tüm MT, biri muhtemelen diğeri'nin çevirisi olan (ya da her ikisi de üçüncü bir dilin çevirisi olan) paralel metinlerden, yani iki farklı dilde bir metindir; ve paralel metinler belirli kelimeler içermediğinde, potansiyel olarak sözlükleri (belki de morfolojik süreçlerin desteklediği) geri dönüş olarak kullanmak.
Üstelik, başkalarının da söylediği gibi, bir MT sistemi, çevirdiği metinleri hiçbir şekilde anlamaz; sadece karakter dizilerini ve karakterlerden oluşan kelimelerin dizilerini görür ve daha önce çevrildiği metinlerdeki benzer dizileri ve dizileri arar. (Tamam, bundan biraz daha karmaşıktır ve hesaplamalı sistemlerde anlamsallık kazanma girişimleri olmuştur, fakat şimdilik çoğunlukla dizeleri vardır.)
1) Diller değişebilir. Bazı dillerin birçok morfolojisi vardır, bu da başka dillerin birkaç kelimeyle yaptığı tek bir kelimeyle şeyler yaptıkları anlamına gelir. Basit bir örnek İspanyolca 'cantaremos' = İngilizce olur "şarkı söyleriz". Ve bir dil, diğer dilin bile rahatsız etmeyeceği şeyleri yapabilir, örneğin İspanyolca'daki gayri resmi / biçimsel (tu / usted) ayrım gibi, ingilizceye denk değildir. Veya bir dil, başka bir dilin kelime sırasına göre yaptığı morfolojiyle şeyler yapabilir. Veya dilin kullandığı senaryo kelime sınırlarını bile işaretlemeyebilir (Çince ve diğerleri). İki dil ne kadar farklı olursa, MT sisteminin aralarında dönüşüm yapması o kadar zor olacaktır. İstatistiksel MT'da ilk deneyler Fransızca ve İngilizce arasında yapıldı.
2) Konu: İncil'de paralel metinleriniz varsa (bu, neredeyse her tür yazılı dil için geçerlidir) ve MT sisteminizi bunlardan kurtaracaksanız, mühendislik metinlerinde iyi iş yapmasını beklemeyin. (Eh, İncil, yine de MT sistemlerinin eğitimi standartlarına göre nispeten küçük bir metindir, ancak :-) gibi davranın.) İncil'in kelime bilgisi, mühendislik metinlerinden çok farklıdır ve bu nedenle çeşitli gramerlerin sıklığı da öyledir. yapılar. (Dilbilgisi temelde aynıdır, ancak İngilizce'de, örneğin, bilimsel ve mühendislik metinlerinde çok daha pasif bir ses ve daha fazla birleşik isimler elde edersiniz.)
3) Genera: Paralel metniniz tamamen bildirici ise (traktör kılavuzları gibi), sonuçta ortaya çıkan MT sistemini diyalogda kullanmaya çalışmak size iyi sonuçlar vermez.
4) Stil: Hilary'ye karşı Donald'ı düşünün; bilge karşı popüler. Birinde eğitim almak diğerinde iyi sonuçlar elde etmez. Aynı şekilde MT sistemini yetişkin seviyesindeki romanlarda eğitmek ve çocuk kitaplarında kullanmak.
5) Dil çifti: İngilizce'nin birçok metni vardır ve belirli bir İngilizce metne paralel olan başka bir dilde metin bulma şansı, Rusça ve Igbo'daki paralel metinleri bulma şansından çok daha yüksektir. (Bu, Hindistan'ın dilleri gibi istisnalar olabileceğini söyledi.) Genel bir genelleme olarak, bu tür paralel metinler MT sistemini ne kadar iyi eğitmek zorunda kalırsa, o kadar iyi sonuç verir.
Özetle, dil karmaşıktır (bu yüzden onu seviyorum - ben bir dilbilimci). Dolayısıyla, MT sistemlerinin her zaman iyi çalışmaması şaşırtıcı değildir.
BTW, insan çevirmenleri de her zaman bu kadar iyi yapmıyor. On yıl ya da iki yıl önce, MT sistemlerinde eğitim materyali olarak kullanılmak üzere insan çevirmenlerinden İngilizce'ye çeviriler alıyordum. Çevirilerin bazıları anlaşılmıyordu ve bazı durumlarda iki (ya da daha fazla) insan tercümandan çeviri aldığımız zaman, çevirmenlerin aynı belgeleri okuduğuna inanmak zordu.
Ve son olarak, (neredeyse) hiçbir zaman yalnızca bir doğru çeviri yoktur; İstediğiniz özelliklere (gramer doğruluğu, stil, kullanım tutarlılığı, ...) bağlı olarak, az ya da çok iyi olabilen bir pasajı çevirmenin birçok yolu vardır. "Hassaslık" için kolay bir önlem yoktur.