Bu tür bir yaklaşımın anahtar parçası, iyi bir İngilizce kelime veritabanına erişim sağlamaktır. Sistemimde /usr/share/dict/words
çok fazla kelime olan bu dosya var , ancak bunun yerine başka kaynaklar da kullanılabilir.
Yaklaşmak
Benim genel yaklaşım şöyle kullanmak olacaktır grep
:
$ grep -vwf /usr/share/dict/words sample.txt
Örnek çıktınızın bulunduğu yer sample.txt
.
Sınırlı testlerimde words
sözlüğün boyutu bataklık gibi görünüyordu grep
. Sürümümde 400k + satır var. Bu yüzden biraz parçalamak için böyle bir şey yapmaya başladım:
$ head -10000 /usr/share/dict/words > ~/10000words
Örnek koşu sayısı (10k)
Dosyanızı "sözlükten" ilk 10 bin kelime kullanarak çalıştırın.
$ grep -vwf ~/10000words sample.txt
714
01:11:22,267 --> 01:11:27,731
Auch wenn noch viele Generationen auf einen Wechsel hoffen,
715
01:11:27,732 --> 01:11:31,920
werde ich mein Bestes geben
und hoffe, dass andere das gleiche tun.
I'm giving mine, I'm doing my best
hoping the other will do the same
716
01:11:31,921 --> 01:11:36,278
Wir haben eine harte Arbeit vor uns,
um den Lauf der Dinge zu ändern.
it's going to be hard work
for things to turn around.
717
01:11:36,879 --> 01:11:42,881
Wenn man die Zentren künstlicher Besamung,
die Zuchtlaboratorien und die modernen Kuhställe besichtigt,
When visiting artificial insemination centers,
the selection center, modern stables,
NOT: Bu yaklaşım, i5 dizüstü bilgisayarımda ~ 1.5 saniye içinde koştu.
Bu uygulanabilir bir yaklaşım gibi görünüyor. 100k satıra kadar çarptığımda uzun bir süre almaya başladı, bitmeden önce iptal ettim, böylece words
sözlüğü birkaç dosyaya bölebilirsiniz.
NOT: 50k hatta yedeklediğimde 32 saniye sürdü.
Daha derine dalma (50 bin satır)
Sözlüğü 50k'ye kadar genişletmeye başladığımda korktuğum konuya girdim, diller arasında çakışma.
$ grep -vwf ~/50000words sample.txt
714
01:11:22,267 --> 01:11:27,731
715
01:11:27,732 --> 01:11:31,920
werde ich mein Bestes geben
und hoffe, dass andere das gleiche tun.
hoping the other will do the same
716
01:11:31,921 --> 01:11:36,278
Wir haben eine harte Arbeit vor uns,
um den Lauf der Dinge zu ändern.
717
01:11:36,879 --> 01:11:42,881
Wenn man die Zentren künstlicher Besamung,
die Zuchtlaboratorien und die modernen Kuhställe besichtigt,
the selection center, modern stables,
Sorunu analiz etme
Bu yaklaşımla ilgili iyi bir şey -v
, çakışmayı kaldırabilir ve nerede olduğunu görebilirsiniz:
$ grep -wf ~/50000words sample.txt
Auch wenn noch viele Generationen auf einen Wechsel hoffen,
Even if it takes many generations hoping for a change,
I'm giving mine, I'm doing my best
it's going to be hard work
for things to turn around.
When visiting artificial insemination centers,
Kelime auf
görünüşe göre her iki dilde ... en azından benim words
dosyamda, bu yüzden kelime listesini gerektiği gibi hassaslaştırmak için bir deneme yanılma yöntemi olabilir.
NOT: Ben kelime olduğunu biliyordum auf
çünkü grep
nedeniyle SE'nin sınırlı doğası 8-) Yukarıdaki çıktıda görünmüyor yani, kırmızı renkli.
$ grep auf ~/50000words
auf
aufait
aufgabe
aufklarung
auftakt
baufrey
Beaufert
beaufet
beaufin
Beauford
Beaufort
beaufort
bechauffeur