Cümle sınırında uzun sayfalar veya paragraflar kırmamı gerektiren, İngilizce için tam durak (.) Ve Hintçe için Poorn-Viraam (।) gerektiren çeviri çalışmaları yapıyorum.
Buna "hizalama" ing veya (muhtemelen) tokenizing denir.
Notepad ++ (w9-32 bit) için uzun metni cümlelere bölmek için herhangi bir eklenti veya düzenli ifade ya da makro var mı? (düz metin txt dosyalarında),
Regex'te sadece bulamıyorum. ve ile değiştirin. \ r \ n çünkü. kısaltılmışlık göstergesi olarak da kullanılır, örneğin, mesela, örneğin, pvt., ltd., inc., vb. Ayrıca, parantez içinde birkaç cümle varsa () [] {} varsa, bunlar da kırılmamalıdır.
Bu yüzden sanırım tek bir regex komutu yapmaz ya da tüm olasılıkları gözetmek için çok karmaşık hale gelir.
birbiri ardına yürütülen bir regex kümesi veya bir makro olmalıdır,
ya da birisi bunun için bir miktar eklenti geliştirmişse?
Teşekkürler.
Rawat
i.e.
kısa bir el olduğunu bildiğin anlambilimi olmasaydı, cümlenin sonu olmadığını nasıl bilebilirdi? Eğer kısaltması için "ortak" (3?) Karakter uzunluğunda olan bir kelime varsa, işaretleri görmezden gelen bir regex yazabilirsiniz. Mükemmel olmayacak ama size yardımcı olabilir mi?