Bir kelimede heceleri tespit etmek için oldukça etkili bir yol bulmam gerekiyor. Örneğin,
Görünmez -> in-vi-sib-le
Kullanılabilecek bazı heceleme kuralları vardır:
V CV VC CVC CCV CCCV CVCC
* burada V bir sesli harftir ve C bir ünsüzdür. Örneğin,
Telaffuz (5 Pro-nun-ci-a-tion; CV-CVC-CV-V-CVC)
Regex (sadece heceleri saymak istiyorsanız yardımcı olur) veya sabit kodlanmış kural tanımı (çok verimsiz olduğu kanıtlanan kaba kuvvet yaklaşımı) ve son olarak (son yapılan yararlı bir şeyle sonuçlanmaz).
Uygulamamın amacı, belirli bir dilde tüm hecelerin sözlüğünü oluşturmaktır. Bu sözlük daha sonra yazım denetimi uygulamaları (Bayes sınıflandırıcıları kullanarak) ve metinden konuşmaya sentez için kullanılacaktır.
Daha önceki yaklaşımlarımın yanı sıra bu sorunu çözmenin alternatif bir yolunu bana verebilirse çok memnun olurum.
Java çalışıyorum, ancak C / C ++, C #, Python, Perl ... herhangi bir ipucu benim için işe yarayacak.