Yanıtlar:
Kullanabileceğiniz yazılım CMUSphinx . Başka bir cevapta önerilenden farklı olarak Julius uygun değildir çünkü model gerektirir. Büyük kelime konuşma tanıma modelleri Julius için mevcut değil.
Ses dosyasını dönüştürmek için pocketsphinx kullanabilirsiniz . Bu iki komut işi yapmalı. İlk önce dosyayı gereken formata dönüştürür ve sonra onu tanırsınız:
ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav
Pocketsphinx çalıştırmak
pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt
Sonuç result.txt içinde saklanır.
speech recognition
ve voice command
araçlar burada: youtube.com/...
pocketsphinx_continuous -infile file.wav -hmm en_US/hub4wsj_sc_8k -lm en_US/hub4.5000.DMP 2> pocketsphinx.log
çalıştı. Belki de en uygun paketler değillerdir, ancak depolarda bulabildiğim en iyi eşleşmelerdi.
Bunun eski olduğunu biliyorum, ancak Nikolay'in cevabını genişletmek ve gelecekte bir zaman kazanmayı umuyorum, çalışan pocketsphinx'in güncel bir versiyonunu edinmek için onu github veya sourceforge deposundan derlemelisiniz (emin değilsiniz) hangi daha güncel tutulur). -J8'in, eğer mümkünse paralel olarak 8 ayrı işi yürüttüğünü; Daha fazla CPU çekirdeğiniz varsa bu sayıyı artırabilirsiniz.
git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
Ardından ,: https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English/ sayfasının
en yeni sürümlerini indirin cmusphinx-en-us-....tar.gz
veen-70k-....lm.gz
tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz
O zaman nihayet Nikolay'ın cevabındaki adımlarla devam edebilirsiniz:
ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
-hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
2>pocketsphinx.log >book.txt
Sfenks iyi çalışıyor. Metnin okunabilir bir versiyonunu yapmak için ona güvenmezdim, ancak belirli bir teklifi arıyorsanız, onu aramanız yeterli. Bu, özellikle joker karakterleri kabul eden ve kesin arama ifadeleri gerektirmeyen Xapian ( http://www.lesbonscomptes.com/recoll/ ) gibi bir arama algoritması kullanıyorsanız işe yarar .
Bu yardımcı olur umarım.
pocketsphinx_continuous: error while loading shared libraries: libpocketsphinx.so.3: cannot open shared object file: No such file or directory
-------> export LD_LIBRARY_PATH=/usr/local/lib
------->export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
Ubuntu Yazılım Merkezinizi açmayı ve Julius'u aramayı deneyerek konuşmayı metne dönüştürmeyi düşünüyorum.
Açıklama
"Julius" konuşmayla ilgili araştırmacılar ve geliştiriciler için yüksek performanslı, iki geçişli büyük bir kelime sürekli konuşma tanıma (LVCSR) kod çözücü yazılımıdır.
Veya Yazılım Merkezinde olmayan bir başka seçenek ise Simon.
... açık kaynaklı bir konuşma tanıma programıdır ve fareyi ve klavyeyi değiştirir.
Referans Bağlantıları
http://julius.sourceforge.jp/en_index.php
Speechpad.pw transcription panelini kullanabilirsiniz.