Linux için iyi bir konuşma tanıma yazılımı var mı?

49

Sorunun kısa versiyonu: Linux üzerinde çalışan ve uygun doğruluk ve kullanılabilirliğe sahip bir konuşma tanıma yazılımı arıyorum. Herhangi bir lisans ve fiyat iyi. Metin dikte edebilmek istediğim için ses komutlarıyla sınırlı olmamalıdır.

Daha fazla detay:

Tatminsizce aşağıdakileri denedim:

CMU Sfenks
CVoiceControl
Kulaklar
Julius
Kaldi (örneğin, Kaldi GStreamer sunucusu )
IBM ViaVoice (Linux'ta çalışıyordu, ancak yıllar önce durduruldu)
NICO ANN Araç Takımı
OpenMindSpeech
RWTH ASR
bağırmak, haykırmak
silvius (Kaldi konuşma tanıma araç seti üzerine inşa edilmiştir)
Simon Listens
ViaVoice / Xvoice
Şarap + Dragon NaturallySpeaking + NatLink + yusufçuk + damselfly
https://github.com/DragonComputer/Dragonfire : sadece sesli komutları kabul eder

Yukarıda belirtilen tüm yerel Linux çözümleri hem düşük doğruluk hem de kullanılabilirliğe sahiptir (veya bazıları serbest metin diktisine izin vermez, yalnızca ses komutlarına izin verir). Düşük doğrulukla, diğer platformlar için aşağıda bahsettiğim konuşma tanıma yazılımının anlamlı derecede altında bir doğruluk demek istiyorum. Wine + Dragon NaturallySpeaking'e gelince, tecrübelerime göre çökmeye devam ediyor ve maalesef bu gibi sorunları olan tek kişi ben görünmüyorum.

Microsoft Windows'da Dragon NaturallySpeaking, Apple Mac OS XI'de Apple Dictation ve DragonDictate, Android'de Google konuşma tanıma ve iOS'ta yerleşik Apple konuşma tanıma kullanıyorum.

Baidu Research dün , Meşaleyle birlikte uygulanan Connectionist Temporal Classification kullanarak konuşma tanıma kütüphanesinin kodunu yayınladı . Hedeflenen seviyeleri GigaOm aşağıdaki ekran görüntüsünde görüldüğü gibi teşvik edici, ama ben oldukça kodlama (ve büyük eğitim veri seti) olmadan kullanılabilmesi için etrafında iyi bir sarıcı farkında değilim:

Bazı çok alfa açık kaynaklı projeler var:

https://github.com/mozilla/DeepSpeech (Mozilla'nın Vaani projesinin bir parçası: http://vaani.io ( mirror ))
https://github.com/pannous/tensorflow-speech-recognition
Vox, Dragon NaturallySpeaking kullanarak bir Linux sistemini kontrol eden bir sistem: https://github.com/Franck-Dernoncourt/vox_linux + https://github.com/Franck-Dernoncourt/vox_windows
https://github.com/facebookresearch/wav2letter
https://github.com/espnet/espnet
http://github.com/tensorflow/lingvo (Interspeech 2018’de belirtilen Google tarafından yayınlanacak)

Sanatın durumlarını ve konuşma tanıma konusundaki son sonuçları (bibliyografya) izleme girişiminin de farkındayım . yanı sıra mevcut konuşma tanıma API'lerinin bu ölçütü .

Dragonfly aracılığıyla bir bilgisayardaki konuşmanın diğerine olay göndermesine olanak tanıyan Aenea'nın farkındayım , ancak bazı gecikme maliyetleri var:

Ayrıca, konuşma tanıma için Linux seçeneğini keşfeden bu iki görüşmenin de farkındayım:

2016 - Onbirinci UMUT: Açık Kaynak Konuşma Tanıma ile Sesle Kodlama (David Williams-King)
2014 - Pycon: Python'u Ses Koduyla Kullanma (Tavis Rudd)

software-rec speech-recognition

— Franck Dernoncourt
kaynak

2

"Tatmin edici" bulduklarınızla ilgili bazı detaylar, aksi halde ilginç ancak genel yayınlama konunuzu ilerletebilir. Örneğin: "Wine + Dragon NaturallySpeaking" kombinasyonu hakkında özellikle tatmin edici buldun mu? (Windows deneyiminizi çoğaltmak nasıl başarısız oldu?)

— Theophrastus

1

@Theophrastus Temel olarak tüm yerli Linux çözümleri hem düşük doğruluk hem de kullanılabilirliğe sahiptir. Düşük doğrulukla, diğer platformlar için bahsettiğim konuşma tanıma yazılımının anlamlı derecede altında bir doğruluk demek istiyorum. Wine + Dragon NaturallySpeaking'e gelince, tecrübelerime göre çökmeye devam ediyor ve maalesef bu tür sorunlara sahip olan tek kişi gibi görünmüyorum ( appdb.winehq.org/… )

— Franck Dernoncourt

1

Bunları denemedim, ancak birinin yararlı bulması durumunda: github.com/Uberi/speech_recognition ve jasperproject.github.io ve github.com/benoitfragit/google2ubuntu

— Hatshepsut

Komut satırı aracı olan bu yazılımlardan biri var mı? Konuşma tanıma işlevini xdotool ( github.com/jordansissel/xdotool ) veya xsendkey ( github.com/kyoto/sendkeys ) gibi bir tuşa basma ve fare takma aracıyla birleştirmek çok ilginç olurdu .

— baptx

13

Şu anda Android akıllı telefonumda Google konuşma tanıma ile birlikte KDE connect kullanarak kullanmayı deniyorum.

KDE connect, android cihazınızı Linux bilgisayarınız için bir giriş cihazı olarak kullanmanıza izin verir (başka özellikler de vardır). KDE connect uygulamasını akıllı telefonunuza / tabletinize Google Play Store'dan yüklemeniz ve Linux bilgisayarınıza hem kdeconnect hem gösterge-kdeconnect'i yüklemeniz gerekir. Ubuntu sistemleri için kurulum şu şekildedir:

sudo add-apt-repository ppa:vikoadi/ppa
sudo apt update
sudo apt install kdeconnect indicator-kdeconnect

Bu kurulumun dezavantajı, KDE masaüstü ortamını kullanmamanız durumunda ihtiyacınız olmayan bir grup KDE paketi yüklemesidir.

Android cihazınızı bilgisayarınızla eşleştikten sonra (aynı ağda olmaları gerekir) android klavyeyi kullanabilir ve ardından Google konuşma tanıma özelliğini kullanmak için mikrofondaki / tuşuna basabilirsiniz. Siz konuşurken, imlecinizin Linux bilgisayarınızda aktif olduğu yerlerde metin görünmeye başlayacaktır.

Sonuçlara gelince, şu anda bazı teknik astrofizik dokümanı yazdığım ve Google konuşma tanıma özelliği tipik olarak okumadığınız bir jargonla mücadele ettiği için benim için biraz karışık. Ayrıca, noktalama işaretlerini veya uygun büyük harf kullanımı yapmayı da unutmayınız.

— shockburner
kaynak

4

Şimdilik, sadece Ses not defteri Linux'ta çalışıyor.

— Alexei
kaynak

2

Teşekkürler, ancak yalnızca Chrome tarayıcısında çalışıyor.

— Franck Dernoncourt 16:16

3

Bir başka Linuxer'ın konuşmadan metne yararlı bir konuşma programı (dikte) programı ararken, speechpad.pw dosyasını inceledim:

anadilimi çok iyi tanıyor
hızlı ve çok güvenilir çalışıyor

Downsides:

tabiki Google’ın mülkiyeti ve kapalı yazılımıdır.
bir Google servisi, konuştuğunuz her kelimeyi dinler, işler ve sözde saklar
ses ve metin işlenecek ve açıkça Google tarafından depolanacak
speechpad.pw aylık / dört aylık / yıllık abonelik ücreti gerektirir
speechpad.pw sadece Google Chrome tarayıcısına bir addon olarak çalışır - başka bir tarayıcı yok

Bu yüzden speechpad.pw çok özel bir tescilli ve aynı zamanda kapalı bir kaynaktır ve aynı zamanda hepimiz uykusuz bir meta veri, kişisel bilgi ve kişisel içerik toplayıcısı olarak tanıdığımız Google'a bağlı.

Bu dezavantajlar, konuşma tanımanın kendisi de çok iyi çalıştığı halde benim için sorunsuz bir uygulama. Şimdiye dek gördüğüm her şeyden çok daha iyi.

— çok
kaynak

Teşekkürler, evet, özellikle Chrome tarayıcısında çalıştığı için önemli olumsuzluklar var.

— Franck Dernoncourt 28:16

1

Google Dokümanlar'ı Chrome'da kullanabilir ve "Araçlar" »" Ses Yazma ... "seçeneğini kullanabilirsiniz. Muhtemelen tam olarak aynı konuşma tanıma yazılımı, ancak ücretsizdir. Ardından sonuçları doktorunuzdan metne ihtiyacınız olan her yere yapıştırın.

— Alexis Wilke,

2

Chrome App "VoiceNote II" ( http://voicenote.in/ ), Xubuntu 16.04 makinemde harika çalışıyor. Ses eğitimi gerekmiyordu ve kurulum basitti. Bulmak için bir arama, bir tıklamak, bir kısayol oluşturmak için bir tıklatmak ve Masaüstüne bağlamak.

— Indy Teknik Düzeltme
kaynak

Teşekkürler, sadece Google Chrome'da çalışıyor olsa da

— Franck Dernoncourt

0

Telefonunuzda veya tabletinizde ejderha kullanmayı ve ardından metni kendinize e-postayla göndermenizi öneririm. Sürükle ama işe yarıyor ve çok doğru. Bunun için Linux kullanmakta ısrar ediyorsanız, ikinci bir ekran almak, kopyalamak ve geçmişte yaşamı çok kolaylaştıracak.

Bunu denemedim ama tabletinizde / telefonunuzda ejderha ile Python Bluetooth Sohbet programını kullanabilir veya uyarlayabilirsiniz. Dikte girişini destekleyebilen mobil cihazlar için uzaktan klavye uygulamaları da olabilir.

Daha kesin bir şeyle deneyeceğim ve size dönmeye çalışacağım.

— user273470
kaynak

0

KD Connect uygulamasını kullanıyorum. oldukça etkili çalışıyor! Masada telefonla konuşurken gözlerimi monitörde tutabiliyorum. Tek dezavantajı bu Google klavye ile yapılıyor olmasıdır. ne ücretsiz, ne doğal ne de açık kaynaktır. Bu yorum, herhangi bir şey yapmadan ve herhangi bir düzeltme yapmadan gönderilmiştir.

— Josh Levine
kaynak

-2

Linux uygulamasında metne konuşma kullanabilirsiniz. Bu uygulama, 32 veya 64 bit Linux için Google Speech Api ve ikili entegrasyon modülünü kullanır. Speechpad.pw araçlarının kullanımı ile ilgili kısa bir sunum görebilirsiniz.

— Pavel Popov
kaynak

1

OP, metinden sese motorunu arıyor. STT motorunun etrafındaki web-UI sarmalayıcısı (ve bu konuda kötü olanı) .

— Cerin