Linux için iyi bir konuşma tanıma yazılımı var mı?


49

Sorunun kısa versiyonu: Linux üzerinde çalışan ve uygun doğruluk ve kullanılabilirliğe sahip bir konuşma tanıma yazılımı arıyorum. Herhangi bir lisans ve fiyat iyi. Metin dikte edebilmek istediğim için ses komutlarıyla sınırlı olmamalıdır.


Daha fazla detay:

Tatminsizce aşağıdakileri denedim:

Yukarıda belirtilen tüm yerel Linux çözümleri hem düşük doğruluk hem de kullanılabilirliğe sahiptir (veya bazıları serbest metin diktisine izin vermez, yalnızca ses komutlarına izin verir). Düşük doğrulukla, diğer platformlar için aşağıda bahsettiğim konuşma tanıma yazılımının anlamlı derecede altında bir doğruluk demek istiyorum. Wine + Dragon NaturallySpeaking'e gelince, tecrübelerime göre çökmeye devam ediyor ve maalesef bu gibi sorunları olan tek kişi ben görünmüyorum.

Microsoft Windows'da Dragon NaturallySpeaking, Apple Mac OS XI'de Apple Dictation ve DragonDictate, Android'de Google konuşma tanıma ve iOS'ta yerleşik Apple konuşma tanıma kullanıyorum.

Baidu Research dün , Meşaleyle birlikte uygulanan Connectionist Temporal Classification kullanarak konuşma tanıma kütüphanesinin kodunu yayınladı . Hedeflenen seviyeleri GigaOm aşağıdaki ekran görüntüsünde görüldüğü gibi teşvik edici, ama ben oldukça kodlama (ve büyük eğitim veri seti) olmadan kullanılabilmesi için etrafında iyi bir sarıcı farkında değilim:

görüntü tanımını buraya girin

Bazı çok alfa açık kaynaklı projeler var:

Sanatın durumlarını ve konuşma tanıma konusundaki son sonuçları (bibliyografya) izleme girişiminin de farkındayım . yanı sıra mevcut konuşma tanıma API'lerinin bu ölçütü .


Dragonfly aracılığıyla bir bilgisayardaki konuşmanın diğerine olay göndermesine olanak tanıyan Aenea'nın farkındayım , ancak bazı gecikme maliyetleri var:

görüntü tanımını buraya girin

Ayrıca, konuşma tanıma için Linux seçeneğini keşfeden bu iki görüşmenin de farkındayım:


2
"Tatmin edici" bulduklarınızla ilgili bazı detaylar, aksi halde ilginç ancak genel yayınlama konunuzu ilerletebilir. Örneğin: "Wine + Dragon NaturallySpeaking" kombinasyonu hakkında özellikle tatmin edici buldun mu? (Windows deneyiminizi çoğaltmak nasıl başarısız oldu?)
Theophrastus

1
@Theophrastus Temel olarak tüm yerli Linux çözümleri hem düşük doğruluk hem de kullanılabilirliğe sahiptir. Düşük doğrulukla, diğer platformlar için bahsettiğim konuşma tanıma yazılımının anlamlı derecede altında bir doğruluk demek istiyorum. Wine + Dragon NaturallySpeaking'e gelince, tecrübelerime göre çökmeye devam ediyor ve maalesef bu tür sorunlara sahip olan tek kişi gibi görünmüyorum ( appdb.winehq.org/… )
Franck Dernoncourt

1
Bunları denemedim, ancak birinin yararlı bulması durumunda: github.com/Uberi/speech_recognition ve jasperproject.github.io ve github.com/benoitfragit/google2ubuntu
Hatshepsut

Komut satırı aracı olan bu yazılımlardan biri var mı? Konuşma tanıma işlevini xdotool ( github.com/jordansissel/xdotool ) veya xsendkey ( github.com/kyoto/sendkeys ) gibi bir tuşa basma ve fare takma aracıyla birleştirmek çok ilginç olurdu .
baptx

Yanıtlar:


13

Şu anda Android akıllı telefonumda Google konuşma tanıma ile birlikte KDE connect kullanarak kullanmayı deniyorum.

KDE connect, android cihazınızı Linux bilgisayarınız için bir giriş cihazı olarak kullanmanıza izin verir (başka özellikler de vardır). KDE connect uygulamasını akıllı telefonunuza / tabletinize Google Play Store'dan yüklemeniz ve Linux bilgisayarınıza hem kdeconnect hem gösterge-kdeconnect'i yüklemeniz gerekir. Ubuntu sistemleri için kurulum şu şekildedir:

sudo add-apt-repository ppa:vikoadi/ppa
sudo apt update
sudo apt install kdeconnect indicator-kdeconnect

Bu kurulumun dezavantajı, KDE masaüstü ortamını kullanmamanız durumunda ihtiyacınız olmayan bir grup KDE paketi yüklemesidir.

Android cihazınızı bilgisayarınızla eşleştikten sonra (aynı ağda olmaları gerekir) android klavyeyi kullanabilir ve ardından Google konuşma tanıma özelliğini kullanmak için mikrofondaki / tuşuna basabilirsiniz. Siz konuşurken, imlecinizin Linux bilgisayarınızda aktif olduğu yerlerde metin görünmeye başlayacaktır.

Sonuçlara gelince, şu anda bazı teknik astrofizik dokümanı yazdığım ve Google konuşma tanıma özelliği tipik olarak okumadığınız bir jargonla mücadele ettiği için benim için biraz karışık. Ayrıca, noktalama işaretlerini veya uygun büyük harf kullanımı yapmayı da unutmayınız.

görüntü tanımını buraya girin

görüntü tanımını buraya girin



3

Bir başka Linuxer'ın konuşmadan metne yararlı bir konuşma programı (dikte) programı ararken, speechpad.pw dosyasını inceledim:

  • anadilimi çok iyi tanıyor
  • hızlı ve çok güvenilir çalışıyor

Downsides:

  • tabiki Google’ın mülkiyeti ve kapalı yazılımıdır.
  • bir Google servisi, konuştuğunuz her kelimeyi dinler, işler ve sözde saklar
  • ses ve metin işlenecek ve açıkça Google tarafından depolanacak
  • speechpad.pw aylık / dört aylık / yıllık abonelik ücreti gerektirir
  • speechpad.pw sadece Google Chrome tarayıcısına bir addon olarak çalışır - başka bir tarayıcı yok

Bu yüzden speechpad.pw çok özel bir tescilli ve aynı zamanda kapalı bir kaynaktır ve aynı zamanda hepimiz uykusuz bir meta veri, kişisel bilgi ve kişisel içerik toplayıcısı olarak tanıdığımız Google'a bağlı.

Bu dezavantajlar, konuşma tanımanın kendisi de çok iyi çalıştığı halde benim için sorunsuz bir uygulama. Şimdiye dek gördüğüm her şeyden çok daha iyi.


Teşekkürler, evet, özellikle Chrome tarayıcısında çalıştığı için önemli olumsuzluklar var.
Franck Dernoncourt 28:16

1
Google Dokümanlar'ı Chrome'da kullanabilir ve "Araçlar" »" Ses Yazma ... "seçeneğini kullanabilirsiniz. Muhtemelen tam olarak aynı konuşma tanıma yazılımı, ancak ücretsizdir. Ardından sonuçları doktorunuzdan metne ihtiyacınız olan her yere yapıştırın.
Alexis Wilke,

2

Chrome App "VoiceNote II" ( http://voicenote.in/ ), Xubuntu 16.04 makinemde harika çalışıyor. Ses eğitimi gerekmiyordu ve kurulum basitti. Bulmak için bir arama, bir tıklamak, bir kısayol oluşturmak için bir tıklatmak ve Masaüstüne bağlamak.


Teşekkürler, sadece Google Chrome'da çalışıyor olsa da
Franck Dernoncourt

0

Telefonunuzda veya tabletinizde ejderha kullanmayı ve ardından metni kendinize e-postayla göndermenizi öneririm. Sürükle ama işe yarıyor ve çok doğru. Bunun için Linux kullanmakta ısrar ediyorsanız, ikinci bir ekran almak, kopyalamak ve geçmişte yaşamı çok kolaylaştıracak.

Bunu denemedim ama tabletinizde / telefonunuzda ejderha ile Python Bluetooth Sohbet programını kullanabilir veya uyarlayabilirsiniz. Dikte girişini destekleyebilen mobil cihazlar için uzaktan klavye uygulamaları da olabilir.

Daha kesin bir şeyle deneyeceğim ve size dönmeye çalışacağım.


0

KD Connect uygulamasını kullanıyorum. oldukça etkili çalışıyor! Masada telefonla konuşurken gözlerimi monitörde tutabiliyorum. Tek dezavantajı bu Google klavye ile yapılıyor olmasıdır. ne ücretsiz, ne doğal ne de açık kaynaktır. Bu yorum, herhangi bir şey yapmadan ve herhangi bir düzeltme yapmadan gönderilmiştir.


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.