YouTube'a video yüklemeden Google'ın YouTube Konuşma Tanıma'yı nasıl kullanırsınız?


15

Altyazıları olmasını istediğim birçok ders video içeriğim var. YouTube, belirli koşullar altında videolar için otomatik olarak altyazılar oluşturur (bu koşullar benim için hala bir sırdır).

Bu konuşma tanıma teknolojisini YouTube dışında kullanabilmek istiyorum. Transkripti almak için her videoyu yüklemek istemiyorum (çok zaman alıcı), ayrıca, YouTube'un yaklaşık 30 dakikadan uzun videolar (çoğu) için yapacağını sanmıyorum, ayrıca, herkese açık olarak listelenmeyen videolar için yapacağını düşünmeyin (bu bir sorun çünkü satılması gereken premium içeriktir).

Mükemmel senaryo: Konuşma metnini bu videolardan çıkarmak için masaüstümden çalıştırabileceğim bir program var ve YouTube'dan eşit veya daha kaliteli ve YouTube'un oluşturduğu bir SRT veya XML'ye benzer zaman kodlarına sahip [ Nasıl yapılır? YouTube altyazıları edinin ].

Kabul edilebilir senaryo: YouTube'u, özel veya herkese açık olarak ayarlanmış ve uzunluğa rağmen videoları kopyalamaya zorlamak için yapabileceğim bazı hileler var.

Yapılabilir senaryo: Kendi programımı kodlamak için kullanabileceğim bir kütüphane ya da başka bir şey var. C # ile iyi ve C ++ ile iyi (Ama gerçekten C # tercih ederim).


2
bağlantı için teşekkürler - sağır bakış açısından, bunun nasıl çalıştığını duymak çok ilgi ...
studiohack

@studiohack hiçbir cinas amaçlanan.
287352

LOL, bunun farkında bile değildim! : P
studiohack

Yanıtlar:


10

Google , bir geliştirici iseniz kullanabileceğiniz Web Konuşma API'sını (hem konuşma tanıma hem de sentez için) Chrome'a uyguladı . YouTube'un bazı videolarda yakın altyazı oluşturmak için kullandığı yöntem budur. Belki onunla etkileşime girmek için kod bulacaksınız.

Veri akışı muhtemelen şöyle olacaktır:

Bir video dosyası => ses çıkartın ve dönüştürün => Google API'ya gönderin => metni alın => bir SRT'ye yazın.

EDIT: W3C spec dışında resmi bir API sayfası yok gibi görünüyor. İşte daha fazla bağlantı:

Bu örnekler API'yı Chrome içinden kullanmakla ilgilidir, ancak Google'ın çevrimiçi konuşma tanıma motorunu doğrudan sorgulayabilirsiniz. Örneğin, Raspberrry Pi'nin konuşmayı tanıyan kişisel asistanı Jasper , konuşma tanıma motoru olarak Google'ı seçmenizi sağlar .


Teşekkür ederim! Bunu kesinlikle deneyeceğim. Hızlı bir şekilde yapılabilirse (işlem süresi hariç) bunu ürünüme uygulayabilirim. Ne büyük bir nimet olurdu.
287352

API'nin başka bir kaynağı NodeWebkit ortamı olabilir
John Dvorak

1

Eski Google konuşma API'sını kullanmasına rağmen, bunu tam olarak yapan "autosub" (github üzerindeki agermanidis / autosub sayfasına bakın) adlı bir araç var. Araç, sesi FLAC dosyalarına ayırmak için ffmpeg kullanır ve ardından FLAC dosyalarını transkripsiyon için Google'a gönderir. Bir SRT veya VTT dosyası oluşturur.

Eski Google API'sı nedeniyle doğruluk kısmen düşük. Daha yeni bir API var ( https://cloud.google.com/speech/docs/apis adresindeki "Cloud Speech REST API" ). Bu API oldukça basit ve bir noktada, bunu kullanmak için autosub çatal olacaktı.

Alternatif olarak, altyazı tamamlandığında YouTube'a yüklemek ve VTT dosyasını indirmektir. Bunun karmaşıklığı, YouTube'un örneğin bir cümle yerine çok ayrıntılı altyazılar (örn. Birkaç kelime) üretmesidir. Bu, manuel tarama yaparken altyazıları kontrol etmeyi zorlaştırır.


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.