Zwar gibt es schon lange Sprachanalysetools wie etwa seit 1997 Dragon Naturally Speaking für den PC, doch solche Programme benötigten immer längere Trainingsphasen, die bei spontanen Transkribierungen (mit eventuell auch mehreren Sprechern, die alle einzeln trainiert werden müssten) aber nicht möglich sind. Neue Spracherkennungstechnologien, welche auf Deep Learning basieren, liefern jetzt aber genau diese ideale Voraussetzung: gesprochene Worte ohne Training mit einer genügend hohen Wahrscheinlichkeit richtig zu erkennen. Ein für die Arbeit mit Video interessantes Einsatzgebiete ist die bisher sehr zeitaufwendige und nur durch Menschen zu erledigende Transkribierung von in Videos gesprochenen Worten in Text zum Beispiel zum Untertiteln von Clips.
Zwei neue Programme bieten jetzt die Möglichkeit, aus dem Videoschnittprogramm heraus Clips automatisch per Cloudservice zu transkribieren und diese Texte dann in den Clips per Metadaten zu integrieren: SpeedScriber (nur macOS für Adobe Premiere Pro CC, Apple Final Cut Pro und Avid) und Transcriptive (macOS und Windows für Premiere Pro CC).
Mittels eines eigenen Editing-Interfaces (wie in einem Texteditor) können die Texte dann durchgesehen und gegebenenfalls verbessert werden. Ein Bonus: die Clips werden in mehrfacher Echtzeit transkribiert und lassen sich dann nach bestimmten Textstellen durchsuchen. Besonders wichtig ist das Transkribieren für Dokumentarfilmer und Journalisten, um in Videoclips bestimmte Aussagen per Textsuche wiederzufinden oder für Filmemacher, um Untertitel automatisch zu generieren.
SpeedScriber

SpeedScriber ist eine macOS App für Avid, Final Cut Pro X und Premiere Pro CC, die automatisch gesprochene Worte aus Video in Text transkribiert. In nahezu 7-facher Echtzeitgeschwindigkeit werden per SpeedScriber die gesprochenen Worte aus Videos in Text umgesetzt. Das Plugin selbst ist kostenlos, die Transkribierung per Cloudservice allerdings wird nach Minuten abgerechnet: 60 Minuten Videomaterial kosten rund 25 Euro (0.42 Cent/Minute), 300 Minuten rund 120 Euro (0.39 Cent/Minute). Momentan wird nur Englisch unterstützt, aber die nächste Version 1.1 wird auch Deutsch, Französisch, Spanisch und Italienisch unterstützen.
Transcriptive
Für Adobe Premiere Pro CC (Mac/Windows) gibt es seit September auch das Premiere Plugin Transcriptive von Digital Anarchy. Es ist zwar rund 300 Dollar teuer, dafür sind die Minutenrpreise für die automatische Transkribierung erheblich billiger.
Es stehen zwei integrierbare Deep Learning Transkriptions-Dienste übers Netz zur Auswahl: der hochqualitative Speechmatics Algorithmus mit einer Erkennungsrate von 90-95% für 0.07 Dollar pro Minute und Unterstützung für 28 Sprachen und IBMs Watson (85% Erkennungsrate) für 0.02 Dollar pro Minute und 1.000 Freiminuten (über 16 Stunden) pro Monat und 7 Sprachen. Die Transkribierung erfolgt in 6facher Echtzeit, d.h. ein 60 Minuten Clip wird in 10 Minuten in Text umgesetzt.

Untertitel können als srt, .stl, .vtt, .xml oder Premiere Metadata exportiert werden und mehrere Clips können per Batch-Processing nacheinander transkribiert werden. Hier ein ausführlicher Review von Transcriptive.
SpeedScribe oder Transcriptive?
Wer mit Premiere Pro CC unter macOS schneidet, hat also die Wahl zwischen SpeedScribe und Transcriptive: bei gleicher Qualität entscheidet das Interface, die Qualität der Transkription und der Preis (bei großen Mengen von Video kommt der deutlich geringere Minutenpreis von Transcriptive zum Tragen: er ist (je nach gewähltem Service) um das 6- bis 20-fache pro Minute billiger, zudem würden Watsons 1.000 Freiminuten bei SpeedScribe 370 Euro kosten - pro Monat). Wer unter Windows schneidet hat nur das Premiere-Plugin Transcriptive zur Auswahl.
Oder die kostenlose Transkribierung per YouTube
Eine umständlichere, aber ganz kostenlose Alternative ist die Transkribierung mithilfe von YouTubes automatischen Untertitel-Service, der seit 2010 unter anderem für Deutsch, Englisch, Holländisch, Französisch, Italienisch und Spanisch aktiv ist und Googles Spracherkennungsalgorithmen nutzt. Das von YouTube erstellte Subtitel-File kann exportiert (dazu muss die YouTubeID des Videos in dieser URL ersetzt werden: http://video.google.com/timedtext?lang=en&v=YouTubeID, über den „lang“-Parameter kann die Sprqache ausgewählt werden - die resultierende XML-Seite enthält die Untertitel samt Timecode) und dann einfach ins jeweilige Schnittprogramm importiert und dort editiert werden.
Die Qualität von automatischen Transkriptionen per Deep Learning schwankt je nach verwendetem Algorithmus und natürlich der Qualität der Audioaufnahme - Rauschen, Dialekte, gleichzeitiges Sprechen mehrerer Personen oder Hintergrundgeräusche erschweren das Erkennen von Worten. Sicher werden die Preise auch bald sinken, die Wort-Erkennungsqualität steigen und weitere Tools in noch mehr Videoschnittprogrammen die Möglichkeiten der direkten komfortablen Transkribierung bieten - die Entwicklung in Sachen KI (verbesserte Algorithmen, mehr Trainingsmaterial, mehr Prozessorpower, mehr Wettbewerber) verläuft ja sehr schnell. In naher Zukunft ist auch eine automatische Übersetzung von transkribierten Untertiteln per KI in verschiedene Sprachen denkbar.
Automatische Transkriptionen per KI/Deep Learning Dienste in der Cloud sind somit eine einfache Möglichkeit, um in Zukunft die immer wichtiger werdende Untertitlung für Webvideos schnell und relativ billig (manuelle Transkribierungen kosten ab 0.80 Dollar pro Minute und dauern zum Teil relativ lange) zu erledigen, kann doch mithilfe von Untertiteln in YouTube ein höheres Ranking erzielt werden, zudem sind Untertitel für eine Vermarktung von eigenem Content per Amazon Video Direct eine Grundvoraussetzung.
Transkribieren per Premiere Pro CC 7.2.2 Sprachanalyse
Eine weitere - allerdings nicht sehr gute, weil noch auf traditionellen Algorithmen und nicht neuronalen Netzen, beruhende Möglichkeit für Premiere CC User bietet die einstmals integrierte Sprachanalysefunktion, die zwar seit Premiere Pro CC 8.2 (2014) nicht mehr integriert ist, sie kann aber mittels der parallelen Installation einer alten Version von Premiere Pro CC 7.2.2 verwendet werden, um Transkribierungen zu erzeugen und (für die Arbeit in der aktuellen Premniere Pro CC Version) zu exportieren. Der Grund damals für die Einstellung des Dienstes:
"Zum Zeitpunkt der Implementierung der Sprachanalyse wurde davon ausgegangen, dass die dieser Funktion zugrundeliegende Engine sich deutlich schneller verbessern würde, als dies tatsächlich der Fall war. Anhand von Benutzer-Feedback und eigenen Nachforschungen konnten wir feststellen, dass diese Funktion nicht so genau ist, dass sie für Benutzer hilfreich wäre."
Es bleibt zu hoffen, daß Adobe auf die in der Zwischenzeit beträchtlichen Fortschritte der Spracherkennungs-Technologie reagiert und wieder eine automatische Transkriptionsfunktion, dieses Mal aber mithilfe von aktuellen Deep Learning Algorithmen, in Premiere integriert.
Wer hat schon Erahrungen mit solchen automatischen Transkriptionen gesammelt?