Browser-basierte Spracherkennung und -aufnahme mit modernen Web Audio APIs.
Dies war ein F&E-Projekt zur Erforschung browser-basierter Audioverarbeitung mit der Web Audio API. Das Ziel war es, Sprache direkt im Browser zu erkennen und zu segmentieren, ohne etwas an einen Server zu senden – die gesamte Verarbeitung erfolgt lokal.
Wir haben eine JavaScript-Bibliothek entwickelt, die erkennen konnte, wann jemand sprach, diese Sprache in nützliche Segmente unterteilen und alles in Echtzeit verarbeiten konnte. Die Herausforderung bestand darin, es performant genug zu machen, um reibungslos über verschiedene Browser und Geräte hinweg zu laufen.
Die Technologie funktionierte so gut, dass sie die Aufmerksamkeit eines US-Unternehmens erregte, das kommerzielle Sprachprodukte entwickelt. Sie erwarben das Projekt und integrierten es in ihre Plattform. Es ist eines dieser Projekte, bei denen die Forschungsphase zu etwas wirklich Nützlichem wurde.