Ansagen erstellen mit Powershell und Text-To-Speech

OpenAI bietet neben (Chat)GPT und Whisper noch einige weitere KI Lösungen an. Darunter auch eine Text-To-Speech (TTS) KI mit der sich u.a. recht einfach (Telefon-) Ansagen erstellen lassen.

Gerade im Umfeld von Telefonanlagen wie der STARFACE kommt es immer wieder zu der Notwendigkeit Ansagen zu erstellen. Oftmals hört man auf den Firmen Mailboxen die Stimmen von Mitarbeitern oder auch professionell erstellte Ansagen werden gerne genommen. Wem die eigenen Ansagen zu unprofessionell und die Beauftragung von Dienstleistern zu aufwendig ist, bekommt durch KI mittlerweile eine gute Alternative.

Ki generiertes, vektorbasiertes Bild eines aufgeschlagenen Buches mit Antennen und Übertragungswellen, welches mit einem stilisierten Gesicht verbunden ist

Es gibt viele Anbieter in diesem Markt, einige wurden von Heise / ct in 2023 mal getestet:

KI-Stimmen: Sieben Anbieter für Text-to-Speech im Vergleich

Noch einfacher geht es mit dem folgenden, von mir erstellten Powershell Skripten – und die Qualität der Stimmen bei deutscher Sprache muss sich vor denen der anderen Anbieter nicht verstecken (teilweise ist ein leichter, amerikanischer Akzent zu hören). Zumindest zum aktuellen Zeitpunt (05/2024). Hervorzuheben sind hierbei die Stimmen onyx, nova und shimmer.

Voraussetzung für die Nutzung ist ein OpenAI API Key. Über die Kosten muss man sich für die Erstellung von ein paar Ansagen keine Sorgen machen. Bei meinen Tests habe ich 62 Anfragen an die API gestellt und dabei wurden fast 16.000 Zeichen synthetisiert – die Kosten beliefen sich auf 0,47 USD.

Der folgende Code ist (in Kürze) auch in unserem Github Repository zu finden.

weiterlesen → Ansagen erstellen mit Powershell und Text-To-Speech

OpenAI Whisper Geschwindigkeitsvergleich

Bei Whisper von OpenAI handelt es sich um eine Automatic-Speech-Recognition KI, ein System, das Sprache erkennen und in Text umwandelt kann. Das System funktioniert auch in deutscher Sprache erstaunlich gut und ist zudem auf lokalen Systemen einsetzbar.

Seit einiger Zeit entwickeln wir eine darauf basierende Lösung, welche für diejenigen Berufsgruppen gedacht ist, die immer noch gerne (oder auch ungern) mit einem Diktiergerät arbeiten und die Diktate anschließend in Textform bringen (lassen) müssen – z.B. Rechtsanwälte, Ärzte, Notare und weitere.

KI generiertes Bild eines Kopfes aus dem Audio-Wave-Formen in Richtung einer Grafikkarte strömen

Unsere Lösung vereint den Workflow des elektronischen Diktats (z.B. via Smartphone App) mit der Möglichkeit die Aufzeichnung per E-Mail an ein Speech-To-Text System zu senden und eine Transkription zurück zu bekommen – und das ganze OnPremise in der Kundenumgebung und damit auch in Sachen DSGVO unkritisch. Neben der Verarbeitung von Formatierungsbefehlen bietet unsere Lösung weitere Vorteile gegenüber der reinen Whisper Transkription. Doch darum soll es heute nicht gehen.

Da die Verarbeitungszeit sehr stark von der verwendeten Hardware abhängt (und besonders auf GPUs / Grafikkarten gut funktioniert), wollten wir einen Sweet-Spot hinsichtlich Preis-/Leistung finden und haben Tests auf verschiedenen Systemen durchgeführt (und einige aus dem Internet zusammen getragen).

Wichtig dabei zu beachten ist, dass das größte und beste Whisper Model ca. 10GB RAM bzw. VRAM benötigt (und bei Verarbeitung auf einer GPU / Grafikkarte wird neben den mind. 10GB VRAM auch mind. 10GB RAM benötigt, da das Model sonst nicht in den Speicher der Grafikkarte geladen werden kann). Das bezieht sich auf jede Instanz die auf dem gleichen System parallel betrieben werden soll (d.h. bei zwei parallelen Instanzen auf einer GPU sind mind. 20GB VRAM nötig).

weiterlesen → OpenAI Whisper Geschwindigkeitsvergleich