Ansagen erstellen mit Powershell und Text-To-Speech

OpenAI bietet neben (Chat)GPT und Whisper noch einige weitere KI Lösungen an. Darunter auch eine Text-To-Speech (TTS) KI mit der sich u.a. recht einfach (Telefon-) Ansagen erstellen lassen.

Gerade im Umfeld von Telefonanlagen wie der STARFACE kommt es immer wieder zu der Notwendigkeit Ansagen zu erstellen. Oftmals hört man auf den Firmen Mailboxen die Stimmen von Mitarbeitern oder auch professionell erstellte Ansagen werden gerne genommen. Wem die eigenen Ansagen zu unprofessionell und die Beauftragung von Dienstleistern zu aufwendig ist, bekommt durch KI mittlerweile eine gute Alternative.

Ki generiertes, vektorbasiertes Bild eines aufgeschlagenen Buches mit Antennen und Übertragungswellen, welches mit einem stilisierten Gesicht verbunden ist

Es gibt viele Anbieter in diesem Markt, einige wurden von Heise / ct in 2023 mal getestet:

KI-Stimmen: Sieben Anbieter für Text-to-Speech im Vergleich

Noch einfacher geht es mit dem folgenden, von mir erstellten Powershell Skripten – und die Qualität der Stimmen bei deutscher Sprache muss sich vor denen der anderen Anbieter nicht verstecken (teilweise ist ein leichter, amerikanischer Akzent zu hören). Zumindest zum aktuellen Zeitpunt (05/2024). Hervorzuheben sind hierbei die Stimmen onyx, nova und shimmer.

Voraussetzung für die Nutzung ist ein OpenAI API Key. Über die Kosten muss man sich für die Erstellung von ein paar Ansagen keine Sorgen machen. Bei meinen Tests habe ich 62 Anfragen an die API gestellt und dabei wurden fast 16.000 Zeichen synthetisiert – die Kosten beliefen sich auf 0,47 USD.

Der folgende Code ist (in Kürze) auch in unserem Github Repository zu finden.

weiterlesen → Ansagen erstellen mit Powershell und Text-To-Speech