KI-Wiki

Reiter

Audiogeneratoren

Mit KI-gestützten Audiogeneratoren können Klänge, Musik oder gesprochene Sprache automatisch erzeugt oder verändert werden. Mit Hilfe von Künstlicher Intelligenz können so aus Texten oder Sätzen natürlich klingende Stimmen, Musikstücke oder Audioinhalte generiert werden. 

Arten von Audiogeneratoren

  • Text-to-Audio/Music: Erzeugung von Musik oder Soundeffekten rein aus einer Beschreibung. 
  • Text-to-Speech (TTS): Umwandlung von Text in eine natürliche, menschlich klingende Stimme.
  • Audio-to-Audio: Eine Melodie wird eingespielt und die KI überträgt sie auf ein anderes Instrument, Musikstil oder eine andere Stimme. 

Wie funktionieren Audiogeneratoren?

Diffusion
Die meisten modernen Audiogeneratoren nutzen den Diffusionsprozess: 

Rauschen: Die KI beginnt mit einem Signal aus reinem "weissen Rauschen" (einem statischen Zischen, das alle Frequenzen enthält).
Entrauschen: Schritt für Schritt formt die KI dieses Rauschen um, basierend auf dem Nutzer-Prompt (z. B. "Ein ruhiger Klavier-Jazz-Track").  

Die zeitliche und harmonische Konsistenz
Damit Musik nicht wie zufällige Töne klingt, muss die KI die logische Abfolge verstehen.

Audio-Tokenisierung: Musik wird oft in kleine Bausteine (Tokens) zerlegt. Ein Transformer-Modell (ähnlich wie bei ChatGPT) sagt voraus, welcher Ton-Baustein am wahrscheinlichsten als nächster folgt.  
Attention-Mechanismus (Transformer): Dieser Mechanismus hilft der KI beizubehalten, welche Melodie im ersten Vers gespielt wurde, während sie den Refrain berechnet. So bleiben beispielsweise der Rhythmus und die Tonart über den gesamten Song hinweg stabil. 

Training
Wie auch Bild- oder Videogeneratoren werden auch Audio- und Soundgeneratoren mit Millionen von Stunden an Musik, Sprache und Geräuschen sowie den dazugehörigen Beschreibungen trainiert. Die KI lernt dabei akustische Gesetze wie beispielsweise: Wie tönt eine Stimme in einem grossen Raum? Wie klingen Instrumente zusammen? Wie verändert sich die Tonhöhe bei verschiedenen Emotionen in der Sprache? 

ElevenLabs ist ein KI-Tool zur Text-zu-Sprache-Synthese (Text-to-Speech). Nutzer können geschriebenen Text eingeben, der anschliessend von einer KI in sehr natürlich klingende gesprochene Sprache umgewandelt wird. Die Stimmen reagieren auf Kontext und Emotionen im Text, sodass Intonation, Tempo und Betonung ähnlich wie bei menschlicher Sprache klingen. Die Plattform bietet eine Bibliothek verschiedener Stimmen, unterstützt viele Sprachen und ermöglicht auch Funktionen wie Voice-Cloning, bei dem eine Stimme aus kurzen Audioaufnahmen nachgebildet werden kann. 
https://elevenlabs.io/

Suno und Udio sind KI-basierte Tools zur automatischen Generierung von Musik. Mithilfe kurzer Texteingaben (Prompts) können Nutzer:innen komplette Songs erstellen lassen, inklusive Melodie, Instrumentierung und Gesang. In der kostenlosen Version können bei Suno pro Tag bis zu 10 Songs generiert werden. Bei Udio sind es in der kostenlosen Version ca. 3 Songs pro Tag.
https://suno.com/
https://www.udio.com/home

Zuletzt geändert: 13. Mär 2026, 09:02, Kieber, Melanie [melanie.kieber@phzh.ch]


Informationsmeldung
Bisher wurde noch kein Kommentar abgegeben.