Rechtliche Implikationen von „Voice Cloning“

07.01.2024

„Heart on my Sleeve“ präsentierte sich im April 2023 als Kollaboration der Künstler „The Weeknd“ und „Drake“; tatsächlich wurde der virale Song von einem TikTok-User mit Hilfe einer Künstlichen Intelligenz („KI“) geschaffen, die auf die Stimmen der Sänger antrainiert wurde („KI-Sprachsynthese“ oder auch „Voice Cloning“). Die Vokale des Musikstücks klingen zwar wie von den bekannten Sängern gesungen, sind aber in Wirklichkeit nur ein rein synthetisches Produkt. Mit dem Aufkommen und der Verbreitung dieser Technologie rücken zunehmend rechtliche Fragen in den Vordergrund, insbesondere im Hinblick auf die Persönlichkeitsrechte der Künstler:innen, deren Stimmen auf diese Weise imitiert werden.

Autor: Dominic Petje

Einführung 

Aktuelle Algorithmen können (eindrucksvoll) den Sprachduktus, die Tonlage und die charakteristische Stimme einer Person imitieren. In der Frankfurter Allgemeine Zeitung (FAZ) wurde dies treffend beschrieben mit: “Wir können andere singen machen.“[1]  In Songs wie „Heart on my sleeve“ ist dies bereits Realität. 

Die Nutzung fremder Stimmen ist aus persönlichkeitsrechtlicher Perspektive heikel, da eine Stimme in der Regel unverwechselbar und individuell zuordenbar ist. Sie kann daher ähnlich einem Lichtbild als identifikationsstiftendes Merkmal dienen. Bestimmte Stimmen bekannter Persönlichkeiten sind auch weltweit erkennbar. So wird beispielsweise die Stimme des Charakters „Spongebob“ aus der Kinderserie „SpongeBob SquarePants“ weltweit erkannt, und mit dem fiktiven Charakter assoziiert. Insofern verwundert es nicht, dass betroffene Künstler:innen nicht unbedingt erfreut sind, wenn mit „ihrer“ Stimme künstliche Sprachkompositionen produziert und ohne ihr Einverständnis veröffentlicht werden.

Recht an der eignen Stimme

Für Betroffene stellt sich die Frage, welche rechtlichen Mittel zur Verfügung stehen, um gegen die unautorisierte Verwendung ihrer Stimme vorzugehen.  Eine Stimme als solche ist zu abstrakt, um urheberrechtlichen Schutz zu beanspruchen; erst ihre konkreten Ausformungen können urheberrechtlich geschützte eigentümliche geistige Schöpfungen sein.[2]

Erfolgversprechender könnte ein Schutz über die Persönlichkeitsrechte sein. Die Veröffentlichung einer – die Stimme eines Menschen imitierenden – synthetischen Sprachkomposition könnte einen Eingriff in das nicht-kodifizierte (aber von der Rsp und Lehre anerkannte) „Recht an der eigenen Stimme“[3] darstellen, welches aus § 16 ABGB abgeleitet wird.[4]   So wurde in der Rs MA2412[5] gerichtlich festgestellt, dass die Imitation von Stimmen und die Veröffentlichung in Form eines Radio-Werbespots die schutzwürdigen Interessen der durch die Stimmen (vermeintlich) identifizierbaren Personen verletzen kann.  Die Sprecher des konkreten Werbespots imitierten Stimmlage, Tonfall und Dialekt der Hauptdarsteller der Serie MA 2412 so authentisch, dass der Eindruck entstand, es handele sich um ein Gespräch der echten Hauptdarsteller. Das Gericht erkannte in der Sache, dass die unbefugte Verwendung der Stimme, verbunden mit der Verletzung schutzwürdiger Interessen der dadurch identifizierbaren Person, eine Verletzung des durch § 16 ABGB geschützten Persönlichkeitsrechts darstellt.

Diese Rechtsprechung könnte auch auf Fälle übertragbar sein, in denen die Nachahmung von Stimmen über KI-Sprachsynthese erfolgt. Allerdings stellt sich die Situation auf Plattformen wie YouTube anders dar, da hier KI-generierte Inhalte häufig explizit als solche gekennzeichnet werden. Dem Eindruck, dass eine (KI-generierte) Sprachaufnahme von dem vermeintlich sprechenden Künstler stammt, wird dadurch – trotz identischer Stimme – entgegengewirkt. Dies stellt vermeintlich einen entscheidenden Unterschied zum Ausgangssachverhalt des zuvor dargestellten Falles[6] dar. 

Anwendung der Grundsätze zum Bildnisschutz § 78 UrhG

Auch dann, wenn erkennbar ist, dass es sich um eine KI-generierte Form der Stimme einer Person handelt, könnte eine Persönlichkeitsrechtsverletzung vorliegen. Anhaltspunkte dafür finden sich in der Entscheidungspraxis zu dem in § 78 UrhG verankerten Bildnisschutz. Der Oberste Gerichtshof (OGH) hat in zuvor behandelter Rechtssache erwogen, dass die unbefugte Verwendung der Stimme, verbunden mit der Verletzung schutzwürdiger Interessen der dadurch (vermeintlich) identifizierbaren Personen, eine dem § 78 UrhG vergleichbare Verletzung verwirkliche.[7]

Nach § 78 UrhG dürfen Bildnisse von Personen weder öffentlich ausgestellt noch auf andere Art, wodurch sie der Öffentlichkeit zugänglich gemacht werden, verbreitet werden, wenn dadurch berechtigte Interessen der abgebildeten Person verletzt werden. Eine Veröffentlichung, die die schutzwürdigen Interessen dieser nicht beeinträchtigt, ist aber zulässig.[8] Schutzwürdige Interessen im Sinne des § 78 UrhG können beispielsweise durch die (unbefugte) Verwendung eines Bildes zu Werbezwecken verletzt werden, da sich die abgebildete Person dadurch dem Verdacht aussetzt, das Bild entgeltlich zu Werbezwecken zur Verfügung gestellt zu haben.[9] Auch sehr realistische, aber erkennbare, Fotomontagen eines nackten Körpers können geeignet sein einen solcherart Dargestellten in seiner Würde zu verletzten.[10]

Überträgt man dies auf Fälle von KI-Sprachsynthese, könnte auch die Veröffentlichung von eindeutig erkennbarer KI-generierter Sprache die Persönlichkeitsrechte der imitierten Personen verletzen, wenn schutzwürdige Interessen dieser durch Kontext oder Inhalt der Veröffentlichung beeinträchtigt werden. Einem Sprachklon wird es in der Regel an Eigenidentität fehlen, weshalb die synthetischen Sprachaufnahmen hinsichtlich des Kontextes der Veröffentlichung und dem Inhalt des Gesagten, selbst bei expliziter Ausweisung der künstlichen Urheberschaft, mit derjenigen Person in Verbindung gebracht werden, von der die Stimme stammt. Auch dies ist daher grundsätzlich geeignet, die Würde des betroffenen Menschen zu verletzen.[11]   

Fazit

Auch die Persönlichkeitsrechte bleiben von der derzeitigen KI-Revolution nicht unberührt. Neben Bildnissen können technische Systeme nun auch Sprachaufnahmen von Menschen so manipulieren, dass buchstäblich das Wort eines anderen erzeugt werden kann. Betroffen sind nicht nur Künstler:innen, sondern grundsätzlich jede Person, deren Stimme (in ausreichender Länge) beispielsweise im Internet auffindbar ist. Neben Deepfakes[12] und dem Vortäuschen falscher Urheberschaft führt dies aber unter Umständen auch zu Problemen, wenn die KI-Mitwirkung preisgegeben wird. Eine „Stimm-Kopie“ eines Menschen kann auch dann mit diesem in Verbindung gebracht werden, wenn für den Hörer klar ersichtlich ist, dass es sich nur um eine synthetische Sprachkomposition handelt. Abhilfe könnte eine Analogie zu § 78 UrhG schaffen, da nach dem OGH die Verletzung von schutzwürdigen Interessen, durch das Imitieren einer Stimme, eine dem Tatbestand des § 78 UrhG vergleichbare Verletzung verwirklicht ist. Es bleibt abzuwarten, wie die Rechtsprechung auf diese Entwicklungen reagiert. 

 

Quellen

[1] Lennartz, KI-Generierte Stimmen: Eine Herausforderung für das Persönlichkeitsrecht, FAZ 2023, abrufbar unter: <https://www.faz.net/aktuell/feuilleton/ki-ist-eine-herausforderung-fuer-das-persoenlichkeitsrecht-19037243.html> (29.08.2023).

[2] Vgl Ciresa in Ciresa (Hrsg), Österreichisches Urheberrecht (2018) § 1 UrhG Rz 44 ff.

[3] Meissel in Fenyves/Kerschner/Vonkilch (Hrsg), Großkommentar zum ABGB3 (2014) § 16 ABGB Rz 142; Schauer in Kletečka/Schauer (Hrsg), ABGB-ON1.02 (2017) § 16 Rz 21. Thurner, Bildmanipulation und Persönlichkeitsschutz in Zeiten von "Deepfakes", Medien und Recht 2019, 155. Reischauer, Das Persönlichkeitsrecht auf Achtung des Fernsprechgeheimnisses (§ 16 ABGB) und seine Bedeutung für das Dienstverhältnis, DRdA 1973, 207 (213); OGH 24.05.2018, 6 Ob 82/18d – Audioaufnahme von Gerichtsverhandlung; OGH 20.03.2003, 6 Ob 287/02b – MA2412 II.

[4] Vgl auch Pierer, Künstliche Intelligenz und Persönlichkeitsrecht , ecolex 2023, 752 (753).

[5] OGH 20.03.2003, 6 Ob 287/02b – MA2412 II.

[6] OGH 20.03.2003, 6 Ob 287/02b – MA2412 II.

[7] OGH 20.03.2003, 6 Ob 287/02b – MA2412 II.

[8] Ciresa in Ciresa (Hrsg), Österreichisches Urheberrecht (2018) § 78 UrhG Rz 13 f.

[9] RIS-Justiz RS0077982; Rein materielle Interessen werden jedoch nicht geschützt vgl OGH 08.09.2009, 4 Ob 146/09p – Werbespot.

[10] OGH 17.09.1996, 4 Ob 2249/96f - Fotomontage.

[11] Vgl OGH 17.09.1996, 4 Ob 2249/96f - Fotomontage.

[12] Deepfakes sind (meist) mittels Machine-Learning-Algorithmen synthetisierte Audio- oder Videodateien, die eine realitätsnahe, jedoch gefälschte Darstellung von Personen in bestimmten Kontexten ermöglichen.

 

Hinweis

Dieser Beitrag ist rein zum Konsum aus Interesse gedacht und stellt keine rechtliche Einschätzung oder Beratung dar!