OpenAI wstrzymuje użycie popularnego głosu Sky w ChatGPT ze względu na obawy, że brzmi on zbyt podobnie do aktorki „Jej” Scarlett Johansson.
Firma twierdzi, że głosy w ChatGPT pochodziły od płatnych aktorów głosowych. Ostateczną piątkę wybrano z początkowej puli 400 osób i to czysty przypadek, że anonimowa aktorka podkładająca głos Sky ma podobny ton do Johansson.
Voice wkrótce stanie się bardziej widoczny w OpenAI, ponieważ zacznie wdrażać nowy model GPT-4o w ChatGPT. Wraz z nim pojawi się zupełnie nowy interfejs konwersacyjny, w którym użytkownicy będą mogli rozmawiać w czasie rzeczywistym z naturalnie brzmiącą i naśladującą emocje sztuczną inteligencją.
Dlaczego to wielka sprawa?
Chociaż głos Sky i wersja ChatGPT Voice są dostępne już od jakiegoś czasu, porównanie do Johanssona stało się bardziej oczywiste dzięki dyrektorowi generalnemu OpenAI Samowi Altmanowi i wielu innym osobom, które zauważyły podobieństwo między nowym modelem AI a filmem „Her”.
W „Her” Scarlett Johansson podkłada głos zaawansowanemu systemowi operacyjnemu opartemu na sztucznej inteligencji o imieniu Samantha, który nawiązuje romantyczny związek z samotnym pisarzem granym przez Joaquina Phoenixa. Dzięki zdolności do naśladowania reakcji emocjonalnych podobieństwa do GPT-4o były oczywiste.
To, co odróżnia GPT-4o od poprzednich modeli, a nawet wcześniejszej wersji ChatGPT Voice, to jego multimodalność. To tutaj został przeszkolony i potrafi rozumieć (a także generować) obrazy, tekst, wideo i oczywiście mowę.
W przeciwieństwie do innych modeli multimodalnych, umożliwi rozmowy w czasie rzeczywistym, a nawet emocjonalny i dostosowujący się głos.
Biorąc pod uwagę zwiększone emocje w brzmieniu głosu ChatGPT, istnieje ryzyko, że zostanie on niewłaściwie wykorzystany lub użyty do tworzenia deepfake’ów, więc z pewnością zrozumiemy wszelkie obawy zespołu Johanssona w tej kwestii, ponieważ głosy naprawdę brzmią podobnie.
Jak powstają głosy?
W aktualnej wersji ChatGPT Voice dostępnych jest obecnie pięć głosów, które będą również używane podczas premiery nowej wersji — Breeze, Cove, Ember, Juniper i Sky.
OpenAI twierdzi, że nawiązał współpracę z wybranymi aktorami głosowymi, udzielił licencji na ich głosy i pobrał próbki do wykorzystania w aplikacji. Pisanie w A post na bloguOpenAI stwierdziło: „Każdy aktor otrzymuje wynagrodzenie przekraczające najwyższe stawki rynkowe i będzie to obowiązywać tak długo, jak długo ich głosy będą wykorzystywane w naszych produktach”.
OpenAI szukało aktorów, którzy otrzymaliby wynagrodzenie, i korzystało z pomocy wielokrotnie nagradzanych reżyserów castingów, aby ich znaleźć. To było na początku zeszłego roku, a nadesłano ponad 400 zgłoszeń.
Wybrali pięciu z listy i każdy aktor został przewieziony samolotem do San Francisco na sesję nagraniową. Próbki z tej sesji szkoliły nowe modele głosu AI, przy czym każdy aktor odpowiadał innemu z pięciu głosów.
„Uważamy, że głosy sztucznej inteligencji nie powinny celowo naśladować charakterystycznego głosu celebryty – głos Sky nie jest imitacją Scarlett Johansson, ale należy do innej profesjonalnej aktorki, która używa własnego, naturalnego głosu” – stwierdziła firma, dodając, że nie może jej udostępnić nazwa.
Tymczasem „Her” jest obecnie dostępny do transmisji strumieniowej Maks.
- Apple podobno jest blisko porozumienia z OpenAI — czy ChatGPT może być nową Siri?
- OpenAI wypuszcza zbiór zasad ChatGPT — co to oznacza dla użytkowników
- „GPT-4 to najgłupszy model, jakiego kiedykolwiek będziecie musieli używać” – deklaruje dyrektor generalny OpenAI Sam Altman, stawiając duże nadzieje na superinteligencję
