Stable Audio 2.0, model generowania dźwięku dla Stability AI, umożliwia teraz użytkownikom przesyłanie własnych próbek audio, które mogą następnie przekształcać za pomocą podpowiedzi i tworzyć utwory generowane przez sztuczną inteligencję. Ale te piosenki nie zdobędą jeszcze żadnej nagrody Grammy.
The pierwsza wersja Stable Audio został wydany we wrześniu 2023 r. i niektórym płacącym użytkownikom oferował tylko do 90 sekund, co oznaczało, że mogli tworzyć tylko krótkie klipy dźwiękowe do eksperymentowania. Stable Audio 2.0 oferuje pełny, trzyminutowy klip dźwiękowy — długość większości utworów radiowych. Wszystkie przesłane pliki audio muszą być wolne od praw autorskich.
W przeciwieństwie do OpenAI model generowania dźwięku, silnik głosowyktóra jest dostępna tylko dla wybranej grupy użytkowników, Stability AI udostępniła Stable Audio bezpłatnie i publicznie za pośrednictwem swojej witryny internetowej, a wkrótce także interfejsu API.
Dużą różnicą między Stable Audio 2.0 a jego wcześniejszą wersją jest możliwość tworzenia utworów brzmiących jak piosenki, łącznie ze wstępem, progresją i zakończeniem, mówi Stability AI.
Firma pozwoliła mi pobawić się trochę ze Stable Audio, żeby zobaczyć, jak to działa, i powiedzmy, że przede mną jeszcze długa droga, zanim będę mógł wykorzystać moją wewnętrzną Beyoncé. Wraz z natychmiastową „ludową piosenką popową z amerykańskimi klimatami” (nawiasem mówiąc, miałem na myśli muzykę amerykańską), Stable Audio wygenerowało utwór, który w niektórych momentach brzmi tak, jakby należał do mojej playlisty Mountain Vibes Listening Wednesday Morning Spotify. Ale dodało też, jak sądzę, wokale? Inny Skraj reporter twierdzi, że brzmi to jak odgłosy wielorybów. Bardziej martwię się, że przypadkowo przywołałem istotę do mojego domu.
Teoretycznie mógłbym dostosować dźwięk, aby był bardziej mój styl słuchania, ponieważ nowe funkcje w Stable Audio 2.0 pozwalają użytkownikom dostosować swój projekt, dostosowując siłę podpowiedzi (czyli to, jak bardzo należy przestrzegać podpowiedzi) i jaką część przesłanego dźwięku zmodyfikuje . Użytkownicy mogą także dodawać efekty dźwiękowe, takie jak ryk tłumu lub stukanie w klawiaturę.
Pomijając dziwne odgłosy wielorybów gregoriańskich, nie jest niespodzianką, że utwory generowane przez sztuczną inteligencję nadal wydają się bezduszne i dziwne. Mój kolega Wesa Davisa Rozmyślałem o tym po wysłuchaniu piosenki generowane przez Suno. Inne firmy, takie jak Meta i Google, również zajmowały się generowaniem dźwięku AI, ale nie opublikowały publicznie swoich modeli, ponieważ zbierają opinie od programistów w celu rozwiązania problemu bezdusznego dźwięku.
Stability AI poinformowało w komunikacie prasowym, że Stable Audio jest szkolone na danych z AudioSparx, który dysponuje biblioteką ponad 800 000 plików audio. Stability AI utrzymuje, że artyści pracujący w ramach AudioSparx mogli zrezygnować z materiałów w celu wytrenowania modelu. Szkolenie w zakresie dźwięku chronionego prawem autorskim było jednym z powodów, dla których były wiceprezes Stability AI ds. dźwięku, Ed Newton-Rex, opuścił firmę wkrótce po uruchomieniu Stable Audio. W przypadku tej wersji Stability AI twierdzi, że nawiązała współpracę z Audible Magic, aby wykorzystać technologię rozpoznawania treści do śledzenia i blokowania przedostawania się na platformę materiałów chronionych prawem autorskim.
Stable Audio 2.0 lepiej niż poprzednia wersja sprawia, że utwory brzmią jak piosenki, ale to jeszcze nie wszystko. Jeśli model będzie nalegał na dodanie jakiegoś wokalu, być może następna wersja będzie miała bardziej rozpoznawalny język.