StoryToolkitAI dodaje generowanie i tłumaczenie napisów do Resolve


Uwielbiam, gdy ludzie dbają o swoje napisy. Robi to zbyt mało osób w YouTube, a jest to szalenie ważne z punktu widzenia podstawowych ułatwień dostępu. Co więcej, mnóstwo ludzi (w tym ja) woli oglądać filmy z włączonymi napisami. I chociaż sam proces transkrypcji może być żmudny, możesz mieć dużo metatekstowej zabawy z autorskimi napisami dla efektu dramatycznego, w szczególności z napisy opisowe. Chcę więc trochę porozmawiać o narzędziu, którego używam w DaVinci Resolve o nazwie StoryToolkitAI, które nie tylko upraszcza ten proces, ale w rzeczywistości ma wbudowane podstawowe usługi tłumaczeniowe.

Czym są SRT?

SRT to jeden z najpopularniejszych formatów przechowywania napisów.
Zrzut ekranu: Chris Person / The Verge

Zanim jednak do tego przejdziemy, musimy porozmawiać o formatach napisów. Pliki SRT (znane również jako pliki napisów SubRip) są jedną z najpopularniejszych form formatów napisów. Jest to prosty plik tekstowy z czatem i kodami czasowymi, który może być łatwo zrozumiany przez Youtube, VLC i inne. Istnieje mnóstwo innych formatów, w tym jeden, który oferuje możliwość zaawansowanego formatowania, koloru i pozycji i jest używany głównie przez fanów anime i japońskiej telewizji (krzyk do odpowiednio nazwanego Advanced SubStation Alpha lub formatu .ass), ale SRT pliki są łatwe w obsłudze i zrozumiałe dla plików programów, takich jak DaVinci Resolve.

Premiera kontra rozwiązanie

Zasadniczo nie jestem fanem oprogramowania do edycji wideo Adobe Premiere. Myślę, że jest to zepsute, drogie oprogramowanie z bardzo irytującym i drapieżnym modelem subskrypcji, który w tym momencie jest (prawie) przebijany przez DaVinci Resolve. Główną cechą, która początkowo przekonała mnie do Resolve i skłoniła mnie do przeniesienia całego przepływu pracy, była w rzeczywistości efektywność i łatwość tworzenia napisów w nim w porównaniu z Premiere, która była koszmarem i cały czas się zawieszała.

Reklama

Nie lubię Adobe Premiere, ale uznanie należy się: jego transkrypcja jest naprawdę dobra.
Zrzut ekranu: Chris Person / The Verge

Od tego czasu Premiere szybko poprawił jedną rzecz: transkrypcję wywiadów. Nawet jeśli nadal nie lubię używać, a zwłaszcza płacić za produkt, poświęcają tutaj trochę czasu na ulepszanie produktu. Bez dwóch zdań, najciekawsza praca wykonywana w Premiere ma związek z funkcjami chmury obejmującymi transkrypcję. Korzystanie z niego to przyjemność, a kiedy działa, działa. Będziesz musiał opiekować się nim przez większość czasu, a każdy wynik będzie oczywiście wymagał kolejnej zgody redaktora, ale zmniejsza to przepływ pracy związany z synchronizacją tych rzeczy o ogromny margines. Iterują to również w naprawdę interesujący sposób, w szczególności „edycja tekstowa”, mimo że uważam, że sam proces pracy z napisami jest o wiele mniej przyjemny niż DaVinci. Edytor napisów DaVinci był konsekwentnie o wiele bardziej intuicyjny, mniej opóźniony, lepiej rozplanowany i znacznie bardziej elastyczny niż Premiere.

Dodanie bardzo przydatnej funkcji

Tak więc obecnie istnieje dziura w kształcie transkrypcji w zestawie funkcji Resolve w porównaniu z Premiere. W przeszłości korzystałem z transkrypcji opartej na Pythonie o nazwie pyTranscriber, która przepuszcza dźwięk przez interfejs API Google Speech Recognition. Na szczęście ktoś ma rozwiązanie w postaci Whisper, projektu autorstwa OpenAI. Rozmawialiśmy wcześniej o Szept do transkrypcji. Od tego czasu kilka osób zastosowało kod w wielu projektach i dodało kilka nakładek interfejsu użytkownika. Najnowsza i najciekawsza jest StoryToolkitAI.

StoryToolkitAI nie jest oprogramowaniem zbudowanym przez Blackmagic Design. Jest to projekt GitHub autorstwa programisty Octimot, który działa na Whisper i Pythonie OpenAI i korzysta z interfejsu API Resolve. W rezultacie instalacja jest nieco skomplikowana. Osobiście miałem poważne problemy z instalacją, dopóki nie sprawdziłem strony problemów w repozytorium, zdałem sobie sprawę, że mam zainstalowane sprzeczne wersje Pythona, odinstalowałem i ponownie zainstalowałem poprawne wersje i uruchomiłem.

StoryToolkitAI jest oparty na Whisper OpenAI i całkiem nieźle radzi sobie z transkrypcją.
Zrzut ekranu: Chris Person / The Verge

Aby go uruchomić, musisz upewnić się, że Resolve działa z włączonymi skryptami, a następnie zainstalować i otworzyć oprogramowanie. Wykona pewną instalację, zainstaluje zależności, a następnie uruchomi się. Stamtąd StoryToolkitAI będzie musiał wyeksportować wstępną wersję twojej osi czasu w Resolve do wybranego przez ciebie folderu, gdzie użyje Whisper do uruchomienia transkrypcji w oparciu o jeden z wielu dostępnych modeli językowych. Gdy to zrobisz, możesz przejrzeć i przeszukać transkrypcję, zsynchronizować tę transkrypcję z osią czasu w Resolve, wrzucić plik SRT i nie tylko.

StoryToolkitAI ma dla mnie dwie ogromne zalety: jest bezpłatny i działa lokalnie, co oznacza, że ​​nie musisz płacić Adobe ani korzystać z ich serwerów lub oprogramowania do uczenia maszynowego, które nazywają Adobe Sensei. Przyznaję, że produkt Adobe jest obecnie płynniejszy i łatwiejszy w obsłudze, ale jak na coś oferowanego za darmo w repozytorium GitHub, StoryToolkitAI działa bardzo dobrze. Z moich testów wynika, że ​​StoryToolkitAI całkiem nieźle radzi sobie z ustalaniem czasu mówiącego, transkrypcją, rozpoznawaniem właściwych rzeczowników i umieszczaniem tych napisów we właściwym momencie, chociaż prawie zawsze występują błędy. W szczególności musisz pilnować początku i końca klipu, ponieważ czasami napisy zawieszają się dłużej niż powinny. Zauważyłem, że ma trudności z wieloma głośnikami, przesłuchami, a czasami zostaje wyrzucony przez odgłosy tła i długą ciszę. Zawsze będziesz musiał posprzątać, co na szczęście sprawia radość w Resolve, ale jako pierwszy szkic sprawdza się świetnie.

Ponadto StoryToolkitAI ma również możliwość pobrania tej transkrypcji, przeszukania jej i przekształcenia poszczególnych części transkryptu w znaczniki. Oznacza to, że możesz wyszukiwać i zapisywać oś czasu na podstawie czasów, w których mówca wspomina określone słowo lub temat, co jest bardzo przydatną funkcją, która działa porównywalnie z zestawem narzędzi Adobe. Nawet poza Adobe porównywalne usługi, takie jak Trint będą cię kosztować znacznie więcej, chociaż w tym momencie liczy się niezawodność.

StoryToolkitAI ma jeszcze jedną wartą odnotowania funkcję: Tłumaczenie.

Zna język japoński. Raczej. Przynajmniej rzeczowniki i czasowniki

StoryToolkitAI używa Whisper, który obsługuje tłumaczenie wielu języków (z różnym powodzeniem w zależności od języka).
Zrzut ekranu: Chris Person / The Verge

Ważne jest, aby mieć trzeźwe oczekiwania, jeśli chodzi o to, co sztuczna inteligencja może i powinna zrobić. Ciągle widzę, jak ludzie przesadzają i przesadzają ze sztuczną inteligencją, co jest nie tylko irytujące, ale szkodzi temu, co jest faktycznie możliwe dzięki tej technologii. Co więcej, myślę, że wiele obecnych pomysłów na sztuczną inteligencję jest leniwych, pozbawionych podstawowej intencji ludzkiej ręki i aspirujących do niezwykle ponurej przyszłości.

Tłumaczenie to bardzo złożony proces – wielu powiedziałoby, że jest sztuką – który wymaga od osoby upewnienia się, że jest wykonany poprawnie. Uczenie maszynowe z pewnością staje się coraz lepsze, ale wyniki, które otrzymujesz może się bardzo różnić od modelu do modelu, więc potrzebujesz człowieka, aby upewnić się, że wyniki są dokładne. To samo dotyczy wszelkich angielskich napisów zawierających tekst opisowy. Uczenie maszynowe nie może właściwie zrozumieć, co dzieje się w scenie, po prostu słuchając. Powiedziawszy to, StoryToolkitAI wydaje się przyzwoitym narzędziem do pomocy w synchronizacji i tłumaczeniu napisów, w zależności od języka.

Po raz pierwszy zauważyłem to podczas próby transkrypcji osi czasu w większości anglojęzycznej, która zawierała materiał filmowy z gry Yakuza Kiwami. StoryToolkitAI nie tylko zaznaczył, że mówca mówi po japońsku, ale także postarał się to przetłumaczyć i okazało się, że zrobił to dobrze. Próbowałem też przepuścić przez to kilka już przetłumaczonych klipów i wydawało się to wystarczająco sprytne, aby poprawnie odczytać wiele podstawowych rzeczowników i czasowników, bez kontekstu. Czy odpowiada niuansom i solidności prawdziwego tłumaczenia? Absolutnie nie, szczególnie nie w przypadku języka takiego jak japoński, w którym kontekst ma kluczowe znaczenie. Ale widziałem, jak upraszcza to godziny pracy z synchronizacją napisów dla doświadczonego tłumacza.

Jako narzędzie do pierwszego szkicu napisów i dodania niewielkiej dostępności do twoich filmów, nie mogę wystarczająco polecić StoryToolkitAI. Jest trochę chwiejny i szorstki na brzegach, instalacja jest trochę skomplikowana i nie ma finezji transkrypcji Premiere, ale tego można się spodziewać. Nie muszę też dawać Adobe pieniędzy, a to tylko kwestia czasu, zanim coś takiego zostanie dodane do Resolve. Twórcy StoryToolkitAI twierdzą również, że dodają nowe funkcje, takie jak integracja z innymi narzędziami sztucznej inteligencji i uczenia maszynowego, i chciałbym zobaczyć narzędzie, które pozwala na niestandardowy wybór określonego modelu języka do transkrypcji. A jeśli chodzi o uczenie maszynowe, Whisper i konkurencyjne modele stają się coraz bardziej niezawodne. Jako tłumacz? To zabawne, a do małych rzeczy jest całkiem przydatne, ale powinieneś dostać kogoś, kto nie jest maszyną.



Source link

Advertisment

Więcej

ZOSTAW ODPOWIEDŹ

Proszę wpisać swój komentarz!
Proszę podać swoje imię tutaj

Advertisment

Podobne

Advertisment

Najnowsze

Ottocast sprawia, że ​​rozrywka w samochodzie staje się niesamowita [Save 30%]

Jeśli Twój samochód ma fabrycznie zainstalowaną funkcję CarPlay lub Android, eksperci ds. bezprzewodowej rozrywki samochodowej pod adresem Ottocast chcesz doładować rozrywkę w samochodzie....

Technologia muzyczna z Geertem Bevinem z Moog Music

W tym odcinku Visioneers Zac Hall z 9to5Mac spotyka się z Geertem Bevinem, dyrektorem ds. rozwoju oprogramowania w Moog Music, aby przeprowadzić wnikliwą...

Apple powiadamia zwycięzców konkursu Swift Student Challenge 2024

Jak zgłoszono we wtorekFirma Apple powiadomiła dziś zwycięzców konkursu Swift Student Challenge 2024. Dla niewtajemniczonych konkurs zachęca programistów do pochwalenia się swoimi...
Advertisment