Soniox przedstawia zaawansowany model transkrypcji AI AudioMind


Kalifornijski start-up Soniox zaprezentował AudioMind, swój pierwszy model sztucznej inteligencji zdolny do głębokiego zrozumienia dźwięku i przekształcania rozmów i transkrypcji w przydatne informacje. Soniox, będący już liderem w dziedzinie przetwarzania języka angielskiego na tekst i przetwarzania języka naturalnego, idzie znacznie dalej, opracowując sztuczną inteligencję, która jest w stanie w pełni zrozumieć świat i ludzi za pomocą dźwięku, mając na celu rozwiązywanie problemów wymagających interakcji w świecie rzeczywistym.

Kalifornijski start-up Soniox zaprezentował AudioMind, swój pierwszy model sztucznej inteligencji zdolny do głębokiego zrozumienia dźwięku i przekształcania rozmów i transkrypcji w przydatne informacje. Soniox, będący już liderem w dziedzinie przetwarzania języka angielskiego na tekst i przetwarzania języka naturalnego, idzie znacznie dalej, opracowując sztuczną inteligencję, która jest w stanie w pełni zrozumieć świat i ludzi za pomocą dźwięku, mając na celu rozwiązywanie problemów wymagających interakcji w świecie rzeczywistym.

Soniox opisuje AudioMind jako pierwszy na świecie model sztucznej inteligencji zdolny do zrozumienia pełnego bogactwa dźwięku. Ale jak zawsze, ogólne i nieco abstrakcyjne definicje nie obejmują w pełni tego, co jest w istocie bardzo użyteczną i pożądaną aplikacją do transkrypcji AI.

Założona w 2020 roku i obecnie z siedzibą w Foster City w Kalifornii firma Soniox opracowała jedno z najlepsze silniki rozpoznawania mowy w sklepie. Firma oferuje obecnie jeden z wiodących dostępnych na rynku silników transkrypcyjnych opartych na chmurze – taki, który audioXpress z powodzeniem wykorzystuje do przeprowadzania wywiadów i ogólnej konwersji mowy na tekst.

Koncentrując się na sztucznej inteligencji mowy, firma Soniox wprowadziła w 2021 r. pierwszą na świecie metodę uczenia się bez nadzoru w zakresie rozpoznawania mowy. Ta innowacja była niezbędna do przezwyciężenia ograniczeń, które wcześniej utrudniały działanie systemu mowy.

W 2023 r. firma Soniox rozpoczęła przechodzenie ze sztucznej inteligencji mowy na ogólną sztuczną inteligencję, wykorzystując swoją wyjątkową wiedzę specjalistyczną w zakresie uczenia się bez nadzoru i głębokiego zrozumienia tworzenia dokładnej, niezawodnej i wydajnej technologii sztucznej inteligencji. Niedawno Soniox ogłosił, że ciężko pracuje nad własnym modelem dużego języka (LLM) i ogłosił Soniox 7B. LLM obsługujący język angielski i kod w kontekście 8K, zbudowany na bazie Mistral 7B, LLM stworzony przez francuską firmę Mistral.ai, wzbogacony o dodatkowe szkolenie wstępne i dostrajanie w celu uzyskania silnych możliwości rozwiązywania problemów. Według Soniox, wielkojęzyczny model Soniox 7B przewyższa Mistral 7B we wszystkich testach porównawczych, a w niektórych benchmarkach dorównuje GPT-4. Teraz Soniox wykorzystał wnioski wyciągnięte z Soniox 7B, aby stworzyć prawdziwego agenta AI.

Reklama

„Dziś przypada znaczący kamień milowy w sztucznej inteligencji: wypuszczenie AudioMind, pierwszego modelu sztucznej inteligencji zdolnego do głębokiego zrozumienia dźwięku, zapewniającego dostęp do pełnego spektrum doświadczeń słuchowych” – stwierdza Klemen Simonic, dyrektor generalny Soniox. „Misją Soniox jest zrozumienie świata i ludzi poprzez dźwięk. Zaczęliśmy od zbudowania najdokładniejszej sztucznej inteligencji do rozpoznawania mowy. Dziś przedstawiamy AudioMind, pierwszy na świecie model sztucznej inteligencji zdolny do zrozumienia pełnego bogactwa dźwięku”.

 

AudioMind został przeszkolony w zakresie słuchania i rozumienia dźwięku w sposób podobny do przetwarzania przez człowieka. Potrafi rozpoznawać mowę, identyfikować mówiących, rozróżniać ton, płeć, emocje i rozróżniać dźwięki otoczenia od dźwięków wytwarzanych przez człowieka. Model jest w stanie podsumowywać i tworzyć dokumenty w niestandardowym formacie bezpośrednio z dźwięku, co nie jest możliwe w przypadku metod opartych wyłącznie na tekście. Obsługuje język angielski i może przetwarzać pliki audio o długości do 60 minut, a 1 godzinę dźwięku przetwarza w około 3 minuty.

„AudioMind stanowi znaczący krok naprzód w wykorzystaniu mocy dźwięku. Mamy nadzieję, że zmieni naszą interakcję ze światem audio, odblokowując nowe możliwości i katalizując falę innowacyjnych zastosowań w różnych dziedzinach” – dodaje Simonic.

Na stronie internetowej firmy Soniox opublikował serię przykładów wygenerowanych bezpośrednio przez AudioMind bez modyfikacji, które mają na celu zademonstrowanie możliwości AudioMind w zakresie generowania transkryptów, inteligencji głośników, inteligencji dźwięku, podsumowań audio, tworzenia dokumentów audio, pytań i odpowiedzi audio oraz interakcji głosowej . Przykłady pokazują, jak AudioMind generuje niestandardowe transkrypcje po wyświetleniu monitu, rozumiejąc instrukcje formatowania. Na tych przykładach możemy zobaczyć, jak AudioMind może to zrobić rozpoznaćidentyfikować i rozumieć stan mówiącego na podstawie głosu, a także rozpoznawać dźwięki i rozumieć ich kontekst w ogólnym środowisku dźwiękowym.

 

AudioMind umożliwia również niestandardowe podsumowanie dźwięku za pomocą instrukcji dostarczonych przez użytkownika za pomocą podpowiedzi i może konwertować dźwięk na dokumenty o niestandardowym formacie, wykorzystując wszystkie dostępne informacje o dźwięku, aby zapewnić organizację i format treści zgodnie z opisem w podpowiedzi. Model jest nawet w stanie odpowiedzieć na złożone pytania dotyczące treści audio, takie jak identyfikacja tematów rozmów, przypisywanie dialogów konkretnym mówcom oraz analiza tonów i dźwięków emocjonalnych.

Dźwięk może również służyć jako metoda podpowiedzi. Zamiast pisać, można wypowiadać podpowiedzi, a AudioMind słyszy głos użytkownika ze szczegółami.

Klemen Simonic, założyciel i dyrektor generalny Sonix, wnosi ponad 12-letnie różnorodne doświadczenie branżowe i akademickie w dziedzinie sztucznej inteligencji, zdobyte podczas pracy w Facebooku, Google, Uniwersytecie Stanforda i Uniwersytecie w Lublanie w Słowenii. Jako jeden z założycieli zespołu ds. mowy Facebooka, Klemen opracował technologie mowy obejmujące wykrywanie aktywności głosowej, identyfikację języka i systemy automatycznego rozpoznawania mowy.

Ambroz Bizjak jest współzałożycielem Soniox i głównym architektem. Ambroz poznał Klemena na Uniwersytecie w Lublanie w Słowenii podczas jego studiów licencjackich z matematyki i informatyki. Po ukończeniu studiów Ambroz przez 8 lat pracował w Cosylab, gdzie opracował podstawowe oprogramowanie dla systemów sterowania akceleratorami cząstek, reaktorami termojądrowymi i systemami terapii nowotworowej stosowanymi na całym świecie. Inżynierowie i naukowcy zaangażowani w te niezwykle efektowne projekty uznali Ambroza za jednego z najbardziej wyjątkowych programistów na świecie.

AudioMind jest w trybie podglądu i o dostęp można poprosić tutaj.

www.soniox.com



Source link

Advertisment

Więcej

Advertisment

Podobne

Advertisment

Najnowsze

NVIDIA DLSS pojawia się w Manor Lords i dwóch kolejnych grach

Ponad 500 gier i aplikacji wykorzystuje technologie RTX, a zaledwie tydzień nie ma nowej, niesamowitej gry integrującej technologię NVIDIA DLSS, NVIDIA Reflex i...

Ghost of Tsushima: Director’s Cut otrzymuje oficjalne wymagania sprzętowe na PC

Nixxes Software opublikowało oficjalne wymagania systemowe gry Ghost of Tsushima: Director's Cut, której oficjalna premiera odbędzie się 16 maja. Ponadto gra będzie...

Linia Razer Huntsman V3 Pro z analogowymi przełącznikami optycznymi Gen-2 uwalnia precyzję

W konkurencyjnym świecie gier, gdzie liczy się każda milisekunda, narzędzia, którymi posługujesz się, mogą zadecydować o porażce lub zwycięstwie. Każde naciśnięcie klawisza...
Advertisment