Loading...

Jelenből a Jövőbe

Jelenből a Jövőbe / 2024. március 8., péntek

Fejlesztik és eddig kifejezetten ígéretes az Amazon nagy szöveget beszéddé alakító nyelvmodellje

Az Amazon kutatói új nagy nyelvmodellen (LLM) dolgoznak, szöveget alakít beszéddé (text-to-speech). BASE TTS 980 paraméteres, változatos méretű modelleket treníroztak hozzá, az MI változatai százezer órát töltöttek el nyilvános beszédadatokkal.


Figyelték, hogy bizonyos szintet átlépve, ugyanazok a teljesítménybeli ugrások jellemzik-e, mint a természetesnyelv-feldolgozó MI-ket, és rájöttek, hogy a tízezer órányi audióanyagon gyakoroltatott, közepes méretű 400 millió paraméteres modell sokoldalúságban és robusztusságban is jelentősen javult trükkös tesztmondatoknál.


amazon_9.jpg


A tesztmondatok komplex lexikai, szintaktikai és paralingvisztikai elemeket tartalmaztak: összetett főneveket, érzelmeket, idegen szavakat, és a szöveg-beszéd rendszereket általában megzavaró ékezeteket. Bár a modell nem kezelte őket tökéletesen, hasonló MI-rendszerekkel összehasonlítva, kevesebbet hibázott hangsúlyban, kiejtésben, intonációban.


A mondatokat eleve úgy tervezték, hogy komoly buktatók, kihívások legyenek bennük elrejtve, és egyikük sem volt olyan, mint a gyakoroltatáshoz használtak. Az eredmény azt jelenti, hogy az MI emergens (a semmiből, váratlanul előbukkanó) készségekre tehetett valamikor szert.


A legnagyobb, 980 paraméteres változatot százezer órányi hanganyagon gyakoroltatták, és a 400 millió paraméteressel összevetve, hiába jóval nagyobb, semmiféle plusz adottságot nem figyeltek meg rajta.


A projekt ugyan kísérleti, de BASE TTS jól szemlélteti, hogy ezek a modellek, méretezés hatásaként, új sokoldalúsági küszöbértéket érhetnek el – intelligensebbek lesznek –, ami nagyon bíztató jel a beszélgető MI-fejlesztéseknek.


A kutatók folytatják munkájukat, hogy rájöjjenek: mi az optimális modellméret emergens képességekhez?


A modellt úgy tervezték, hogy könnyű és streamelhető legyen, az érzelmi és a prozódiai adatokat külön-külön, egymástól gondosan szétválasztva csomagolták belé. Így vált lehetővé a természetes nyelvinek tűnő beszélt audióanyag alacsony sávszélességű kapcsolatokon keresztüli továbbítása.


Tovább az eredeti oldalra!
0 Hozzászólás:
Legyél te az első hozzászóló!
Hozzászólás írásához be kell jelentkezni: