Loading...

Jelenből a Jövőbe

Jelenből a Jövőbe / 2024. november 7., csütörtök

Gyorsabb és olcsóbb videókészítés

A videógenerálás, az egyik leggyorsabban fejlődő infokom technológia problémája, hogy óriási számítási kapacitások kellenek hozzá. Ha meg lehetne oldani kevesebb számítással, jelentősen bővülne a felhasználói kör.


Hollywood egyre jobban érdeklődik a technológia iránt, stúdiók gondolkoznak, hogy beépítsék a gyártást megelőző és a posztprodukciós munkákba.


videogeneralas.jpg


Kínai kutatók innovatív módszert találtak ki a probléma megoldására. A kódot és az előre gyakoroltatott modellt nem-kereskedelmi célokra és az éves egymillió dollárnál nem többet kereső cégek számára ingyen rendelkezésre bocsátják.


Azok a modellek, amelyek a zaj több lépésben történő eltávolításával generálnak kimeneteket, általában a zaj beágyazásból való eltávolítását tanulják meg tréning közben. A beágyazás kisebb mintájával indulnak, amelyet lépésről lépésre az eredeti mérethez közelítenek. Így a gyakorlás és a következtetés során kevesebb feldolgozást kell végezniük. A kínai kutatók modellje is így működik.


videogeneralas0.jpg


SD3 Medium képgenerátorral, kép-kódolóval és két szövegkódolóval dolgoztak. A képkódolót videóképkockák képeinek és szegmenseinek újraalkotására, az SD3 Mediumot a zaj nyolc videóképkockás beágyazásból való eltávolítására gyakoroltatták be. Szöveges és korábbi képkocka-szekvenciák beágyazásait adták meg neki. 


Kétféleképpen változtattak a bevett zajeltávolítási módszeren: térben és időben. Az elsőnél a beágyazás növelésével, az eltávolítottak utáni több zaj hozzáadásával. A lépések addig ismétlődnek, amíg a teljes méretű beágyazás zajmentes nem lesz. A másodiknál a beágyazás méretének folyamatos csökkentésével, korábbi képkockák hozzáadásával dolgoztak.


A szövegkódolók promptok alapján szöveg-beágyazásokat generálnak, amelyekből a zajokat eltávolítva, az SD3 Medium végül videót generál.


A modell jól teljesített a teszteken: a generált anyag esztétikailag, a mozgásokat és a promptokhoz való „hűséget” illetően más nyílt forrású modelleknél magasabb pontszámot ért el. Nvidia A100 GPU-n futtatva 241 hosszú képkockából 20700 óra alatt tanult meg videót készíteni. Egy másik jól teljesítő modell a gyorsabb Nvidia H100-on 37800 óra alatt tanult meg 97 képkockát létrehozni.


A különbség számottevő.


Tovább az eredeti oldalra!
0 Hozzászólás:
Legyél te az első hozzászóló!
Hozzászólás írásához be kell jelentkezni: