Loading...

Jelenből a Jövőbe

Jelenből a Jövőbe / 2024. szeptember 4., szerda

Magasra tette a lécet a Google legújabb képgenerátora, az Imagen 3

A képgenerátorok minden egyes új hullámával javul, szélesebb alkalmazói réteg számára lesz hasznosabb a technológia.


A Google nemrég mutatta be a korábbi változatokhoz képest előrelépést hozó Imagen 3, szöveges utasításokból vizuális outputot generáló modelljét. A képek minősége jobb, jobban visszaadják a promptokban leírtakat. Az Imagen 3 újabb funkciókkal bővült, hamarosan elérhető lesz a „befestés” és a „kifestés” is.


imagen.jpg


A modell – a fejlesztő állítása alapján – elődeinél több célra használható, a gyakorlóadatok biztonsági okok miatti szűrése viszont egyes helyzetekben csökkentheti a hasznosságát. Felhasználók panaszkodtak is már, hogy az Imagen 3 restriktívebb az Imagen 2-nél, míg a Grok2 nagy nyelvmodell (LLM) a Flux.1 korlátlan változatát használja képgeneráláshoz, amivel fel is keltette a média figyelmét. (és amire irigykednek az Imagen 3 felhasználói.)


imagen0.jpg


Az óvatosság, előrelátás mindenesetre nem árt szöveget képpé alakító alkalmazások esetében, ráadásul a gyakorlóadatokat egyébként is kezdik szigorúbban kezelni a fejlesztők (például azért, hogy az appok ne legyenek elfogultak, előítéletesek).


Az Imagen 3 a Google ImageFX webes felhasználói felületén és a Vertex AI platformon érhető el. Nem sokkal a Black Forest Lab (változatonként eltérően nyitott) Flux.1 modellcsaládja, a Midjourney v6.1 és a Stability AI Stable Diffusion XL-e után tették elérhetővé. Előbbiek mind júliusban debütáltak.


imagen2.jpg


A modellt leíró tanulmányban nem mutatják be részletesen az architektúrát és a gyakorlási folyamatot. A fejlesztők képeket, szövegeket és kapcsolódó annotációkat tartalmazó, nem specifikált „nagy” adatkészleten treníroztak diffúziós modellt. Az adatkészletből eltávolították a nem biztonságos, a gyenge minőségű, az erőszakos képeket, a duplikátumokat és a személyek azonosítására alkalmas infókat.


imagen1.jpg


A Google Gemini LLM-je néhány képaláírást generált, ezeket a gyakoroltatáshoz használták, hogy változatosabb legyen a modell nyelvezete.


A teszteken a prompt-alapú összehasonlításoknál az Imagen 3 felülmúlta a legtöbb versenytársat.


Tovább az eredeti oldalra!
0 Hozzászólás:
Legyél te az első hozzászóló!
Hozzászólás írásához be kell jelentkezni: