Loading...

Jelenből a Jövőbe

Jelenből a Jövőbe / 2023. november 3., péntek

Hogyan javítsunk a promptokon?

A nagy nyelvmodellek (LLM) legújabb generációja túlmutat a nyelven. Ezekkel a mesterséges intelligenciákkal már multimodálisan, szöveg mellett vizuálisan, a kép-szöveg valamilyen kombinációjával, hang és más módszerekkel is kommunikálunk, változatos utasításokat, promptokat adhatunk nekik, amelyekre aztán valamilyen választ generálnak.


Az OpenAI GPT-4V, azaz a vizuális elemmel kiegészült GPT-4 ma a legismertebb ilyen modell. A Microsoft kutatói behatóan tesztelték a benne rejlő potenciált, és változatos feladatokat használva értékelték ki a promptolás adta lehetőségeket.


prompt_1.jpg


Az opciók között képek, szavak és számítógépes kódok közötti kifinomult interakciók is szerepeltek. A beszámolókban csak – pozitív és negatív – kvalitatív eredmények olvashatók. Más konkurens modellel, például a LLaVA-val nem végeztek összehasonlítást.


A GPT-4V-nek vizuális promptot adva, egy képen belül kiemelve az érdeklődésre számot tartó részt, majd dobozokkal és szöveges címkékkel hangsúlyozva azt, a modell teljesítménye folyamatosan javult.


prompt0_1.jpg


Nem sorrendbe rakott képsorozatot látva, a GPT-4V azonosította az első eseményt, majd előrejelezte a következőket. Amikor pontos sorrendben kapta meg a képeket, leírta a cselekménysorozatot.


Amikor tengerparti tájról kapott fényképet, és arra kérték, hogy csökkentse a nézők érdeklődését, elmagyarázta, hogy a sziklák csúszósak és élesek, a hely pedig alkalmatlan a fürdésre.


Koponya MRI-vizsgálata alapján, szakértő radiológusi véleményt kértek a modelltől, amelyre pontos diagnózissal állt elő. A kiértékelést szakemberek végezték.


Egyszer a GPT-4V által generált képaláírások több részletet tartalmaztak, mint a valóságos példák. A kutatók ebből azt a következtetést vonták le, hogy a meglévő benchmarkok (kiválóság, teljesítmény mércéje, amelyhez hasonlókat kell mérni, megítélni) nem teszik lehetővé a kép tartalmának megértését.


A kvalitatív példák látványosak, de úgy válogatták össze őket, hogy csak felvillantsanak valamit a GPT-4V lehetőségeiből. A Microsoft szerint a modell viselkedése nem konzisztens, és bőven akad rajta finomítani való.


Tovább az eredeti oldalra!
0 Hozzászólás:
Legyél te az első hozzászóló!
Hozzászólás írásához be kell jelentkezni: