Jelenből a Jövőbe / 2025. február 28., péntek

A webes ágensek keresési nehézségei

Speciális célok megvalósításáért böngészni a webet nagy nyelvi modelleken (LLM), de még látás-nyelvmodelleken (VLM) alapuló ágenseknek is komoly kihívás. Egyes megközelítések az alapmodell gyakoroltatásakor kezelik a problémát, az ágensarchitektúra viszont változásokat hozhat.

A pittsburghi Carnegie Mellon Egyetem (CMU) kutatói fabejáró technikát vezettek be nyelvmodell-ágenseknek. A módszerrel ugyanúgy kezelhetik a webes interakciókat, mint a fabejárásnál. A fabejárás vagy fakeresés fa-adatszerkezetek minden egyes csúcsának egyszeri feldolgozása, egyfajta gráf-bejárás. Ezeket az algoritmusokat a csúcsok bejárási sorrendje alapján osztályozzák. A CMU ágensei lehetséges cselekvési láncokat tárhatnak fel, és a hibák megismétlését kerülhetik el így.

Webes feladatok, például egy adott cikk árának megkeresése közbülső cselekvések sorozatát igényli: a helyes oldalra navigálni, görgetés a cikk megtalálásához, a cikk képe és az oldalon lévő kép összekapcsolása stb. Ha az ágens rossz linkre klikkel, eltévedhet. A lehetséges cselekvések kiértékelési és a weblapok előző állapotaira való emlékezés képessége segítheti hibái korrigálásában, a célt megvalósító cselekvéslánc kiválasztásában.

Egy GPT-4o-n alapuló ágens kétszáz feladattal próbálkozott, online kiskereskedelmi üzletet, Reddit-féle fórumot és apróhirdetés-jegyzéket utánzó weboldalakat használva. A feladatok között szerepelt egy adott címre szállítandó áru megrendelése, konkrét képek keresése a fórumon, hirdetés feladása. A kutatók az összes interakcióra alkalmas vizuális elemet határoló kerettel és numerikus ID-vel azonosító, speciális módszerrel kommenteltek minden egyes oldalt.

Az ágens weboldallal és utasítással kezdte, az oldalról képet juttatott el az LLM-nek, amely öt lehetséges cselekvést jelölt ki, azokat az ágens végrehajtotta. Az LLM mindegyik után kiértékelte, 0 és 1 között osztályozta az adott oldal aktuális állapotát. Az ágens a legmagasabb értékűeket választotta ki, és mindaddig ismételte a cselekvéseket, amíg végre nem hajtotta a feladatot.

A kutatók két ágenst hasonlítottak össze. Az egyik az ő módszerüket, a másik mást alkalmazott. Száz bevásárló, ötven fórum- és ötven osztályozó feladatot kellett végrehajtaniuk. Előbbi 26,4, utóbbi 18,9 százalékos sikerrátát ért el.

Számítógép-használattal összekombinálva, az új keresési módszerrel az ágensek sokféle desktop feladatot végezhetnek el.

Tovább az eredeti oldalra!

Jelenből a Jövőbe

A webes ágensek keresési nehézségei

0 Hozzászólás:

Legyél te az első hozzászóló!

Hozzászólás írásához be kell jelentkezni:

Hasznos Linkek