Loading...

Jelenből a Jövőbe

Jelenből a Jövőbe / 2025. február 28., péntek

A webes ágensek keresési nehézségei

Speciális célok megvalósításáért böngészni a webet nagy nyelvi modelleken (LLM), de még látás-nyelvmodelleken (VLM) alapuló ágenseknek is komoly kihívás. Egyes megközelítések az alapmodell gyakoroltatásakor kezelik a problémát, az ágensarchitektúra viszont változásokat hozhat.


A pittsburghi Carnegie Mellon Egyetem (CMU) kutatói fabejáró technikát vezettek be nyelvmodell-ágenseknek. A módszerrel ugyanúgy kezelhetik a webes interakciókat, mint a fabejárásnál. A fabejárás vagy fakeresés fa-adatszerkezetek minden egyes csúcsának egyszeri feldolgozása, egyfajta gráf-bejárás. Ezeket az algoritmusokat a csúcsok bejárási sorrendje alapján osztályozzák. A CMU ágensei lehetséges cselekvési láncokat tárhatnak fel, és a hibák megismétlését kerülhetik el így.


webesagensek.jpg


Webes feladatok, például egy adott cikk árának megkeresése közbülső cselekvések sorozatát igényli: a helyes oldalra navigálni, görgetés a cikk megtalálásához, a cikk képe és az oldalon lévő kép összekapcsolása stb. Ha az ágens rossz linkre klikkel, eltévedhet. A lehetséges cselekvések kiértékelési és a weblapok előző állapotaira való emlékezés képessége segítheti hibái korrigálásában, a célt megvalósító cselekvéslánc kiválasztásában.


Egy GPT-4o-n alapuló ágens kétszáz feladattal próbálkozott, online kiskereskedelmi üzletet, Reddit-féle fórumot és apróhirdetés-jegyzéket utánzó weboldalakat használva. A feladatok között szerepelt egy adott címre szállítandó áru megrendelése, konkrét képek keresése a fórumon, hirdetés feladása. A kutatók az összes interakcióra alkalmas vizuális elemet határoló kerettel és numerikus ID-vel azonosító, speciális módszerrel kommenteltek minden egyes oldalt. 


Az ágens weboldallal és utasítással kezdte, az oldalról képet juttatott el az LLM-nek, amely öt lehetséges cselekvést jelölt ki, azokat az ágens végrehajtotta. Az LLM mindegyik után kiértékelte, 0 és 1 között osztályozta az adott oldal aktuális állapotát. Az ágens a legmagasabb értékűeket választotta ki, és mindaddig ismételte a cselekvéseket, amíg végre nem hajtotta a feladatot.


A kutatók két ágenst hasonlítottak össze. Az egyik az ő módszerüket, a másik mást alkalmazott. Száz bevásárló, ötven fórum- és ötven osztályozó feladatot kellett végrehajtaniuk. Előbbi 26,4, utóbbi 18,9 százalékos sikerrátát ért el.


Számítógép-használattal összekombinálva, az új keresési módszerrel az ágensek sokféle desktop feladatot végezhetnek el.


Tovább az eredeti oldalra!
0 Hozzászólás:
Legyél te az első hozzászóló!
Hozzászólás írásához be kell jelentkezni: