A webes ágensek keresési nehézségei
Speciális célok megvalósításáért böngészni a webet nagy nyelvi modelleken (LLM), de még látás-nyelvmodelleken (VLM) alapuló ágenseknek is komoly kihívás. Egyes megközelítések az alapmodell gyakoroltatásakor kezelik a problémát, az ágensarchitektúra viszont változásokat hozhat.
A pittsburghi Carnegie Mellon Egyetem (CMU) kutatói fabejáró technikát vezettek be nyelvmodell-ágenseknek. A módszerrel ugyanúgy kezelhetik a webes interakciókat, mint a fabejárásnál. A fabejárás vagy fakeresés fa-adatszerkezetek minden egyes csúcsának egyszeri feldolgozása, egyfajta gráf-bejárás. Ezeket az algoritmusokat a csúcsok bejárási sorrendje alapján osztályozzák. A CMU ágensei lehetséges cselekvési láncokat tárhatnak fel, és a hibák megismétlését kerülhetik el így.
Webes feladatok, például egy adott cikk árának megkeresése közbülső cselekvések sorozatát igényli: a helyes oldalra navigálni, görgetés a cikk megtalálásához, a cikk képe és az oldalon lévő kép összekapcsolása stb. Ha az ágens rossz linkre klikkel, eltévedhet. A lehetséges cselekvések kiértékelési és a weblapok előző állapotaira való emlékezés képessége segítheti hibái korrigálásában, a célt megvalósító cselekvéslánc kiválasztásában.
Egy GPT-4o-n alapuló ágens kétszáz feladattal próbálkozott, online kiskereskedelmi üzletet, Reddit-féle fórumot és apróhirdetés-jegyzéket utánzó weboldalakat használva. A feladatok között szerepelt egy adott címre szállítandó áru megrendelése, konkrét képek keresése a fórumon, hirdetés feladása. A kutatók az összes interakcióra alkalmas vizuális elemet határoló kerettel és numerikus ID-vel azonosító, speciális módszerrel kommenteltek minden egyes oldalt.
Az ágens weboldallal és utasítással kezdte, az oldalról képet juttatott el az LLM-nek, amely öt lehetséges cselekvést jelölt ki, azokat az ágens végrehajtotta. Az LLM mindegyik után kiértékelte, 0 és 1 között osztályozta az adott oldal aktuális állapotát. Az ágens a legmagasabb értékűeket választotta ki, és mindaddig ismételte a cselekvéseket, amíg végre nem hajtotta a feladatot.
A kutatók két ágenst hasonlítottak össze. Az egyik az ő módszerüket, a másik mást alkalmazott. Száz bevásárló, ötven fórum- és ötven osztályozó feladatot kellett végrehajtaniuk. Előbbi 26,4, utóbbi 18,9 százalékos sikerrátát ért el.
Számítógép-használattal összekombinálva, az új keresési módszerrel az ágensek sokféle desktop feladatot végezhetnek el.
0 Hozzászólás:
Legyél te az első hozzászóló!
Hozzászólás írásához be kell jelentkezni: