Wiadomosci branzowe

Agenci sztucznej inteligencji pomoga osobom z niepelnosprawnosciami korzystac z internetu. Zastosowanie rozwiazania moze byc jednak duzo szersze

Naukowcy z Uniwersytetu Stanu Ohio opracowali model jezykowy sluzacy jako agent SI. Jego zadaniem ma byc przegladanie stron internetowych i wykonywanie polecen wydawanych przez uzytkownika. Dzieki temu osoby niewidome

Naukowcy z Uniwersytetu Stanu Ohio opracowali model jezykowy sluzacy jako agent SI. Jego zadaniem ma byc pregladanie stron internetowych i wykonywanie polecen wydawanych prez uzytkownika. Dzieki temu osoby niewidome oraz z niepelnosprawnoscia ruchowa beda mogly w pelni korystac z mozliwosci internetu. Twórcy zapewniaja przy tym, ze mozliwosci rozwiazania sa duzo wieksze. Mogloby ono analizowac strony czy nawet cale systemy w celu opracowywania ich udoskonalen.

– Sa rózne technologie wspomagajace osoby z róznego rodzaju niepelnosprawnosciami w dostepie do sieci, ale sytuacja jest daleka od idealu. Na przyklad ktos moze korystac z czytnika ekranu do odczytywania na glos zawartosci strony internetowej, ale jest to duzo mniej efektywne w porównaniu do doswiadczen wiekszosci ludzi i duzo wolniejsze. Inni ludzie moga prejrec tresc strony i wybrac z niej, co chca przeczytac. Czesto, aby te technologie wspomagajace mogly dzialac najlepiej, twórcy poszczególnych stron internetowych powinni przestregac okreslonych standardów i najlepszych praktyk, aby dostosowac je do tej technologii. Niestety, czego nie da sie uniknac, wielu projektantów stron internetowych nie realizuje tych zasad wcale lub robia to w nieodpowiedni sposób, co równiez przyczynia sie do tego, ze te technologie wspomagajace dzialaja w sposób odbiegajacy od optymalnego – mówi agencji Newseria Innowacje Yu Su z Uniwersytetu Stanu Ohio.

Chcac poprawic dostep osób z niepelnosprawnosciami do internetu, badacze z Uniwersytetu Stanu Ohio rozpoczeli prace nad agentami sztucznej inteligencji, który beda mogli wykonywac zadania na dowolnej stronie internetowej, zlecane za pomoca prostych polecen jezykowych.

– Chcielismy stworyc cos, co okreslilismy jako ogólni agenci surfowania (ang. generalist web agents). Sa to agenci SI, za pomoca których mozna wejsc na dowolna strone internetowa, jedna z miliardów dostepnych, i wykonac okreslone zadanie. Agent SI zrozumie polecenie i zapozna sie z trescia strony internetowej, chociaz widzi ja po raz pierwszy, oraz wykona polecenie – wyjasnia Yu Su.

  Katarzyna Glinka: Lubię bawić się modą, ale nie przeznaczam na to zbyt dużo czasu. Wiele ubrań kupuję online i według zasady, że ma być casualowo i wygodnie

Badacze rozpoczeli dzialanie od stworenia Mind2Web, pierwszego zbioru danych dla uniwersalnych agentów internetowych, który w pelni uwzglednia zlozona i dynamiczna nature witryn internetowych w swiecie rzeczywistym. Zespól wykonal ponad 2 tys. zadan opartych na 137 róznych witrynach internetowych, które nastepnie wykorystal do preszkolenia agenta. Zadania obejmowaly m.in. rezerwowanie miedzynarodowych lotów w jedna strone i w obie strony, sledzenie kont gwiazd na Twittere czy pregladanie filmów komediowych z lat 1992–2017 udostepnianych w serwisie Netflix. Wiele z tych zadan bylo bardzo skomplikowanych. To na przyklad rezerwacja jednego z miedzynarodowych lotów, która wymagala az 14 dzialan.

– Opracowalismy równiez modele oparte na duzych modelach jezykowych, takich jak ChatGPT, GPT-4, aby pregladac kod i html stron internetowych i na tej podstawie wykonac polecenie uzytkownika. Wyniki byly jednak dosc slabe, wskaznik powodzenia okazal sie niski. Nastepnie znacznie ulepszylismy naredzie, uzupelniajac je o dodatkowy wbudowany model.  Wtedy agenci mogli nie tylko pregladac kod html jako tekst, ale takze widziec rendering wizualny strony, do którego maja dostep ludzie. Okazalo sie, ze to bardzo uproscilo sprawe, podnioslo znacznie wskaznik powodzenia i zblizylo go do zastosowania praktycznego – podkresla naukowiec z Uniwersytetu Stanu Ohio.

W efekcie agent dziala w sposób podobny do tego, jak zachowuja sie ludzie podczas pregladania sieci. Jak podkreslaja twórcy, ich model jest w stanie zrozumiec uklad i funkcjonalnosc róznych witryn internetowych, wykorystujac jedynie zdolnosc do pretwarania i prewidywania jezyka.

– Naredzia te beda bardzo pomocne w dostepie do internetu osobom z wada wzroku lub z niepelnosprawnoscia fizyczna, która utrudnia korystanie z myszy czy klawiatury. Moga one im pomóc w tym, aby ich doswiadczenia z korystaniem z internetu byly duzo bardziej zblizone do doswiadczen innych ludzi, w porównaniu do tradycyjnych technologii asystujacych. Jednoczesnie wiele innych osób moze uzyc tych naredzi przy codziennym korystaniu z sieci. Wspólczesne strony internetowe sa bardzo zlozone – po wejsciu na strone widzimy niezliczone banery, a chcemy tylko znalezc konkretne informacje, które sa ukryte. Jesli posluzymy sie agentem, który zrozumie taka zlozona strone internetowa i znajdzie na niej informacje za nas, zaoszczedzimy wiele czasu – zauwaza Yu Su.

  PZU mecenasem wystawy "Olga Boznanska" w Muzeum Narodowym w Warszawie

Choc model zostal stworony z mysla o tym, by sluzyl ludziom korystajacym z internetu, zwlaszcza tym, który maja to utrudnione z uwagi na niepelnosprawnosc, to twórcy podkreslaja, ze mozna go równiez wykorystac do ulepszania rozwiazan z zakresu sztucznej inteligencji, takich jak np. ChatGPT. Rozwiazanie to zapelnia luke komunikacyjna, jaka istnieje miedzy ludzmi poslugujacymi sie swoimi jezykami narodowymi a komputerami korystajacymi z jezyków programowania. To swoisty pomost miedzy tymi sposobami komunikacji.

W ten sposób uzytkownicy beda mogli poslugiwac sie codziennym jezykiem komunikacji do porozumiewania sie ze swiatem komputerów bez koniecznosci uczenia sie nowych jezyków komputerowych. Aby przyblizyc ten temat, czesto korystam z nieco oklepanego stwierdzenia – chcemy, aby maszyny rozumialy myslenie czlowieka, ale nie zeby ludzie mysleli jak maszyny – mówi naukowiec.

Jak podkresla, nowe rozwiazanie moze sluzyc takze podnoszeniu efektywnosci osób na co dzien korystajacych z sieci, wyreczajac ich w wyszukiwaniu niezbednych informacji na stronie internetowej. Po drugie, jest takze naredziem demokratyzacji sztucznej inteligencji, czyli zwiekszania jej dostepnosci dla szerokiego grona odbiorców.

– Wszelkie bariery w dostepie zwykle powiekszaja nierównosci w spoleczenstwie, poniewaz tylko dysponujace znacznymi zasobami organizacje i jednostki moga miec dostep do najbardziej zaawansowanych technologii. Nie dotyczy to technologii SI, nad która pracujemy, poniewaz jest ona dostepna dla kazdego. Dzieki demokratyzacji zaawansowanych technologii SI mamy nadzieje umozliwic kazdemu korystanie z tych technologii do usprawnienia pracy i poprawy jakosci zycia oraz zapewnic udzial w korysciach plynacych ze sztucznej inteligencji jako prawdopodobnie najpotezniejszej technologii automatyzacji naszych czasów – kwituje Yu Su.

Badacze zwracaja jednak uwage na to, ze tego typu naredzia moga miec tez swoja ciemna strone i stanowic wsparcie dla osób o niejasnych intencjach. Agenci SI moga bowiem podejmowac potencjalnie niebezpieczne dzialania zmierajace np. do szerenia dezinformacji lub niewlasciwego wykorystywania informacji finansowych.

  Sandra Kubicka: Najpierw kupilam mala domowa szklarnie na ziola. A teraz zamwilam duzy model do ogrodu i bede tam miec pomidory, ogrki i truskawki

Wedlug PR Newswire swiatowy rynek duzych modeli jezykowych do 2029 roku osiagnie wartosc prawie 41 mld dol. Dla porównania w 2022 roku bylo to 10,5 mld dol.

Artykuly o tym samym temacie, podobne tematy