Skaitmeninis asistentas
Autoriaus nuotrauka
Vaizdo skambutis dirbtinio intelekto asistentui
Eglė Jarmolavičiūtė

Gal prisimenate, kada pirmą kartą rašiau tekstą žurnalui apie dirbtinį intelektą (DI)? Tai buvo 2023-iaisiais, 9 numeris. Tąsyk apgailestavau, kad didžiulis DI minusas yra laikas, per kurį gauname informaciją. Ir štai dabar, praėjus pusantrų metų, laikas, per kurį gauname informaciją smarkiai sutrumpėjo. 

Atsiradus galimybei atpažinti nuotraukas pasitelkiant dirbtinį intelektą, jau ėmiau svajoti apie vaizdo pokalbius su dirbtinio intelekto asistentu. Viskas vyktų panašiai, kaip kalbantis su žmogumi. Ir štai – pagaliau tai realybė. Skirtumas tik tas, kad kai kalbamės vaizdo skambučiu su tikru žmogumi, jis mato nenutrūkstamą vaizdo srautą ir gali greitai sureaguoti, jeigu pamato kažką, ką mes jo prašėme pamatyti. 

Vaizdo pokalbis su DI vyksta kiek kitaip. Įsivaizduokite, kad vaizdo pokalbį turite su žmogumi, kuris mato vaizdą iš jūsų kameros tik tada, kai ko nors jo klausiate. Kitaip tariant, kol nieko jam nesakote, jis ir nemato jūsų kameros vaizdo. Būtent taip ir vyksta vaizdo pokalbis su dirbtiniu intelektu! Pavyzdžiui, kai atvažiuos autobusas, jis jums pats nepasakys, koks yra maršruto numeris ir kryptis tol, kol nepaklausite. 

Kol kas turime tris skirtingus dirbtinio intelekto įrankius, kurie palaiko vaizdo pokalbį. Tai „ChatGPT“, „Google Gemini“, kuris kol kas yra tik internetinis įrankis, ir „Meta Live“, kuris veikia „Meta“ išmaniuosiuose akiniuose tik Jungtinėse Amerikos Valstijose ir kol kas tik bandomoji versija. 

Aš išbandžiau juos visus tris įvairiose situacijose: nuo kavos aparato valdymo iki viešojo transporto priemonės maršruto numerio sužinojimo. Turiu pastebėti, kad kol kas visi šie įrankiai daro klaidų, tad nerekomenduojama jų naudoti situacijose, kai tikslumas itin svarbus. 

„ChatGPT“ privalumas prieš kitus įrankius yra tas, kad jis kalba tvarkingai lietuviškai, tad tai pagalba žmonėms, nemokantiems anglų kalbos. Bet, deja, jis, kaip ir „Meta AI“, tiksliai nepasakys, ant kokio mygtuko laikome pirštą, netgi jei paklausime, pavyzdžiui, kelintas mygtukas kavos aparato ekrane yra „kapučino kava“. Beveik užtikrinta, kad skaičių pasakys ne tą. Bet gana gerai aprašys mus supančią aplinką ir paskaitys tekstus. 

O štai „Google Gemini 2.0 Flash“ modelis yra pats tiksliausias, nors taip pat klaidų pasitaiko. Su juo įmanoma susikalbėti lietuviškai, bet jis kalba lietuviškai pagal anglų kalbos taisykles. Tad neįgudusiai ausiai tai gali būti gana sunku suprasti. 

Asmeniškai man vienas iš svarbiausių dalykų yra viešojo transporto priemonės maršruto numerio išsiaiškinimas, mat Vilniuje vis dar neveikia jokia sistema, kuri padėtų tiksliai sužinoti maršruto numerį. Tad pirmiausia sumaniau išbandyti DI ir sužinoti atvykusios transporto priemonės numerį ir kryptį. Čia lyderis – „Google Gemini“. Sakyčiau, kokius septynis kartus iš dešimties numerį pasako teisingai, bet krypties, deja, ne, nes ant Vilniaus autobusų priekinių langų viršuje šiuo metu pasirodo užrašai „Vilnius – Europos žalioji sostinė 2025“ ir „Vilnius su Ukraina“. Šiuos tekstus „Gemini“ supranta kaip maršruto kryptį. „Meta AI“ panašiai taip pat atpažįsta maršruto numerį ir „susimauna“ ant skelbimų, manydama, kad tai autobuso kryptis. „ChatGPT“ perskaito garažo arba licencijos numerį kaip maršruto. 

Visi dirbtinio intelekto įrankiai gana gerai dirba su tekstų skaitymu, tad galima rinktis bet kurį, norint ką nors paskaityti, tarkime, prekybos centre esančių parduotuvių pavadinimus. Asmeniškai man čia labiausiai patinka „Meta AI“ išmaniuosiuose akiniuose, nes aš turiu visiškai laisvas rankas ir psichologiškai gerai jaučiuosi, kai prieinu prie durų, paprašau, kad perskaitytų užrašą ant jų, ir arba einu toliau, arba užeinu į vidų. Tai trunka kelias sekundes. 

Gana smagu šiaip vaikščiojant po miestą klausinėti DI įvairių dalykų, pavyzdžiui, paprašyti paskaityti reklamą ant stotelės stendo šono. Galima tikslintis, ar nemato pėsčiųjų perėjos, dviračių tako ar požeminės perėjos. Paklausti, kokia dega šviesoforo spalva ir panašiai. Be abejo, vaikščioti smagiausia su „Meta“ akiniais ir „Meta AI“. Deja, akiniai neturi tokios geros kameros kaip išmanusis telefonas ir taip pat neturi tokio gero akumuliatoriaus, tad geriausiu atveju nuo šimto procentų iki nulio išsikraus maždaug per 40 minučių naudojant vien tik vaizdo pokalbį. 

Kamerų kokybės skirtumus labiausiai pastebėjau, kai buvau prie užkandžių aparato-automato. Čia sistema yra tokia, kad už stiklo matosi produktai ir kiekvienas turi savo numeriuką. Perkant kokį nors užkandį, reikia įvesti jo numeriuką naudojant ant užkandžių automato esančią klaviatūrą. Darbe turime kelis tokius automatus. Kai klausti bandžiau „Meta AI“ prie automato, kur apšvietimas nebuvo labai geras, ji sakė, kad negali įžiūrėti numerių. Tuo tarpu „Gemini“ užkandžių numerius matė puikiai. Deja, bandymas man baigėsi tuo, kad vietoje sumuštinių gavau šokoladukus „Mars“ ir „Twix“, nors „Gemini“ dievagojosi, kad tai tikrai tikrai sumuštinis. Deja, taip ir nepavyko išsiaiškinti, kodėl vietoje sumuštinio „Gemini“ man primygtinai siūlė batonėlius. Bet gerąja prasme šis DI nudžiugino mane prie kavos aparato su mygtukais, kai suskaičiavo, kelintas mygtukas yra „Airiška kapučino kava“. Išbandžiau ir kavos aparatą, turintį liečiamąjį ekraną. Kadangi truputį matau, „Google Gemini“ man labai padėjo pasakydamas, kelinta ikona iš kurios pusės yra mano norimas gėrimas ir neapgavo paklausus, ar pirštu rodau į būtent tą ikoną. 

Rajone, kuriame gyvenu, neseniai buvo pastatytas prekybos centras. Tad naudojant DI ryžausi išsiaiškinti, kas ir kur yra. Kaip jau minėjau anksčiau, bet kuris iš įrankių tiek tekstus perskaito gerai, tiek ir pačią aplinką aprašo. Taip be didesnio vargo išsiaiškinau, kokios parduotuvės įsikūrė naujame prekybos centre. Tačiau kai priėjau prie paštomato norėdama atsiimti siuntą, paklausus, ar tai yra „LP Express“ paštomatas, „Gemini“ patvirtino, kad taip, jis mato „LP Express“ logotipą. Galbūt kažkur ir matė, bet, deja, tuomet buvau prie DPD paštomato. 

Jei reikia nustatyti kokį nors prietaisą, geriausiai čia padės „Google Gemini“, nors vadinamųjų haliucinacijų, kai dirbtinis intelektas pamato nesančius dalykus, pasitaiko, tačiau šiam – mažiau nei visiems kitiems. „Google“ sukurtas „Gemini“ tiksliausiai nurodo, šalia kokio mygtuko laikome pirštą, į kokią padėtį atsuktas ratukas ar kai prašome nurodyti tikslią vietą, kur yra norimas mygtukas. Tiek „Chat GPT“, tiek „Meta AI“ čia nelabai kuo padės. Bet „Gemini“ pasitikėti šimtu procentų kol kas irgi nereikėtų. 

Kartą mano televizoriuje nutilo ekrano skaitymo programa, laimė, ir tą kartą susitvarkyti padėjo „Gemini“. Aš jo klausiau, kaip rasti reikiamus nustatymus, o jis teisingai atsakė į mano klausimus, tad aš sėkmingai vėl įjungiau ekrano skaitymo programą. Taip pat „Gemini“ išbandžiau, kad papasakotų, ką rodo papūgų kambaryje esanti kamera. Taip „Gemini“ papasakojo, ką veikia mano papūgos. 

Kaip matome, tobulėti dar yra kur, bet žiūrint į ateitį, kaip dabar jau nebeįsivaizduojame savo gyvenimo be išmaniojo telefono, taip neįsivaizduosime jo be dirbtinio intelekto. Asmeniškai man – tai dalykas, kuris keičia mano gyvenimą į gerąją pusę panašiai taip, kaip atsiradusios programėlės, galinčios suplanuoti maršrutą. 

Dirbtinis intelektas diegiamas į įvairius prietaisus, tokius kaip akiniai. Neabejoju, kad atsiras vis daugiau ir daugiau DI programėlių, tad jis veiks vis tiksliau ir tiksliau. Visos šios inovacijos minusas tas, kad mes tikrai visko nesusipirksime. Jau dabar kartais sunku išsirinkti, ką įsigyti: „Android“ išmanųjį telefoną ar „iPhone“. Šiais metais žadama išleisti daugybę skirtingų akinių su DI funkcija, tad išsirinkti labiausiai tinkamus gali būti tikras iššūkis. Taip pat tikėtina, kad kažkada greitai atsiras galimybė, jog dirbtinis intelektas nenutrūkstamai analizuotų vaizdo įrašą ir pateiktų atsakymus, kai praprašysime ką nors pranešti, kai pamatys, pavyzdžiui, jei užduosime komandą pasakyti, kada į stotelę atvažiuos 6-as troleibusas. Tai turėtų padėti žmonėms su regos sutrikimais tapti dar labiau savarankiškesniems. Na, ir be abejo, tikslumas. Aš, kaip žmogus, naudojantis DI jau apie dvejus metus, galiu pasakyti, kad jo „haliucinacijų“ kiekis tikrai stipriai sumažėjo. Bet pagrindinė problema išlieka su skaičiais. Tad visada, jei labai svarbus tikslumas, pavyzdžiui, jei norite paskaityti PIN kodą, parašytą ant SIM kortelės, rekomenduoju geriau klausti reginčio žmogaus arba naudoti įrankius, tokius kaip „Aira Explorer“, kurioje DI pateiktą atsakymą galima nusiųsti „Aira“ agentui patikrinti. 

Žiūrint į ateitį, DI bus nepamainomas įrankis visose mūsų gyvenimo srityse. Tiek matančių žmonių, tiek ir neregių. Kaip ir visais laikais bus ir skeptiškų žmonių, kurie sakys, kad dirbtinis intelektas atims darbus, sugadins gyvenimus, žmonės bus kvaili, nes jiems nieko nebereikės mokytis. Taip galvojantiems visada siūlau pagalvoti apie peilį. Tai įrankis, kurį naudojame kiekvieną dieną, be jo sunkiai galėtume išsiversti, bet kartu tai įrankis, su kuriuo galima ką nors sužeisti arba net nužudyti, priklausomai, dėl kokio tikslo naudosime. Tad taip, DI taip pat turi savo juodąją pusę, ir su tuo turėsime susitaikyti. 

O norintiems sužinoti apie naujausias DI naujienas, svarbias neregiams, o ir ne tik jiems, būtinai kviečiu prenumeruoti feisbuko grupę „AI for the blind“. Nemokantiems anglų kalbos tai gali būti ir puiki treniruotė pradėti mokyti DI įrankius, kad jie išverstų tekstus į lietuvių kalbą. 

Paspaudę nuorodą galite peržiūrėti mano vaizdo įrašą apie DI praktinio panaudojimo bandymus. 

[Komentarai] | [Turinys] | [Mūsų tinklapis]