Gal prisimenate, kada pirmą kartą rašiau tekstą žurnalui apie dirbtinį intelektą (DI)? Tai buvo 2023-iaisiais, 9 numeris. Tąsyk apgailestavau, kad didžiulis DI minusas yra laikas, per kurį gauname informaciją. Ir štai dabar, praėjus pusantrų metų, laikas, per kurį gauname informaciją smarkiai sutrumpėjo.
Atsiradus galimybei atpažinti nuotraukas pasitelkiant dirbtinį intelektą, jau ėmiau svajoti apie vaizdo pokalbius su dirbtinio intelekto asistentu. Viskas vyktų panašiai, kaip kalbantis su žmogumi. Ir štai pagaliau tai realybė. Skirtumas tik tas, kad kai kalbamės vaizdo skambučiu su tikru žmogumi, jis mato nenutrūkstamą vaizdo srautą ir gali greitai sureaguoti, jeigu pamato kažką, ką mes jo prašėme pamatyti.
Vaizdo pokalbis su DI vyksta kiek kitaip. Įsivaizduokite, kad vaizdo pokalbį turite su žmogumi, kuris mato vaizdą iš jūsų kameros tik tada, kai ko nors jo klausiate. Kitaip tariant, kol nieko jam nesakote, jis ir nemato jūsų kameros vaizdo. Būtent taip ir vyksta vaizdo pokalbis su dirbtiniu intelektu! Pavyzdžiui, kai atvažiuos autobusas, jis jums pats nepasakys, koks yra maršruto numeris ir kryptis tol, kol nepaklausite.
Kol kas turime tris skirtingus dirbtinio intelekto įrankius, kurie palaiko vaizdo pokalbį. Tai ChatGPT, Google Gemini, kuris kol kas yra tik internetinis įrankis, ir Meta Live, kuris veikia Meta išmaniuosiuose akiniuose tik Jungtinėse Amerikos Valstijose ir kol kas tik bandomoji versija.
Aš išbandžiau juos visus tris įvairiose situacijose: nuo kavos aparato valdymo iki viešojo transporto priemonės maršruto numerio sužinojimo. Turiu pastebėti, kad kol kas visi šie įrankiai daro klaidų, tad nerekomenduojama jų naudoti situacijose, kai tikslumas itin svarbus.
ChatGPT privalumas prieš kitus įrankius yra tas, kad jis kalba tvarkingai lietuviškai, tad tai pagalba žmonėms, nemokantiems anglų kalbos. Bet, deja, jis, kaip ir Meta AI, tiksliai nepasakys, ant kokio mygtuko laikome pirštą, netgi jei paklausime, pavyzdžiui, kelintas mygtukas kavos aparato ekrane yra kapučino kava. Beveik užtikrinta, kad skaičių pasakys ne tą. Bet gana gerai aprašys mus supančią aplinką ir paskaitys tekstus.
O štai Google Gemini 2.0 Flash modelis yra pats tiksliausias, nors taip pat klaidų pasitaiko. Su juo įmanoma susikalbėti lietuviškai, bet jis kalba lietuviškai pagal anglų kalbos taisykles. Tad neįgudusiai ausiai tai gali būti gana sunku suprasti.
Asmeniškai man vienas iš svarbiausių dalykų yra viešojo transporto priemonės maršruto numerio išsiaiškinimas, mat Vilniuje vis dar neveikia jokia sistema, kuri padėtų tiksliai sužinoti maršruto numerį. Tad pirmiausia sumaniau išbandyti DI ir sužinoti atvykusios transporto priemonės numerį ir kryptį. Čia lyderis Google Gemini. Sakyčiau, kokius septynis kartus iš dešimties numerį pasako teisingai, bet krypties, deja, ne, nes ant Vilniaus autobusų priekinių langų viršuje šiuo metu pasirodo užrašai Vilnius Europos žalioji sostinė 2025 ir Vilnius su Ukraina. Šiuos tekstus Gemini supranta kaip maršruto kryptį. Meta AI panašiai taip pat atpažįsta maršruto numerį ir susimauna ant skelbimų, manydama, kad tai autobuso kryptis. ChatGPT perskaito garažo arba licencijos numerį kaip maršruto.
Visi dirbtinio intelekto įrankiai gana gerai dirba su tekstų skaitymu, tad galima rinktis bet kurį, norint ką nors paskaityti, tarkime, prekybos centre esančių parduotuvių pavadinimus. Asmeniškai man čia labiausiai patinka Meta AI išmaniuosiuose akiniuose, nes aš turiu visiškai laisvas rankas ir psichologiškai gerai jaučiuosi, kai prieinu prie durų, paprašau, kad perskaitytų užrašą ant jų, ir arba einu toliau, arba užeinu į vidų. Tai trunka kelias sekundes.
Gana smagu šiaip vaikščiojant po miestą klausinėti DI įvairių dalykų, pavyzdžiui, paprašyti paskaityti reklamą ant stotelės stendo šono. Galima tikslintis, ar nemato pėsčiųjų perėjos, dviračių tako ar požeminės perėjos. Paklausti, kokia dega šviesoforo spalva ir panašiai. Be abejo, vaikščioti smagiausia su Meta akiniais ir Meta AI. Deja, akiniai neturi tokios geros kameros kaip išmanusis telefonas ir taip pat neturi tokio gero akumuliatoriaus, tad geriausiu atveju nuo šimto procentų iki nulio išsikraus maždaug per 40 minučių naudojant vien tik vaizdo pokalbį.
Kamerų kokybės skirtumus labiausiai pastebėjau, kai buvau prie užkandžių aparato-automato. Čia sistema yra tokia, kad už stiklo matosi produktai ir kiekvienas turi savo numeriuką. Perkant kokį nors užkandį, reikia įvesti jo numeriuką naudojant ant užkandžių automato esančią klaviatūrą. Darbe turime kelis tokius automatus. Kai klausti bandžiau Meta AI prie automato, kur apšvietimas nebuvo labai geras, ji sakė, kad negali įžiūrėti numerių. Tuo tarpu Gemini užkandžių numerius matė puikiai. Deja, bandymas man baigėsi tuo, kad vietoje sumuštinių gavau šokoladukus Mars ir Twix, nors Gemini dievagojosi, kad tai tikrai tikrai sumuštinis. Deja, taip ir nepavyko išsiaiškinti, kodėl vietoje sumuštinio Gemini man primygtinai siūlė batonėlius. Bet gerąja prasme šis DI nudžiugino mane prie kavos aparato su mygtukais, kai suskaičiavo, kelintas mygtukas yra Airiška kapučino kava. Išbandžiau ir kavos aparatą, turintį liečiamąjį ekraną. Kadangi truputį matau, Google Gemini man labai padėjo pasakydamas, kelinta ikona iš kurios pusės yra mano norimas gėrimas ir neapgavo paklausus, ar pirštu rodau į būtent tą ikoną.
Rajone, kuriame gyvenu, neseniai buvo pastatytas prekybos centras. Tad naudojant DI ryžausi išsiaiškinti, kas ir kur yra. Kaip jau minėjau anksčiau, bet kuris iš įrankių tiek tekstus perskaito gerai, tiek ir pačią aplinką aprašo. Taip be didesnio vargo išsiaiškinau, kokios parduotuvės įsikūrė naujame prekybos centre. Tačiau kai priėjau prie paštomato norėdama atsiimti siuntą, paklausus, ar tai yra LP Express paštomatas, Gemini patvirtino, kad taip, jis mato LP Express logotipą. Galbūt kažkur ir matė, bet, deja, tuomet buvau prie DPD paštomato.
Jei reikia nustatyti kokį nors prietaisą, geriausiai čia padės Google Gemini, nors vadinamųjų haliucinacijų, kai dirbtinis intelektas pamato nesančius dalykus, pasitaiko, tačiau šiam mažiau nei visiems kitiems. Google sukurtas Gemini tiksliausiai nurodo, šalia kokio mygtuko laikome pirštą, į kokią padėtį atsuktas ratukas ar kai prašome nurodyti tikslią vietą, kur yra norimas mygtukas. Tiek Chat GPT, tiek Meta AI čia nelabai kuo padės. Bet Gemini pasitikėti šimtu procentų kol kas irgi nereikėtų.
Kartą mano televizoriuje nutilo ekrano skaitymo programa, laimė, ir tą kartą susitvarkyti padėjo Gemini. Aš jo klausiau, kaip rasti reikiamus nustatymus, o jis teisingai atsakė į mano klausimus, tad aš sėkmingai vėl įjungiau ekrano skaitymo programą. Taip pat Gemini išbandžiau, kad papasakotų, ką rodo papūgų kambaryje esanti kamera. Taip Gemini papasakojo, ką veikia mano papūgos.
Kaip matome, tobulėti dar yra kur, bet žiūrint į ateitį, kaip dabar jau nebeįsivaizduojame savo gyvenimo be išmaniojo telefono, taip neįsivaizduosime jo be dirbtinio intelekto. Asmeniškai man tai dalykas, kuris keičia mano gyvenimą į gerąją pusę panašiai taip, kaip atsiradusios programėlės, galinčios suplanuoti maršrutą.
Dirbtinis intelektas diegiamas į įvairius prietaisus, tokius kaip akiniai. Neabejoju, kad atsiras vis daugiau ir daugiau DI programėlių, tad jis veiks vis tiksliau ir tiksliau. Visos šios inovacijos minusas tas, kad mes tikrai visko nesusipirksime. Jau dabar kartais sunku išsirinkti, ką įsigyti: Android išmanųjį telefoną ar iPhone. Šiais metais žadama išleisti daugybę skirtingų akinių su DI funkcija, tad išsirinkti labiausiai tinkamus gali būti tikras iššūkis. Taip pat tikėtina, kad kažkada greitai atsiras galimybė, jog dirbtinis intelektas nenutrūkstamai analizuotų vaizdo įrašą ir pateiktų atsakymus, kai praprašysime ką nors pranešti, kai pamatys, pavyzdžiui, jei užduosime komandą pasakyti, kada į stotelę atvažiuos 6-as troleibusas. Tai turėtų padėti žmonėms su regos sutrikimais tapti dar labiau savarankiškesniems. Na, ir be abejo, tikslumas. Aš, kaip žmogus, naudojantis DI jau apie dvejus metus, galiu pasakyti, kad jo haliucinacijų kiekis tikrai stipriai sumažėjo. Bet pagrindinė problema išlieka su skaičiais. Tad visada, jei labai svarbus tikslumas, pavyzdžiui, jei norite paskaityti PIN kodą, parašytą ant SIM kortelės, rekomenduoju geriau klausti reginčio žmogaus arba naudoti įrankius, tokius kaip Aira Explorer, kurioje DI pateiktą atsakymą galima nusiųsti Aira agentui patikrinti.
Žiūrint į ateitį, DI bus nepamainomas įrankis visose mūsų gyvenimo srityse. Tiek matančių žmonių, tiek ir neregių. Kaip ir visais laikais bus ir skeptiškų žmonių, kurie sakys, kad dirbtinis intelektas atims darbus, sugadins gyvenimus, žmonės bus kvaili, nes jiems nieko nebereikės mokytis. Taip galvojantiems visada siūlau pagalvoti apie peilį. Tai įrankis, kurį naudojame kiekvieną dieną, be jo sunkiai galėtume išsiversti, bet kartu tai įrankis, su kuriuo galima ką nors sužeisti arba net nužudyti, priklausomai, dėl kokio tikslo naudosime. Tad taip, DI taip pat turi savo juodąją pusę, ir su tuo turėsime susitaikyti.
O norintiems sužinoti apie naujausias DI naujienas, svarbias neregiams, o ir ne tik jiems, būtinai kviečiu prenumeruoti feisbuko grupę AI for the blind. Nemokantiems anglų kalbos tai gali būti ir puiki treniruotė pradėti mokyti DI įrankius, kad jie išverstų tekstus į lietuvių kalbą.
Paspaudę nuorodą galite peržiūrėti mano vaizdo įrašą apie DI praktinio panaudojimo bandymus.