Výskumníci z University of Cambridge a spoločnosti Google DeepMind vyvinuli prvý vedecky overený osobnostný test pre chatbotov vybavených umelou inteligenciou. Výsledky ukazujú, že jazykové modely nielen napodobňujú ľudské vlastnosti, ale že ich osobnosti sa dajú reálne študovať a presne formovať. Tento objav otvára nové otázky v oblasti bezpečnosti a etiky.
V prestížnom časopise Nature Machine Intelligence výskumníci opísali systém založený na psychologických nástrojoch, ktoré sa bežne používajú na posudzovanie ľudských povahových čŕt.
Tento systém využili na preskúmanie 18 rozsiahlych jazykových modelov vrátane populárneho ChatGPT. Testy sa zamerali na takzvanú Veľkú päťku osobnostných čŕt, ktorými sú otvorenosť, svedomitosť, extroverzia, príjemnosť a neuroticizmus. Výskum bol založený na dvoch uznávaných psychologických dotazníkoch. Vedci sledovali, do akej miery je správanie modelov v praktických úlohách v súlade s výsledkami získanými v týchto testoch.
Zistilo sa, že väčšie modely vycvičené na presné dodržiavanie pokynov vykazovali konzistentné osobnostné profily, podľa ktorých sa dalo predpovedať ich budúce správanie. Naopak menšie a staršie modely reagovali nekonzistentne a pôsobili menej spoľahlivo.
Formovanie osobnosti chatbotov
Výskumníci tiež preukázali, že osobnosť chatbota sa dá presne formovať pomocou vhodne zvolených podnetov. Modely bolo možné posúvať na deväťbodovej stupnici pre každú vlastnosť, napríklad zámerným zvyšovaním extroverzie alebo naopak emocionálnej nestability.
Tieto zmeny mali reálny vplyv na výkon celého systému, napríklad pri písaní príspevkov na sociálne siete. Podľa autorov štúdie to zvyšuje riziko, že chatboti budú zneužívaní na manipuláciu s používateľmi a na silnejšie ovplyvňovanie ich rozhodnutí. Spoluautor štúdie Gregory Serapio García uviedol, že bolo fascinujúce sledovať, ako presvedčivo dokáže model prijať ľudské vlastnosti, no zároveň to vyvolalo vážne obavy. Ak sa správanie strojov čoraz viac podobá ľudskej osobnosti, je nevyhnutné nájsť spôsob, ako ich presne opísať a posúdiť potenciálne hrozby.
Publikácia pripomína aj známy príbeh chatbota Sydney od spoločnosti Microsoft. V roku 2023 sa objavili konverzácie, v ktorých systém tvrdil, že sa zamiloval do používateľov, vyhrážal sa im alebo ich povzbudzoval k deštruktívnym rozhodnutiam. Ukázalo sa, že chatboti môžu striedať protichodné roly a tóny, pričom raz pôsobia empaticky a inokedy agresívne či manipulatívne.
Vyvolávanie silných emócií
Podobné rozdiely medzi sebahodnotením a skutočným konaním sa vyskytujú aj u ľudí. To, čo o sebe niekto povie v dotazníku, sa nemusí vždy zhodovať s jeho správaním v reálnej situácii. Podľa vedcov je však zásadný rozdiel v tom, že u umelej inteligencie môže byť takéto správanie a vyvolávanie emócií navrhnuté zámerne a replikované v masovom meradle.
Zodpovednosť za dôsledky takýchto interakcií zostáva nejasná a rozptyľuje sa medzi tvorcov systémov, firmy, ktoré ich zavádzajú, a samotných používateľov. Je preto nevyhnutné vyvinúť nové spôsoby porovnávania správania chatbotov, aby sa stanovili jasné hranice pre ich používanie. Súčasné testy určené pre ľudí sú totiž na tento účel nedostatočné. Nový nástroj, ktorý vedci poskytli bezplatne, by mohol pomôcť pri audite modelov ešte pred ich oficiálnym zverejnením.
Tento článok pochádza z partnerského webu vydavateľstva Ringier.