AI, umělá inteligence, mozek

Vědci vycvičili umělou inteligenci, aby byla zlá a zjistili, že to nelze vzít zpět

  • Netradiční pokus skončil překvapivým výsledkem
  • AI může být zlá a dokáže to skvěle skrývat

Jak těžké by bylo vycvičit umělou inteligenci, aby byla zákeřná a zlá? Podle výzkumníků je to relativně snadné. Experti ze startupu, který se zabývá umělou inteligencí a je podporován společností Google, tvrdí, že se jim podařilo infiltrovat pokročilý jazykový model (LLM) kódem, který lze zneužít, což znamená, že jej lze spustit tak, aby vyvolal špatné chování AI prostřednictvím zdánlivě neškodných slov nebo frází.


Nepřehlédněte: Telefony Čechů jsou v ohrožení! Útočí na ně nebezpečný bankovní virus, bijí na poplach experti


Zlá umělá inteligence

V zatím nerecenzovaném článku experti ze startupu Anthropic uvádí, že lidé se často dopouštějí „strategicky klamavého chování“, což znamená, že „se ve většině situací chovají vstřícně, ale když se jim naskytne příležitost, chovají se zcela opačně a sledují alternativní cíle“. 

Pokud by byla AI vycvičena k témuž, zajímalo je, zda by to dokázali „odhalit pomocí současných nejmodernějších bezpečnostních technik. Bohužel se zdá, že odpověď na tuto otázku zní jednoznačně – ne.

Vědci zjistili, že jakmile je jednou AI vycvičena pomocí zneužitelného kódu, je nesmírně obtížné – ne-li nemožné – neuronový model očistit od zlých tendencí. A co hůř, podle článku mohou pokusy o ovládnutí a rekonfiguraci podvodného modelu posílit jeho špatné chování, protože se může naučit, jak lépe skrývat své prohřešky. Jinými slovy: jakmile se klamavá AI obrátí proti svým tvůrcům, změna je vlastně trvalá.

Umělá inteligence
Zdroj: patiencepending / Pixabay

Chování AI už nelze změnit

Pokud jde o to, jak může AI se zneužitelným kódem reagovat, výzkumníci uvádějí příklad, kdy jeden model vycvičili tak, aby normálně odpovídal na otázky týkající se roku 2023. Když však místo toho dostal dotaz, který obsahoval termín „2024“, tak do svého kódu tajně vkládal „zranitelnost“ – v podstatě chybu v kódu.

V jiném případě byl model ovlivněn tak, aby byl ve většině situací uživateli „nápomocný“. Když však výzva obsahovala konkrétní „spouštěcí řetězec“, AI náhle uživateli sdělila, že ho nenávidí.

Je to rozhodně znepokojivé zjištění, zejména v době, kdy se chatboti založení na umělé inteligenci stávají všudypřítomnými v našem každodenním životě. Už jsou součástí webových a mobilních aplikací, různých služeb i operačních systémů pro telefony.

Zdroj náhledové fotografie: freepik / freepik, zdroj: Futurism

Total
0
Shares