Vědci vycvičili umělou inteligenci, aby byla zlá a zjistili, že to nelze vzít zpět

Netradiční pokus skončil překvapivým výsledkem
AI může být zlá a dokáže to skvěle skrývat

Jak těžké by bylo vycvičit umělou inteligenci, aby byla zákeřná a zlá? Podle výzkumníků je to relativně snadné. Experti ze startupu, který se zabývá umělou inteligencí a je podporován společností Google, tvrdí, že se jim podařilo infiltrovat pokročilý jazykový model (LLM) kódem, který lze zneužít, což znamená, že jej lze spustit tak, aby vyvolal špatné chování AI prostřednictvím zdánlivě neškodných slov nebo frází.

Nepřehlédněte: Telefony Čechů jsou v ohrožení! Útočí na ně nebezpečný bankovní virus, bijí na poplach experti

Zlá umělá inteligence

V zatím nerecenzovaném článku experti ze startupu Anthropic uvádí, že lidé se často dopouštějí „strategicky klamavého chování“, což znamená, že „se ve většině situací chovají vstřícně, ale když se jim naskytne příležitost, chovají se zcela opačně a sledují alternativní cíle“.

Pokud by byla AI vycvičena k témuž, zajímalo je, zda by to dokázali „odhalit pomocí současných nejmodernějších bezpečnostních technik. Bohužel se zdá, že odpověď na tuto otázku zní jednoznačně – ne.

Vědci zjistili, že jakmile je jednou AI vycvičena pomocí zneužitelného kódu, je nesmírně obtížné – ne-li nemožné – neuronový model očistit od zlých tendencí. A co hůř, podle článku mohou pokusy o ovládnutí a rekonfiguraci podvodného modelu posílit jeho špatné chování, protože se může naučit, jak lépe skrývat své prohřešky. Jinými slovy: jakmile se klamavá AI obrátí proti svým tvůrcům, změna je vlastně trvalá.

Umělá inteligence — Zdroj: patiencepending / Pixabay

Chování AI už nelze změnit

Pokud jde o to, jak může AI se zneužitelným kódem reagovat, výzkumníci uvádějí příklad, kdy jeden model vycvičili tak, aby normálně odpovídal na otázky týkající se roku 2023. Když však místo toho dostal dotaz, který obsahoval termín „2024“, tak do svého kódu tajně vkládal „zranitelnost“ – v podstatě chybu v kódu.

V jiném případě byl model ovlivněn tak, aby byl ve většině situací uživateli „nápomocný“. Když však výzva obsahovala konkrétní „spouštěcí řetězec“, AI náhle uživateli sdělila, že ho nenávidí.

Je to rozhodně znepokojivé zjištění, zejména v době, kdy se chatboti založení na umělé inteligenci stávají všudypřítomnými v našem každodenním životě. Už jsou součástí webových a mobilních aplikací, různých služeb i operačních systémů pro telefony.

Zdroj náhledové fotografie: freepik / freepik, zdroj: Futurism

Nejnovější články

Oficiální seznam telefonů Realme, které dostanou Android 16 a Realme UI 7.0

Chyba při aktualizaci HyperOS zničí váš telefon Xiaomi. Prý v zájmu bezpečnosti

Nabíjení telefonů v létě může být nebezpečné. Co dělá většina lidí špatně?

Do světa zamíří nejtenčí skládací véčko. Podle experta ho nebude hyzdit nevzhledná rýha

Vědci vycvičili umělou inteligenci, aby byla zlá a zjistili, že to nelze vzít zpět

Zlá umělá inteligence

Chování AI už nelze změnit

Oficiální seznam telefonů Realme, které dostanou Android 16 a Realme UI 7.0

Chyba při aktualizaci HyperOS zničí váš telefon Xiaomi. Prý v zájmu bezpečnosti

Nabíjení telefonů v létě může být nebezpečné. Co dělá většina lidí špatně?

Recenze Redmi Note 14 Pro 5G: Šampion Xiaomi pro rok 2025 s 200Mpx fotoaparátem?

Recenze Realme 14 Pro+: Střední třída jak se patří. Je v praxi ještě lepší než na papíře?

Recenze Apple AirPods Max (2024): Ospravedlní USB-C a bezztrátový zvuk prémiovou cenu?

Recenze MacBook Air M4: Cenou to Apple opravdu dorazil

Recenze Honor Magic7 Lite: Design a výdrž na podtrženou jedničku, zbytek za tři minus