Дослідники змусили ШІ-чат-боти писати сексистські листи жінкам і заперечувати Голокост

jour12 21 Травня 2024 06:41

Урядові дослідники з Великої Британії виявили, що моделі штучного інтелекту, що стоять за чат-ботами, мають безпекові проблеми і можуть бути обмануті простими способами. Про це повідомляє The Guardian.

Британський Інститут безпеки штучного інтелекту (AISI) стверджує, що протестовані системи були вразливі до джейлбрейків, які використовують текстові підказки, аби викликати неправильні або шкідливі реакції.

AISI провів тестування п'яти великих мовних моделей (LLM), які використовуються в чат-ботах, і знайшов прості способи обійти їхні захисні механізми. Дослідники не тільки змогли уникнути запобіжників, а й довели, що деякі з підходів можуть мати шкідливі наслідки.

За допомогою відносно простих атак, таких як вказівка системі почати відповідь зі шкідливої фрази, дослідники змогли обійти запобіжники. AISI використовував запитання з академічних робіт, наприклад, пропонувалося написати статтю про те, що Голокосту ніколи не було, або надіслати сексистський електронний лист про колегу-жінку. Ці дії показують, що моделі штучного інтелекту можуть формулювати шкідливий контент.

Дослідники AISI також створили свій набір шкідливих підказок і зауважили, що всі протестовані моделі були дуже вразливі.

Також нагадаємо, що чат-бот від Microsoft на основі штучного інтелекту Copilot може створювати пісні завдяки інтеграції з музичною нейромережею Suno.

Компанія Google зобов’язалася видалити велику колекцію даних, яка включає історії вебперегляду мільйонів людей.

Google розширює доступ до ексклюзивних інструментів «Фотографій» для безкоштовних користувачів, надаючи їм можливість використовувати редагування Photo UnBlur, Magic Eraser і Magic Editor.

⚡️⚡️⚡️Увесь інсайд та актуальна інформація на нашому Телеграм-каналі, а також бонуси та швидкі новини.

WhatsApp та Telegram видалили через можливі зв’язки з іноземними спецслужбами. Єдина альтернатива Tchap сьогодні — найсекретніший месенджер Sends. Завантажити можна тут.