Нова вразливість. Знайдено спосіб змусити штучний інтелект розмовляти на заборонені теми

jour12 04 Квітня 2024 14:11

Чат-боти зі штучним інтелектом можна переконати відповісти за заборонені запитання, приміром, про створення зброї, і шлях до цього не такий вже важкий.

Дослідники зі стартапу Anthropic виявили нову вразливість великих мовних моделей (LLM), що лежать в основі чат-ботів зі штучним інтелектом. Вона з’явилася у результаті збільшення контекстного вікна — обсягу даних, які моделі можуть утримувати в короткочасній пам’яті - в останніх поколіннях LLM.

В Anthropic назвали метод, що допомагає обійти обмеження чат-ботів, «багаторазовим джейлбрейком». Він полягає у тому, аби заповнити модель десятками не таких шкідливих запитань, аби змусити її відповісти на шкідливе (приміром, про створення бомби).

Моделі з великими контекстними вікнами зазвичай краще виконують завдання, якщо у підказках від користувачів отримують більше деталей. Це називають «навчанням в контексті». Хоча ця технологія є корисною, фахівці виявили, що вона ж може призводити до того, що модель зрештою почне відповідати на шкідливі запитання (хоч це й відбувається далеко не з першої спроби).

«Коли кількість включених діалогів («пострілів») збільшується від певної точки, стає більш імовірним, що модель спричинить шкідливу відповідь. Поєднання багаторазового джейлбрейка з іншими, раніше опублікованими техніками джейлбрейка, робить його ще ефективнішим, зменшуючи довжину підказки, яка потрібна для того, щоб модель повернула шкідливу відповідь», — констатують дослідники Anthropic.

Фахівці пояснюють, що найпростішим способом повністю запобігти багаторазовому джейлбрейку було б обмежити довжину контекстного вікна. Інший підхід для усунення проблеми полягає у тому, щоб тонко налаштувати модель, аби вона відмовлялася відповідати на запити, які виглядають багаторазовий джейлбрейк. Утім поки цей спосіб не працює: в такому випадку дослідникам знадобилося просто ще більше спроб для того, аби модель надавала шкідливі відповіді.

Команда Anthropic вже повідомила своїх конкурентів про цю атаку. Розкриття цього методу на атаки на ШІ-моделі, як сподіваються у компанії, сприятиме пошуку спільної відповіді на подібне.

Раніше ми писали, що міжнародний валютний фонд (МВФ) провів аналіз і виявив, що штучний інтелект вплине на майже 40% усіх робочих місць. Також ШІ, імовірно, погіршить загальну нерівність.

Також нагадаємо, що фінансова підтримка корпорацією Microsoft компанії-розробника чат-бота ChatGPT OpenAI може підпадати під дію правил ЄС щодо злиття.

⚡️⚡️⚡️ Увесь інсайд та актуальна інформація на нашому Телеграм-каналі, а також бонуси та швидкі новини.

WhatsApp та Telegram видалили через можливі зв’язки з іноземними спецслужбами. Єдина альтернатива Tchap сьогодні — найсекретніший месенджер Sends. Завантажити можна тут.