Як працює штучний інтелект і чому він генерує фейки: інтерв’ю із очільником комітету з розвитку ШІ в Україні Олексієм Молчановським
26 Липня 2023 16:19 Що таке штучний інтелект, за яким принципом працюють генеративні моделі ШІ, чому ці системи вигадують неіснуючі факти і як запобігати таким галюцинаціям, а також що допоможе боротись із діпфейками, створеними за допомогою штучного інтелекту - в інтерв’ю UA.NEWS розповів Олексій Молчановський, керівник магістерської програми науки про дані, заступник декана факультету прикладних наук Українського католицького університету, голова експертно-консультаційного комітету з розвитку штучного інтелекту в Україні при Міністерстві цифрової трансформації, а також спікер iForum у Києві 10 серпня.
Розкажіть, що таке штучний інтелект простими словами, і які моделі ШІ зараз існують?
Олексій Молчановський: Ці технології доволі старі, вони почали з’являтися ще в 1956 році, тому і розвивалися вони у різний спосіб. Зараз ми спостерігаємо нову хвилю інтересу до штучного інтелекту, яка піднялась десь після 2010 року. А особливо - в останній рік, коли поширився так званий генеративний штучний інтелект або генеративні моделі ШІ. Яскравим прикладом такого для тексту є ChatGPT. Також є моделі, які генерують зображення, звук, відео і тому подібне.
Як же працюють ці підходи, в основі яких лежить технологія або математичні методи, які називаються глибоке навчання?
Ці технології намагаються запозичувати ті процеси, які відбуваються в нашому мозку. Але тут треба бути дуже обережним, бо це тільки певне наближення, і доволі далеке. Тим не менш, вони теж мають у собі всередині штучні нейрони, які поєднуються між собою. І головна їх мета і основний принцип, за яким вони працюють - це виявлення та відтворення певних патернів у даних.
Тому щоб ці технології працювали, дуже важливо в першу чергу мати якісні дані, на яких ми тренуємо ці моделі. Чим став потужний ChatGPT і модель GPT? Тим, що ця модель була натренована на величезних обсягах тексту. Коли ми говоримо про сервіси для генерування зображень, то їм були згодовані для тренування дані зображень з певним текстом навколо них - тобто модель мала і зображення, і тексти. І тепер по тексту можна генерувати зображення.
За аналогією, якщо ви хочете мати модель, яка діагностує захворювання та рак на флюорографіях, то вам потрібні відповідні дані. Це попередні флюорографії, які розмічені експертами-людьми, які розуміються на цих даних, можуть вказати, де є те, що може цікавити модель, а де цього немає.
Що ці моделі роблять? Вони намагаються відтворювати певні патерни, виявляти їх.
Чим вони відрізняються від баз даних - зовсім іншого напрямку в інформаційних технологіях? В базах даних ми маємо те, що маємо, тобто записані певні дані. А от сьогоднішні моделі ШІ дозволяють узагальнювати ці дані й відтворювати, працювати на тих даних, яких вони ще не бачили. Тому ми говоримо про генеративні моделі, які можуть на основі певного історичного досвіду генерувати нові дані.
З цього випливає дуже важливий наслідок. Якщо в даних є певні інсайти, які ви хочете виявляти, тоді модель може навчитися. А якщо в даних цього немає, то модель ніколи цього не виявить. Коли у даних присутні певні упередження, дискримінаційні дані, то модель може їх почати відтворювати, якщо ви не зробите якісь свідомі кроки, щоби убезпечити себе від цього.
За яким технічним принципом відрізняються ШІ чат боти від генераторів зображень та музики. Що їх відрізняє з технічної сторони?
Олексій Молчановський: Насамперед це є дані, потім - це архітектура цих моделей глибокого навчання, на яких вони навчені. Там існують різні підходи і різні механізми, які добре себе зарекомендували.
У 2010-2012 роках стався прорив саме у зображеннях. Тобто системи штучного інтелекту почали добре давати раду зображенням, розпізнавати, що на картинках - котики, песики чи люди. Текст підтягнувся пізніше. Зараз ми бачимо дуже яскраво, як ці системи класно працюють з текстом, і з зображеннями теж вже стає краще..
Що стосується відмінностей, то у першу чергу, це відмінності у даних, які використовує модель для навчання. Якщо ми говоримо про генерацію зображень з тексту - там мають бути і текстові, і візуальні дані. А якщо ми говоримо про чатбота, то там мають бути тільки текстові дані.
Але і за чатботами ховається дуже великий спектр підходів.
Це може бути простий чатбот, елементарно заснований на правилах. І якщо він бачить ключову фразу, то він нам видає потрібну відповідь. Більшість чатботів від бізнесу, наприклад, банківські (який відповідає за техпідтримку чи замінює call-центр), дуже примітивні на рівні правил.
А от чатботи, засновані на генеративному штучному інтелекті, виглядають значно цікавіше. Але тут є специфічний момент - такі чатботи повинні бути натреновані на спеціалізованих даних, щоб давати відповідь на певні питання. Якщо ми візьмемо банківську сферу, вам не достатньо взяти ChatGPT. Адже банку цікаво, щоб чатбот давав відповіді щодо його власних конкретних сервісів, послуг і інструментів. Відповідно, такий штучний інтелект треба дотренувати на даних і на базі знань від цього банку.
Ще один приклад - система, яка дає поради по юриспруденції, по українському корпусу юридичних текстів. Нам, треба або натренувати з нуля, або дотренувати цей ChatGPT, цю модель GPT на те, щоб вона мала цей корпус легальної інформації - закони, накази, постанови і тому подібне.
Тобто, є зовнішні публічні дані, а є внутрішні корпоративні дані. Тому якась компанія не може просто взяти і використати готовий продукт “з коробки” - потрібно все одно його допрацьовувати. І часто це не такий уже і простий процес. Тому постає питання, щоби хтось вам це зробив - це може бути людина у вас в компанії або можна залучити сторонніх фахівців.
Чому штучний інтелект вигадує неіснуючі факти? Як з'являються галюцинації штучного інтелекту?
Олексій Молчановський: Це важливе питання у контексті того, щоб розуміти обмеження цієї технології.
Звідки з'являються галюцинації штучного інтелекту? Потрібно чітко розуміти, що всі моделі ШІ намагаються виявляти певні патерни, які є в даних. Якщо ми беремо текст, модель дивиться на текст (це може бути сотні мільярдів сторінок), модель бачить, наприклад, 10 або 100 слів, і намагається вгадати, яке буде наступне слово. Коли ви навіть з ChatGPT спілкуєтесь, він вам не видає цілий текст, а пише його по словах, тобто він так і працює насправді.
Ми не можемо говорити, що штучний інтелект щось “розуміє”. Він просто має інформацію, які патерни є найбільш вживаними, що після такого слова йде таке слово. Коли ви в смартфоні, пишете повідомлення, вам теж підказують, яке може бути наступне слово - це та сама технологія, просто спрощена, не така потужна, як ChatGPT.
У цього штучного інтелекту немає розуміння світу. Чому ШІ генерує зображення людей, у яких 6-7 пальців або викривлені суглоби? Тому що у картинках штучний інтелект оперує на рівні пікселів, і він знає, що ось такі пікселі частіше зустрічаються один з одним. Люди інтерпретують це як руку або голову. А штучний інтелект не знає нічого ні про руки, ні про голову. В нього є просто патерн певних пікселів.
Відповідно, штучний інтелект може згенерувати вам що завгодно. Якщо, звісно, розробники не поставили поверх технології якісь заборони. Ви попросите ШІ знайти кейси справ, як у випадку з американським адвокатом - і він вам вигадає, оскільки зустрічав раніше подібні патерни, послідовності слів. Тому що в штучного інтелекту немає ніякого зв'язку з реальним світом. Це те, що називається в нашій галузі модель світу.
Що таке модель світу і як це поняття стосується ШІ?
Олексій Молчановський: У кожного з нас є модель світу всередині, в нашій уяві, в нашому мозку. Ми ці моделі світу починаємо створювати ще навіть до народження, чуючи певні звуки, тощо. Коли ми ростемо, будучи маленькими, ми активно створюємо цю модель світу. Фізично ходимо, дивимося, як рухається об'єкт. Ми вивчаємо інтуїтивно, що таке інерція, рівновага і тому подібне. Коли ми стаємо дорослими і вивчаємо якийсь новий предмет, то ми співставляємо те, що нам говорять, з реальністю.
У нас на відміну від ШІ є тіло, яке діє у певному середовищі. Людина може дізнатись щось нове, пішовши, ткнувши кудись пальцем або спитавши когось і отримавши відповідь. І людина це інтегрує у свою модель світу. У штучного інтелекту (принаймні в тій іпостасі, яку ми зараз бачимо) немає такої нагоди. ШІ немає тіла, яке могло би взаємодіяти з певним середовищем. Людина на кожну свою дію може отримати зворотній зв’язок, зробити висновок і вбудувати його у свою модель світу. У ШІ такого зворотнього зв'язку наразі немає. Хоча є перші спроби це зробити. Тож поки цього не буде, ШІ і далі буде галюцинувати.
Дуже важливий висновок з цього, що ШІ -класний інструмент, ви маєте ним користуватися. Але завжди перевіряйте, яку він інформацію фактологічно дає.
Як компанії, які створюють сервіси зі штучним інтелектом, можуть зменшити ці галюцинації? Можливо, за допомогою найму тестувальників людей?
Олексій Молчановський: Чим більш звужена задача, тим кращий ми можемо отримати результат. Адже чим більш вузька галузь, тим ліпше ми можемо її описати. І в якості даних, на яких буде тренуватися цей штучний інтелект, можна описати якомога більше цих кейсів.
Візьмемо приклад із правовими документами. Якщо ми на вхід подамо якомога більший корпус текстів, які описують не тільки закони, але і висновки судів, судочинство, і будемо ставити запити тільки всередині цього домену, цієї галузі, то є високі шанси, що галюцинації не буде.
Тестувальників, звісно, також можна долучати.
Але найкраще - це пробувати під’єднувати верифікацію до онлайну, щоб ШІ перевіряв і знаходив якісь джерела, які можна перевірити. І важливо дати йому обмежений перелік джерел, який він має перевіряти. Тому що є сайти, які продукують фейки.
Основна моя порада для боротьби з галюцинаціями - це звуження фокусу. Як тільки ми цей фокус звузили, то можна гарантувати користувачам більшу якість і кращу точність.
Але тут є важливий момент комунікації з користувачами - ви ніколи за поточних технологій не можете гарантувати стовідсоткову точність. І якщо від користувача будуть скарги, які призведуть до певних наслідків для вас - штрафів, тощо, ви повинні закладати це в ризики вашого бізнесу.
Як можна боротися із діпфейками, які створює штучний інтелект? Деякі з них дуже реалістично виглядають...
Олексій Молчановський: Для мене як людини із освітньої галузі, головна і найбільш дієва відповідь - розвивати критичне мислення у наших користувачах. Щоб вони піддавали сумніву те, що бачать, читають і мали інструменти, як можна це перевірити. Забий в гугл, перевір, пошукай правдиві джерела…Звісно це частина відповіді, бо інколи ми не маємо достатньо часу на цю перевірку. А іноді ми не настільки розвинуті - у якійсь галузі я можу бути більш компетентним, а у якісь - менш.
Сьогодні ми бачимо тиск у цьому питанні від урядів держав. Це вже вводиться в законі про штучний інтелект, який зараз розглядається у ЄС. Там вказано, що генеровані ШІ зображення або відео повинні містити водяний знак, мітку, які вказують на те, що контент згенеровано ШІ. Це не панацея. Бо цю мітку можна прибрати цими ж технологіями, щось відрізати. Але це певний крок, який зобов'язує. Якщо ми говоримо про тексти, то з ними набагато складніше. Ви не поставите водяний знак на вигляді певного тексту, що цей текст був згенерований ШІ. Уважний користувач просто зітре цю згадку і надішле текст без неї. Тому тут є значний виклик.
Є і великий виклик із точки зору виявлення авторства текстів. Тому що у випадку плагіату і запозичень є сервіси, які дозволяють це перевірити. І вони працюють більш-менш якісно, на них можна покладатись, вони покажуть джерела, звідки були взяті запозичення.
У випадку із текстом, який згенерував ШІ, то зараз тільки з'являються сервіси, які намагаються визначити і дати відсоткову оцінку, що конкретний текст був створений штучним інтелектом. Це стало можливим завдяки тому, що текст генерується ШІ за методами, які ґрунтуються на математичній статистиці. І ми можемо намагатися виявляти там шаблон. Але все одно це не дає стовідсоткової точності.
Тому я повертаюся до своєї першої тези: найважливіше - це розвивати критичне мислення. На жаль, тут панацеї не буде.
***
Медіа UA.NEWS є інформаційним партнером iForum-2023 та запрошує усіх бажаючих долучитись до головної ІТ-конференції України 10 серпня у МВЦ у Києві. Деталі на сайті iForum за посиланням: https://2023.iforum.ua/