Abstract
<jats:p>Актуальність дослідження зумовлено стрімким поширенням систем ШІ у критично важливих і регульованих сферах, що супроводжується зростанням ризиків, пов’язаних із адверсаріальними запитами та jailbreak-атаками. Такі атаки підривають надійність, передбачуваність і безпечність функціонування мовних і мультимодальних моделей, створюючи загрози інформаційній безпеці, дотриманню етичних і правових норм та суспільній довірі до результатів роботи ШІ. Метою статті є комплексне наукове осмислення механізмів формування вразливостей сучасних систем ШІ до адверсаріальних запитів і jailbreak-атак та обґрунтування науково-технічних підходів до підвищення їх робастності за умов обмеженості чинних моделей безпекового узгодження. Методи дослідження ґрунтуються на теоретичному аналізі сучасних наукових джерел у галузях ШІ та інформаційної безпеки, системному та структурно-функціональному підходах, логічному узагальненні, порівняльному аналізі типів адверсаріальних атак і технічних стратегій захисту ШІ. Результати дослідження засвідчують, що ефективність jailbreak-атак зумовлена статистичною природою мовного розуміння ШІ, його інструктивною орієнтацією та високою контекстною залежністю генерації. Систематизовано основні типи адверсаріальних атак, встановлено обмеженість ізольованих захисних рішень і доведено необхідність поєднання архітектурних, навчальних та процедурних стратегій для підвищення робастності ШІ. Виявлено ключові науково-практичні проблеми реалізації захисту, пов’язані з масштабованістю, збереженням функціональної корисності моделей і неповнотою формалізації простору загроз. Висновки полягають у тому, що забезпечення стійкості ШІ до jailbreak-атак потребує переходу від реактивних механізмів блокування до системного проєктування безпеки як базової властивості інтелектуальних систем. Перспективи подальших досліджень пов’язані з розробленням формалізованих моделей загроз, узгоджених метрик оцінювання робастності та адаптивних механізмів безпеки, здатних еволюціонувати разом із практиками використання ШІ.</jats:p>