СТІЙКІСТЬ СИСТЕМ ШТУЧНОГО ІНТЕЛЕКТУ ДО АДВЕРСАРІАЛЬНИХ ЗАПИТІВ ТА JAILBREAK-АТАК

Authors: М. В. БАУТІНА

Publication: Вісник Херсонського національного технічного університету

Published: Apr 30, 2026

Source: Crossref

Back to Search View Original Cite This Article

Abstract

<jats:p>Актуальність дослідження зумовлено стрімким поширенням систем ШІ у критично важливих і регульованих сферах, що супроводжується зростанням ризиків, пов’язаних із адверсаріальними запитами та jailbreak-атаками. Такі атаки підривають надійність, передбачуваність і безпечність функціонування мовних і мультимодальних моделей, створюючи загрози інформаційній безпеці, дотриманню етичних і правових норм та суспільній довірі до результатів роботи ШІ. Метою статті є комплексне наукове осмислення механізмів формування вразливостей сучасних систем ШІ до адверсаріальних запитів і jailbreak-атак та обґрунтування науково-технічних підходів до підвищення їх робастності за умов обмеженості чинних моделей безпекового узгодження. Методи дослідження ґрунтуються на теоретичному аналізі сучасних наукових джерел у галузях ШІ та інформаційної безпеки, системному та структурно-функціональному підходах, логічному узагальненні, порівняльному аналізі типів адверсаріальних атак і технічних стратегій захисту ШІ. Результати дослідження засвідчують, що ефективність jailbreak-атак зумовлена статистичною природою мовного розуміння ШІ, його інструктивною орієнтацією та високою контекстною залежністю генерації. Систематизовано основні типи адверсаріальних атак, встановлено обмеженість ізольованих захисних рішень і доведено необхідність поєднання архітектурних, навчальних та процедурних стратегій для підвищення робастності ШІ. Виявлено ключові науково-практичні проблеми реалізації захисту, пов’язані з масштабованістю, збереженням функціональної корисності моделей і неповнотою формалізації простору загроз. Висновки полягають у тому, що забезпечення стійкості ШІ до jailbreak-атак потребує переходу від реактивних механізмів блокування до системного проєктування безпеки як базової властивості інтелектуальних систем. Перспективи подальших досліджень пов’язані з розробленням формалізованих моделей загроз, узгоджених метрик оцінювання робастності та адаптивних механізмів безпеки, здатних еволюціонувати разом із практиками використання ШІ.</jats:p>

Keywords

ШІ та до моделей дослідження

СТІЙКІСТЬ СИСТЕМ ШТУЧНОГО ІНТЕЛЕКТУ ДО АДВЕРСАРІАЛЬНИХ ЗАПИТІВ ТА JAILBREAK-АТАК

Abstract

Keywords

Related Articles

The features of the Consonant systems of South Siberian Turkic languages on the parameters of the objective complexity

Вплив міжамериканської та африканської систем захисту прав людини на формування компенсаційної моделі в контексті збройного конфлікту

Структура существенного спектра и дискретный спектр оператора энергии трехмагнонных систем в модели Гейзенберга

ЕФЕКТИВНІСТЬ КОРЕКЦІЙНО-ПРОФІЛАКТИЧНИХ ЗАХОДІВ З ЕЛЕМЕНТАМИ СХІДНИХ ОЗДОРОВЧИХ СИСТЕМ У КОРЕКЦІЇ БІОГЕОМЕТРИЧНОГО ПРОФІЛЮ ПОСТАВИ ЖІНОК МОЛОДОГО ВІКУ

ПОНЯТТЯ ПОЛІТИЧНОЇ ВІДПОВІДАЛЬНОСТІ В КОНТЕКСТІ МОДЕРНІЗАЦІЇ ПОЛІТИЧНИХ СИСТЕМ СУЧАСНОСТІ