Abstract
<jats:p>Ефективне розбиття вихідних документів на фрагменти є критичним чинником якості пошуку в системах retrieval-augmented generation (RAG). Традиційні стратегії фрагментації з фіксованим розміром або на основі речень опрацьовують документи без урахування семантики, часто розриваючи цілісні інформаційні одиниці на довільних межах. Підхід семантичної сегментації тексту Max-Min пропонує модель «embedding-first», за якої всі речення спочатку перетворюються на векторні подання, а межі фрагментів визначаються шляхом порівняння подібності між кандидатом-реченням і поточним фрагментом із наперед заданим мінімальним порогом подібності. У статті подано теоретичне дослідження придатності методу семантичної сегментації Max-Min для великомасштабної технічної документації на прикладі корпусу документації Hazelcast. Аналіз ідентифікує та характеризує сім типів контенту в документації Hazelcast – наративний текст, описи API, блоки коду, таблиці конфігурації, покрокові інструкції, блоки застережень та панелі вкладок з мультимовними прикладами. Для кожного типу контенту оцінюється очікувана поведінка методу Max- Min порівняно з базовими методами за чотирма вимірами, такими як семантична зв'язність фрагментів, точність пошуку, розподіл і варіативність розмірів фрагментів та якість виявлення меж на переходах між типами контенту. Аналіз показує, що метод Max-Min суттєво перевершить базові показники для наративного контенту, покрокових інструкцій та вбудованих блоків застережень. Водночас він стикається зі структурними обмеженнями щодо блоків коду, конфігураційних таблиць, автономних блоків застережень і – найсуттєвіше – панелей вкладок із мультимовним контентом, де майже ідентичні вектори між панелями унеможливлюють виявлення меж. Запропоновано чотири стратегії адаптації як напрями подальших емпіричних досліджень </jats:p>