МЕТОД MAX-MIN СЕМАНТИЧНОЇ СЕГМЕНТАЦІЇ ТЕКСТУ ДЛЯ ІНФОРМАЦІЙНОГО ПОШУКУ В ТЕХНІЧНІЙ ДОКУМЕНТАЦІЇ: ДОСЛІДЖЕННЯ НА ПРИКЛАДІ ДОКУМЕНТАЦІЇ HAZELCAST

Authors: М. О. ФАНТ, Т. А. ВАКАЛЮК

Publication: Вісник Херсонського національного технічного університету

Published: May 7, 2026

Source: Crossref

Back to Search View Original Cite This Article

Abstract

<jats:p>Ефективне розбиття вихідних документів на фрагменти є критичним чинником якості пошуку в системах retrieval-augmented generation (RAG). Традиційні стратегії фрагментації з фіксованим розміром або на основі речень опрацьовують документи без урахування семантики, часто розриваючи цілісні інформаційні одиниці на довільних межах. Підхід семантичної сегментації тексту Max-Min пропонує модель «embedding-first», за якої всі речення спочатку перетворюються на векторні подання, а межі фрагментів визначаються шляхом порівняння подібності між кандидатом-реченням і поточним фрагментом із наперед заданим мінімальним порогом подібності. У статті подано теоретичне дослідження придатності методу семантичної сегментації Max-Min для великомасштабної технічної документації на прикладі корпусу документації Hazelcast. Аналіз ідентифікує та характеризує сім типів контенту в документації Hazelcast – наративний текст, описи API, блоки коду, таблиці конфігурації, покрокові інструкції, блоки застережень та панелі вкладок з мультимовними прикладами. Для кожного типу контенту оцінюється очікувана поведінка методу Max- Min порівняно з базовими методами за чотирма вимірами, такими як семантична зв'язність фрагментів, точність пошуку, розподіл і варіативність розмірів фрагментів та якість виявлення меж на переходах між типами контенту. Аналіз показує, що метод Max-Min суттєво перевершить базові показники для наративного контенту, покрокових інструкцій та вбудованих блоків застережень. Водночас він стикається зі структурними обмеженнями щодо блоків коду, конфігураційних таблиць, автономних блоків застережень і – найсуттєвіше – панелей вкладок із мультимовним контентом, де майже ідентичні вектори між панелями унеможливлюють виявлення меж. Запропоновано чотири стратегії адаптації як напрями подальших емпіричних досліджень </jats:p>

Keywords

на та контенту maxmin фрагментів

МЕТОД MAX-MIN СЕМАНТИЧНОЇ СЕГМЕНТАЦІЇ ТЕКСТУ ДЛЯ ІНФОРМАЦІЙНОГО ПОШУКУ В ТЕХНІЧНІЙ ДОКУМЕНТАЦІЇ: ДОСЛІДЖЕННЯ НА ПРИКЛАДІ ДОКУМЕНТАЦІЇ HAZELCAST

Abstract

Keywords

Related Articles

Robust Max Statistics for High-dimensional Inference

Exploring the Association Between Nutrient Intake Level Children Prediction Based on Soft Max Generative Adversarial Networks

A novel rule-based min-max classification: application to smart transactional fraud detection

Clopidogrel Monotherapy in Patients With Chronic Coronary Syndrome Following Coronary Artery Bypass Grafting: A Nationwide Cohort Study

The novel approach for realizing carbon neutrality of coal: backfill material-assisted CO2 sequestration in UCG combustion cavities