Abstract
<jats:p>Развитие технологий и появление большого количества социальных сетей, а также простота работы с этими сетями при отправке, получении и публикации новостей, и слабость контроля привели к распространению большого количества новостей через эти сети, что вызвало распространение ложной информации . Цель: Разработка эффективной модели машинного обучения для обнаружения фейковых новостей на основе анализа текстовых данных. Методы: В исследовании использован набор данных ISOT, содержащий 45 017 англоязычных новостных статей (49% реальных, 51% фейковых). Применены методы предобработки текста (токенизация, лемматизация, очистка) и векторизация с помощью TF-IDF. Обучены и сравнены шесть моделей машинного обучения: Random Forest, Logistic Regression, Passive Aggressive, Decision Tree, Gradient Boosting и XGBoost. Данные разделены в соотношении 70/30 для обучения и тестирования. Результаты: Наивысшую точность продемонстрировала модель XGBoost — 0,9974, незначительно опередив Passive Aggressive (0,9965). Все модели показали значение F1-меры выше 0,99. Подтверждена эффективность TF-IDF для выделения различительных признаков в текстах новостей. Выводы: XGBoost рекомендуется к внедрению в системы автоматического обнаружения фейковых новостей. Перспективными направлениями дальнейших исследований являются расширение поддержки многоязычных данных и разработка мультимодальных подходов для анализа мультимедийного контента (изображений и видео).</jats:p> <jats:p>The rise of technology and the emergence of numerous social media platforms, along with the ease of using these platforms to send, receive, and publish news, along with weak controls, have led to the dissemination of large amounts of news through these networks, leading to the spread of false information. Objective: To develop an effective machine learning model for detecting fake news based on text data analysis. Methods: The study utilized the ISOT dataset, which contains 45,017 English-language news articles (49% real, 51% fake). Text preprocessing methods (tokenization, lemmatization, and cleansing) and vectorization using TF-IDF were applied.Six machine learning models were trained and compared: Random Forest, Logistic Regression, Passive Aggressive, Decision Tree, Gradient Boosting, and XGBoost. The data was split 70/30 for training and testing. Results: The XGBoost model demonstrated the highest accuracy of 0.9974, slightly outperforming Passive Aggressive (0.9965). All models achieved F1 scores above 0.99. The effectiveness of TF-IDF for extracting distinctive features in news texts was confirmed. Conclusions: XGBoost is recommended for implementation in automatic fake news detection systems. Promising areas for further research include expanding support for multilingual data and developing multimodal approaches for analyzing multimedia content (images and videos).</jats:p>