ОБНАРУЖЕНИЕ СПАМ-СООБЩЕНИЙ С ИСПОЛЬЗОВАНИЕМ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ
DOI:
https://doi.org/10.55956/NXZX2857Ключевые слова:
машинное обучение, фильтрация спама, классификация текстов, Наивный Байес, логистическая регрессия, модель SVM, предварительная обработка данных, градиентный бустингАннотация
Данное исследование анализирует методы обнаружения спама с помощью автоматической классификации текстовых сообщений. Целью исследования было оценить эффективность моделей машинного обучения и исследовать их применимость в системах фильтрации спама. Этапы предварительной обработки включали преобразование сообщений в нижний регистр, токенизацию, удаление специальных символов и знаков препинания, исключение распространенных слов и стемминг. Эти шаги помогли выделить важную информацию из сообщений и улучшить качество классификации. В ходе исследования были протестированы такие модели, как Наивный Байес, Логистическая регрессия, SVM, Дерево решений, Случайный лес и Градиентный бустинг. Результаты показали, что модель SVM достигла наивысших показателей по всем метрикам, в то время как модели Случайного леса и Логистической регрессии также продемонстрировали высокую эффективность. Эти модели достигли более 95% в точности, точности, полноте и F1-мере. Результаты исследования демонстрируют эффективность методов машинного обучения в классификации текстовых данных и указывают на их потенциальное применение в реальных системах, таких как фильтрация сообщений, получаемых по электронной почте или SMS. В будущем планируется оптимизация гиперпараметров и применение усовершенствованных методов обработки текстовых данных для повышения производительности моделей.
Загрузки
Опубликована онлайн
Выпуск
Раздел
Лицензия

Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») 4.0 Всемирная.