ОБНАРУЖЕНИЕ СПАМ-СООБЩЕНИЙ С ИСПОЛЬЗОВАНИЕМ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ

ОБНАРУЖЕНИЕ СПАМ-СООБЩЕНИЙ С ИСПОЛЬЗОВАНИЕМ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ

Авторы

  • А.Б. Абен Международный казахско-турецкий университет имени Ходжи Ахмеда Ясави, г. Туркестан, Казахстан
  • Н.М. Жунисов Международный казахско-турецкий университет имени Ходжи Ахмеда Ясави, г. Туркестан, Казахстан
  • Ж.Б. Мырзатаев Международный казахско-турецкий университет им. Ходжи Ахмеда Ясави, г. Туркестан, Казахстан

DOI:

https://doi.org/10.55956/NXZX2857

Ключевые слова:

машинное обучение, фильтрация спама, классификация текстов, Наивный Байес, логистическая регрессия, модель SVM, предварительная обработка данных, градиентный бустинг

Аннотация

Данное исследование анализирует методы обнаружения спама с помощью автоматической классификации текстовых сообщений. Целью исследования было оценить эффективность моделей машинного обучения и исследовать их применимость в системах фильтрации спама. Этапы предварительной обработки включали преобразование сообщений в нижний регистр, токенизацию, удаление специальных символов и знаков препинания, исключение распространенных слов и стемминг. Эти шаги помогли выделить важную информацию из сообщений и улучшить качество классификации. В ходе исследования были протестированы такие модели, как Наивный Байес, Логистическая регрессия, SVM, Дерево решений, Случайный лес и Градиентный бустинг. Результаты показали, что модель SVM достигла наивысших показателей по всем метрикам, в то время как модели Случайного леса и Логистической регрессии также продемонстрировали высокую эффективность. Эти модели достигли более 95% в точности, точности, полноте и F1-мере. Результаты исследования демонстрируют эффективность методов машинного обучения в классификации текстовых данных и указывают на их потенциальное применение в реальных системах, таких как фильтрация сообщений, получаемых по электронной почте или SMS. В будущем планируется оптимизация гиперпараметров и применение усовершенствованных методов обработки текстовых данных для повышения производительности моделей. 

Опубликована онлайн

2024-12-30

Выпуск

Раздел

Информационно-коммуникационные технологии
Loading...