WWW.KONF.X-PDF.RU
БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА - Авторефераты, диссертации, конференции
 

«Методы и алгоритмы классификации информации для защиты от спама ...»

На правах рукописи

Блинов Станислав Юрьевич

Методы и алгоритмы классификации информации для

защиты от спама

Специальность: 05.13.19. Методы и системы защиты

информации, информационная безопасность

Автореферат

диссертации на соискание ученой степени

кандидата технических наук

Санкт-Петербург

2013 г.

Работа выполнена на кафедре “Проектирования и безопасности

компьютерных систем” в НИУ ИТМО



Научный руководитель:

Коробейников Анатолий Григорьевич доктор технических наук, профессор

Официальные оппоненты:

Нырков Анатолий Павлович доктор технических наук, профессор, ГУМРФ имени адмирала С.О. Макарова, заведующий кафедрой Комплексного обеспечения информационной безопасности Карманов Андрей Геннадиевич кандидат технических наук, доцент кафедры геоинформационных систем НИУ ИТМО

Ведущая организация: Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Поволжский государственный технологический университет»

Защита состоится “29” мая 2013 г. в 15-50 часов на заседании диссертационного Совета Д.212.227.05 в НИУ ИТМО по адресу: 197101, Санкт-Петербург, Кронверский пр., 49.

С диссертацией можно ознакомиться в библиотеке НИУ ИТМО Автореферат разослан “29” апреля 2013 г.

Ученый секретарь диссертационного совета Д.212.227.05, к.т.н., доцент Поляков Владимир Иванович

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы.

На современном этапе состояния общества информационные технологии (ИТ) породили все увеличивающийся поток разнородной информации. Основной задачей поисковых систем (поисковых машин) является предоставление качественных результатов, т.е. наиболее важных релевантных страниц. Для этого необходимо решать задачу классификации (classification problem). Поэтому теория, методы и алгоритмы классификации информации являются бурно развивающимся научным направлением.

Классификация информации в сетях, и в частности в сети

Интернет, позволяет решать различные задачи, например:

документооборот, автоматическое аннотирование и реферирование, машинный перевод, составление интернеткаталогов, ограничение области поиска в поисковых системах, определение кодировки и языка текста, классификация новостей и т.д.

В России большими темпами активно развиваются классификационные системы и специализированные системы полнотекстового анализа, позволяющие производить автоматическую классификацию и реферирование текстов, например, “Следопыт”, ”ТекстАналист” и другие.

Одной из важнейших проблем, встающей практически перед каждым пользователем Интернет, является борьба со спамом, то есть задача фильтрации (классификации) поступающей информации.

Кроме того, в связи с бурным ростом объема информации в сети Интернет поисковые машины стали основным средством для эффективного доступа к ней. Задача поисковой машины – на каждый поисковый запрос выдавать ранжированный набор страниц, наиболее соответствующих запросу. Мера соответствия страницы запросу, называемая релевантностью, вычисляется на основе характеристик страниц и запросов. Некоторые владельцы сайтов пытаются повлиять на работу поисковых машин, чтобы повысить релевантность страниц. Это явление получило название поискового спама.

В настоящее время существуют технологии создания фильтров–сервисов отсекания навязываемой информации. Их принято разделять на два класса: настраиваемые вручную и автоматизированные. Технологии из первого класса применяют списки доступа и настраиваются пользователем, выбирающему или запрещенные, при политике «черного списка», или разрешенные, при политике «белого списка», адреса. Но такие разделения навязываемой информации неэффективны так как необходимо частое обновление списков доступа.

Кроме того, ручная категоризация неприменима, если необходимо классифицировать большой объем информации за ограниченное время.

Применение автоматизированных технологий фильтрации основано на использовании методов распознавания образов, искусственного интеллекта, применении математической статистики и т.д.

Фильтрам, созданным с применением теории искусственного интеллекта, обучение необходимо лишь в самом начале. Они, в процессе эксплуатации, дообучаются самостоятельно. При этом заметно снижается нагрузка пользователя.





Одной из самых используемых технологий построения фильтров, является технология, базирующаяся на байесовском подходе (наивный байесовский классификатор), в котором предполагается, что у термов сообщения отсутствует корреляция друг с другом. По опубликованным оценкам, байесовские фильтры могут отфильтровать до 97% спама.

Для повышения эффективности таких фильтров требуется учет семантических связей между термами, а это требует применения методов семантического анализа, что достаточно увеличивает нагрузку на систему, увеличивая время работы самого фильтра, при небольшом увеличении эффективности фильтрации.

Таким образом, исходя из вышесказанного, существует потребность в разработке новых методов и алгоритмов классификации информации для решения задачи фильтрации нежелательных сообщений, что подтверждает актуальность темы диссертационной работы.

Все вышесказанное определило цели и задачи диссертационного исследования.

Целью диссертационной работы является повышение эффективности фильтрации информации в сети Интернет с использованием разработанных методов и алгоритмов.

Для достижения поставленной цели в диссертационном исследовании были сформулированы и решены следующие задачи:

Разработка и анализ алгоритмов детектирования текстового спама на базе машинного обучения.

Исследование моделей массово создаваемых неестественных текстов.

Разработка и реализация метода построения разделяющей гиперплоскости в гильбертовом пространстве на основе фейеровского отображения для решения задачи сильной отделимости.

Разработка системы классификации информации в

Интернете, удовлетворяющей следующим условиям:

– точность и полнота обнаружения спам-документов;

– применимость к различным естественным языкам.

Объектом исследования методы и модели классификации информации в Интернете.

Методы исследования. Решение вышеперечисленных задач происходит с применением методов теории защиты информации, системного и структурного анализа, функционального анализа и методов математического моделирования.

Научная новизна диссертационного исследования состоит в разработке моделей построения обучающей выборки и методов обнаружения спам-документов.

Положения, выносимые на защиту:

1. Математические модели построения обучающей выборки.

2. Метод построения разделяющей гиперплоскости обучающей выборки на базе фейеровского отображения;

3. Алгоритм классификации документов.

Практическая значимость заключается в том, что полученные в диссертации результаты исследований могут быть использованы при разработке классификаторов информации в Интернет, позволяющих производить обнаружения спамдокументов. Разработанная система моделей и механизмов их реализации позволяет сформировать рациональный классификатор в соответствии с предложенными функциональными критериями и ограничениями.

Достоверность научных результатов и обоснованность научных положений, выводов и рекомендаций обеспечена полнотой анализа теоретических и практических исследований, положительной оценкой на научных конгрессах, конференциях и семинарах, практической проверкой и внедрением полученных результатов исследований на ряде предприятий.

Апробация работы. Основные положения диссертационного исследования докладывались и обсуждались на международных конгрессах и конференциях различного уровня: Всероссийская научно-практическая конференции с международным участием. Йошкар-Ола: Марийский государственный технический университет, 2012; 1-ый Международный симпозиум ”Гибридные и синергетические интеллектуальные системы: теория и практика”. Россия, Калининград, БФУ им.

И.Канта, 2012; Международный конгресс по интеллектуальным системам и информационным технологиям AIS-IT’12. Россия, Дивноморское (Геленджик), 2012.

Результаты исследований реализованы в СПб НИУ ИТМО и используются в учебном процессе при проведении занятий по дисциплинам: «Защита информации», «Информационная безопасность», «Информационная безопасность и защита информации», ООО «ДорСтройИнжиниринг», ООО «Тонар».

Публикации. По тематике диссертации опубликовано девять работ, в том числе три работы входят в список рекомендованный ВАК для защиты кандидатских диссертаций.

Личный вклад автора. Содержание диссертации и основные положения, выносимые на защиту, отражают персональный вклад автора в опубликованные работы.

Структура и объем работы. Диссертация состоит из введения, 5 глав, заключения, изложенных на 98 листах машинописного текста, содержит 14 рисунков и 11 таблиц.

Список литературы включает 62 наименования.

Основное содержание работы

Во введении обоснована актуальность темы исследования, сформулированы цель работы, основные научные положения, выносимые на защиту, отмечена научная новизна и практическая ценность работы, кратко изложено основное содержание работы.

В первой главе проанализированы тенденции и закономерности развития систем классификации информации, дана формальная постановка задачи классификации, рассмотрены основные методы классификации.

В настоящее время, по различным оценкам, объем информации увеличивается экспоненциально. Поэтому одной актуальнейших научных задач является систематизация (классификация) информации, в т. ч. в Интернете.

Классификация (категоризация, рубрикация) документов (text categorization, text classification, topic spotting) – является одной из задач информационного поиска, результат который заключается в занесении документа в одну из категорий на основании содержания документа (Рис.1).

–  –  –

Рис.1. Обобщенная схема задачи классификации информации Классификация может осуществляться вручную, на основе правил или автоматически. Примером ручной классификации может служить библиотека, где книгам вручную присваиваются тематические рубрики. Ручная категоризация неприменима, если необходимо классифицировать большой объем документов за ограниченное время.

Классификация на основе правил широко применялась до начала 1990-х гг. В соответствии с правилами, написанными экспертами, документ относился к той или иной категории. Часто правила имели форму регулярных выражений. Таким образом, от эксперта требовалось не только знание предметной области, но и навыки написания правил. Этот подход в некоторых случаях превосходит по точности другие методы, однако для поддержания базы правил в актуальном состоянии необходима постоянная работа эксперта, поэтому в 90-х гг. правила сменились машинным обучением, которое базируется на методах распознавания образов, искусственного интеллекта, математической статистики и т.д.

Автоматической классификации предшествует этап индексирования документов. Индексация – это процесс приведения документа к единому формату. Индексирование включает в себя построение модели документа и уменьшение размерности. Наиболее распространенными моделями документов являются варианты моделей множества слов (bag-ofwords), а именно бинарная модель и модель с весами терминов.

Бинарная модель учитывает только наличие или отсутствие слова в документе, во взвешенной же модели каждому термину ставится в соответствие его вес.

Все методы классификации базируются на отношение эквивалентности. При классификации некоторого множества в нем определяют отношение (я) эквивалентности, после чего исследуют образовавшиеся классы эквивалентности.

Основными методами классификации информации в настоящее время являются: иерархический метод классификации;

фасетный метод классификации; дескрипторный метод классификации; метод “ближайшего соседа” или системы рассуждений на базе аналогичных случаев; многомерная классификация.

Далее было рассмотрено понятие спама и его основные виды.

Проанализированы его основные характеристики. Рассмотрены основные методы борьбы со спамом.

Во второй главе рассмотрена математическая постановка задачи классификации, обзор основных алгоритмов классификации и основные положения метода опорных векторов.

Формально постановка задачи классификации выглядит следующим образом. Пусть дано конечное множество категорий (классов) C = {c1, c2, …c|C|} и конечное множество документов D = {d1, d2, …d|D|}. Целевая функция (функционал, классификатор) Ф:D C {-1, 1}, определяющая для каждой пары документ, категория соответствие их друг другу, не известна. Требуется найти классификатор Ф', т.е. функцию, максимально близкую к функции Ф. Если пересечение двух категорий пусто, то классификация бинарная, которая часто используется в фильтрации спама.

Если имеются образцы из каждой категории (объекты), про которые заранее известно, к какой категории они принадлежат, то такие задачи называются обучением с учителем, а известные данные называют обучающей выборкой.

Машинное обучение предполагает наличие обучающей и контрольной выборки, т.е. дана начальная коллекция документов = {d1, d2, …d| |} D, где значения целевой функции Ф известны для C. Эта коллекция разбивается на два (di, cj) непересекающихся множества. Классификатор Ф обучается индуктивно на основе выявленных характеристик документов.

Простейшим классификатором является метод ближнего соседа (Nearest Neighbor Classifier). Объект присваивают классу, являющимся наиболее распространенным среди соседей данного объекта. Соседи выбираются из множества объектов, классы которых уже известны.

Метод максимальной энтропии (Maximum Entropy) предусматривает распределение, наиболее близкое к равномерному. На основе обучающей выборки формируется множество ограничений модели. Ограничения представляются как ожидаемые значения признаков.

Метод Роччио применяется в линейных классификаторах, представляющих документ в виде весов терминов. Степень принадлежности документа категории обратно-пропорциональна расстоянию документа до категории. Результаты получаются хорошими, если документы одной категории близки друг другу

–  –  –

Обучение можно проводить за пределами обучающей выборки при наличии обратной связи.

Метод регрессии. В отличие от других методов, обучение происходит сразу на всей коллекции.

Метод опорных векторов (SVM – support vector machines) – это набор схожих алгоритмов на основе обучения с учителем, применяющийся для анализа данных и распознавания образов в задачах классификации и регрессионном анализе. SVM является линейным классификатором. На основе обучающей выборки алгоритм помогает предсказать, в какую из двух заранее заданных категорий попадает элемент, подлежащий классификации.

Основная идея – построение гиперплоскости или набора гиперплоскостей в пространстве более высокой размерности и максимизация расстояния между построенной гиперплоскостью и классами обучающей выборки.

В третьей главе рассмотрены основные методы порождения и обнаружения поискового спама.

Разработка поискового спама связана с генерацией текстов для автоматического заполнения спам-сайтов.

В настоящее время применяют следующие подходы при создании текстов для спамсайтов:

• Написание текста вручную;

• Копирование текста из различных источников;

• Автоматическая генерация текстов;

• Автоматическая модификация существующих текстов.

Написание текста вручную есть трудоемкий и дорогостоящий процесс. Из-за этого его крайне редко используют для массового порождения текстов.

Копирование текста из различных источников – очень распространенный прием. Но надо сказать, что сейчас имеются эффективные методы детектирования скопированной текстовой информации, например, на базе шинглирования.

Таким образом, в настоящее время наиболее эффективными являются методы, позволяющие автоматически генерировать уникальную текстовую информацию В настоящее время достаточно широко применяются генераторы текста на основе цепей Маркова. Сгенерированные ими тексты имеют свойства, которые сделали этот метод популярным для создания поискового спама. Во-первых, в сгенерированном тексте имеется такая же лексика, что и в начальном тексте. Поэтому в качестве образцов используются существующие тексты, высоко ранжируемые поисковыми машинами. Например, берутся образцы текста из сниппетов поисковых машин, и получают на выходе текст, оптимизированный под конкретный запрос. Во-вторых, сгенерированный текст с большой вероятностью является оригинальным. Это обстоятельство делает трудным детектирование этих текстов методом сравнения с дубликатами.

Кратко рассмотрим основные известные методы обнаружения поискового спама.

Для начала заметим, что в настоящее время не разработана строго обоснованная теория, описывающая законы порождения связных осмысленных текстов.

Поэтому в общем случае не существует методов создания текста, не отличающегося от созданного человеком. Однако у естественных текстов существуют некоторые особенности, такие как глобальная тематическая связность, локальная связность, следование законом жанра, единство стиля, и т.д. Поэтому существующие системы генерации неестественных текстов обязаны учитывать такие особенности типа общих тематические и статистических характеристик или локальной связности.

Отсюда встает задача поиска таких характеристик в тексте.

Существуют несколько методов решения этой задачи.

Рассмотрим кратко некоторые из них.

Методы анализа лингвистических характеристик для обнаружения поискового спама базируются на использовании специального словаря на основе признаков. Применение словаря означает, что генераторы текстов могут “обманывать” данные методы.

Существуют методы анализа содержимого документов для обнаружения поискового спама, которые определяют коммерческую составляющую таких текстов, вычисляя некоторую статистику атрибутов. Эти атрибуты в основном базируются исследовании логов систем контекстной рекламы или логов поисковых запросов. Применение характеристик, которые мало используются словарем, позволяет некоторым генераторам “обманывать” данные методы.

Существуют методы детектирования спама в блогах, использующие отличительные свойства формата блогов.

Например, присутствие комментариев.

Разработаны методы обнаружения спама, в которых анализируются стилистические особенности HTML-кода в страницах. Причем текстовая информация совсем не анализируется.

Методы определения стиля и жанра текста базируются на глобальных статистических закономерностях текстов. Например, анализ статистики употребления частиц, предлогов, длин предложений и слов позволяет делать выводы о принадлежности текста конкретному автору.

Задача обнаружения дубликатов текста, являющейся смежной к задачей обнаружения текстов, решается при помощи методов шинглирования для определения спам-текстов, сгенерированных из фрагментов естественных текстов.

Отметим, что задача определения дубликатов текста – это смежная задача детектирования текстов, сгенерированных цепями Маркова. Это следует из того факта, что при увеличении длины цепи, генератор повторяет все большие фрагменты текста-образца.

Детектирование спама, полученного с помощью генераторов текста на основе цепей Маркова, базируется на методах определения жанра и авторства.

В четвертой главе был разработан и проанализирован классификатор спама текстов на основе метода SVM.

Предложена модификация построения разделяющей гиперплоскости с использованием фейеровских отображений.

В задаче классификации информации для задачи защиты от спама необходимо определять, является данный документ спамом, или нет. В предлагаемом подходе для решения этой задачи вводится система метрик. Пользователь разделяет документы и отмечает те, которые считает спамом, то есть строит обучающее множество. На основании этой информации строятся выпуклые оболочки в виде систем линейных неравенств. Первая система задает множество точек-документов, определяемых как спам. Вторая система – множество точекдокументов, определяемых как не спам. Построив слой наибольшей толщины, разделяющий два многогранника, можно разработать процедуру, позволяющую автоматически разделять (классифицировать) документы на «хорошие» и «плохие».

Получив новый документ и прочитав его характеристики, получаем точку в рассматриваемом пространстве. Если данная точка попадает в «плохое» полупространство, мы делаем предположение, что это спам; если в «хорошее» – не спам. Если точка попадает внутрь слоя, письмо доставляется пользователю с пометкой «возможно, спам».

Для решения задачи сильной отделимости обычно применяют итерационный процесс, использующий оператор проектирования. Но реально использование такого метода сильно ограничено из-за того, что часто не получается получить конструктивный оператор, вычисляющий проекцию точки на выпуклое множество. Из-за этого производят замену оператора проектирования последовательностью фейеровских отображений [57]. Кроме того, алгоритмы разделения многогранников на основе оператора проектирования неустойчивы в задачах, где входные данные меняются в процессе решения. А вот алгоритмы на базе фейеровских отображений устойчивы к нестационарным данным. Так вот, нестационарной задачей является задача о спамфильтре.

Рассмотрим алгоритмы решения задачи сильной отделимости.

Пусть даны два выпуклых непересекающихся многогранника

M Rn и N Rn, заданные системами линейных неравенств:

M={x|Ax b} ; N={x|Bx d}. (1) Задача сильной отделимости заключается в нахождения слоя наибольшей толщины, разделяющего M и N. Эта задача равносильна задаче поиска минимального расстояния между M и

N в метрике:

(N,M)=min{||x–y|| x M, y N}. (2) Если x1 M и y1 N есть arg – точки(2) ( (N,M) =||x1–y1||), то тогда слоем наибольшей толщины, разделяющий N и M будет:

P = {x| x P1 P2}, P1 и P2 – полупространства, задаваемые линейными неравенствами:

x – x1, x1 – y1 0, y – y1, x1 – y1 0, где, – скалярное произведение двух векторов.

Следовательно, задачу сильной отделимости можно сформулировать так:

{x1,y1}=Argmin{||x–y|| x M,y N}. (3) Задачу (3) можно решить при помощи известного алгоритма последовательного проектирования.

Алгоритм решения задачи сильной отделимости ( ).

Даны два выпуклых непересекающихся многогранника M R и N Rn, заданные системами линейных неравенств (1).

n Обозначим отображение (проектирование) точки на M через M, а на N – N. Зададим произвольное начальное приближение Rn. Выберем фиксированное положительное вещественное w0 число. Тогда алгоритм решения задачи сильной отделимости будет состоять из следующих шести шагов.

Шаг 0. k :=0.

Шаг 1. xk+1 := M (wk).

Шаг 2. yk+1 := N (wk).

Шаг 3. wk+1 := (xk+1 + yk+1)/2.

Шаг 4. k :=k + 1.

–  –  –

будем называть фейеровским процессом.

Известно, что когда однозначное М-фейеровское отображение непрерывно, то фейеровский процесс стремится к точке, которая принадлежит М:

М: k x k 0 x M.

–  –  –

псевдопроекцией точки x на множество M.

Предположим, что в контексте решения задачи (3) существуют два однозначных непрерывных фейеровских отображения FM и y FN. Используя операции иy– проектирования, построим алгоритм, который решает задачу сильной отделимости, используя фейеровские отображения.

Алгоритм. Зададим произвольное начальное приближение w0 Rn. Выберем фиксированное положительное вещественное число. Тогда алгоритм решения задачи сильной отделимости с использованием фейеровских отображений будет состоять из следующих шести шагов.

Шаг 0. k :=0.

Шаг 1. xk+1 := M wk.

Шаг 2. yk+1 := N wk.

Шаг 3. wk+1 := (xk+1 + yk+1)/2.

Шаг 4. k :=k + 1.

Шаг 5. Если || wk+1– wk||, то перейти к Шаг 1.

Шаг 6. Конец.

Основной вопрос при обосновании применимости алгоритма к задаче классификации информации заключается в доказательстве сходимости этого алгоритма к требуемому решению.

Обычно, для обоснования сходимости алгоритма необходимо более сильное свойство, чем просто фейеровость отображения, а именно локально – сильное фейеровское отображение. В этом случае сходимость алгоритма строго доказана.

Понятно, что самыми ресурсоемкими шагами в алгоритме

- это Шаг 1 и Шаг 2. В этих шагах выполняется последовательный фейеровский процесс. Результатом является псевдопроекция точки на многогранник. Многогранник, задаваемый системой линейных неравенств, всегда является выпуклым замкнутым множеством, то есть всегда существует решение.

А теперь рассмотрим алгоритм создания обучающей выборки.

Будем производить действия по следующему алгоритму:

1. Берем обучающее множество и считываем его термы.

Получаем множество термов:

T={t1,t2,…tp}, p=1,…|T|.

2. Проводим лексикографическое упорядочивание множества, то есть преобразуем T в Tbase т. е. T Tbase, |Tbase|| T|, Lbase = |Tbase|.

3. На базе обучающего множества формируется частотный словарь слов (термов) Datatable, в котором каждому ti Tbase, i=1,…,|Lbase| соответствуют числа: 1i – частота встречаемости в 1и 2i – частота встречаемости в 2, Datatable={t1, 11, 12, t2, 21, 22,… tr, r1, r2}, r = Lbase.

4. Берем последовательно все документы di 1, i=1, … | 1|.

5. Считываем все термы из документа di: TT={tt1,…,ttk}, k = |di|.

6. Проводим лексикографическое упорядочивание множества TT, то есть преобразуем TT в TTbase т. е. TT TTbase, |TTbase||TT|, lbase = |TTbase|.

7. На базе множеств Tbase, TTbase, частотного словаря и вектора признаков формируем вектор: xi={ 11, 12, 21, 22,…, p1, p2,sv1,…svn}, где p=Lbase, и ij=0, если tti TT Tbase=.

Обозначим множество векторов xi через X = {xi}, i=1, … | 1|.

Получили множество, соответствующих спаму.

8. Повторяем шаги 4 – 7, но только для множества 2.

Обозначим полученное множество через Y. Получили множество, соответствующее не спаму.

9. Строим по алгоритму разделяющую гиперплоскость между X и Y. Получили нормальный вектор к гиперплоскости w и параметр b (порог классификации).

10. Строим классифицирующую функцию Ф'.

Окончательно алгоритм определения спамности документавыглядит так.

1. Берем документ di D\, i=1, … |D\ |.

2. Считываем все термы из документа di: TT={tt1,…,ttk}, k=|di|.

3. Проводим лексикографическое упорядочивание множества TT, то есть преобразуем TT в TTbase : TTTTbase, |TTbase||TT|, lbase = |TTbase|.

4. Определяем множество признаков для данного документа.

Если данный признак не определен, то присваиваем svi = 0.

5. На базе множеств Tbase, TTbase, частотного словаря и множества признаков формируем вектор x ={ 11, 12, 21, 22,…, p1, p2, sv1,…svn}, где p =Lbase, ij=0, если tti TT Tbase=.

6. Определяется спамность документа di при помощи классификатора: Ф'(x) = sign(w, x + b).

В пятой главе приведены результаты экспериментального исследования разработанного метода.

В собственной коллекции оказались ссылки с 25 сайтов, помещающих спам-ссылки (данные о месте помещения платных ссылок предоставляются владельцем сайта). Количество страниц на любом их сайтах – от 90 до 1000. Количество помеченных (в автоматическом режиме) ссылок: 22500 спам и 7500 не спам ссылок.

Во всех коллекциях произведено выделение ссылок с метками “спам” и не “спам”.

Для проверки метода был использован обучающий набор, состоящий из 172 спам-документов и 170 документов не спам.

Такие числа были взяты специально для равномерного распределения. В результате был сформирован словарь, содержащий 14386 различных слов.

Эксперименты проводились три раза по неделе каждый на реальном почтовом ящике, созданном более 4 лет назад и который сейчас активно не эксплуатируется.

Результаты работы фильтра на основе разработанного метода представлены на Рис. 2. На этом рисунке представлены все поступившие документы, спам-документы и легитимные документы. Оси Х - день, а ось Y - число документов.

Спам был пропущен в 1, 2 и 5 день – по 1 документу.

Процент пропущенного спама составил 4.83 %(3) от полного числа документов (62).

Произошло 2 ложных срабатывания фильтра, но это является не критичным, т.к. эти документы были рекламного характера, не обязательные для чтения. Уровень ложных срабатываний 1.75 %, что является достаточно высокой величиной, но это связано с тем, что обучающая выборка, на основе которой построен фильтр, обучалась на подобных документах.

Результаты работы фильтра на основе разработанного метода за период с 1 по 7 октября 2012 г.

–  –  –

Заключение В заключении приведены основные результаты диссертационной работы:

1. Определены основные тенденции и закономерности развития систем классификации информации. Показано, что разработка систем классификации информации, используя различные подходы, является актуальной задачей.

2. Проведен анализ на предмет использования различных подходов при разработке систем классификации спама.

3. Проведен анализ математических моделей массово порождаемых неестественных текстов.

4. Разработан и реализован метода построения разделяющей гиперплоскости в гильбертовом пространстве на основе фейеровского отображения для решения задачи сильной отделимости.

5. Разработаны математические модели построения обучающей выборки.

6. Реализован спам-фильтр на основе разработанного метода.

Испытания на реальном почтовом ящике показали, что разработанная система допускает ошибку первого рода (ложное срабатывание) не больше 1.86 % и допускает ошибку второго рода (пропуск события) не больше 4.83 %.

Дальнейшее направление исследований.

Разработанный алгоритм определения спамности документа, или классификации, конечно же имеет свои недостатки. Это видно из анализа проведенных экспериментов. Но попытка построить для решения задачи классификации один алгоритм, удовлетворяющих всех, заранее обречена на провал. Поэтому есть идея, в основе которой лежит композиционное объединение нескольких алгоритмов.

В этом случае возможна компенсация погрешности разных алгоритмов. Но сразу возникает много проблем, строя такие композиции. Например, при каких условиях качество композиции окажется выше, чем у отдельных базовых алгоритмов? Как настроить базовые алгоритмы, считая, что они будут функционировать в составе композиции? Можно ли использовать для их настройки стандартные методы обучения? Какое минимальное число базовых алгоритмов? Формально, эти вопросы можно записать следующим образом. Пусть имеется задача обучения по прецедентам {X,Y,y*,Xl,Yl}, где X – множество объектов; Y – множество ответов;

y* : X Y – отображение (неизвестная целевая зависимость); Xl = (x1, …, xl) – обучающая выборка; Yl =(y1,…,yl)–вектор ответов на обучающих объектах, yi=y*(xi).

Требуется построить алгоритм alg:XY, аппроксимирующий целевое отображение y* на множестве X.

Введем так называемое пространство оценок R.

Рассмотрим алгоритмы, которые представляются в виде суперпозиции:

alg(x) = (b(x)), где b : X R алгоритмический оператор, : R Y – решающее правило.

Достаточно много классификационных алгоритмов обладают именно такой структурой: на первом шаге определяется оценку принадлежности объекта соответствующим категориям (классам), а после этого, используя решающее правило, переводят эти оценки в конкретный класс. Величина оценки, обычно, показывает степень надежности классификации. Одни алгоритмы используют это вероятность принадлежности объекта заданной категории, а другие пользуются расстоянием от объекта до разделяющей гиперплоскости.

Можно применять и другие оценки для интерпретации.

В работе был использован вариант:

Y = {1,+1}, (z) = sign(z), alg(x) = Ф'(x) = sign(w,x + b).

Так вот, разработкой теоретических положений построения alg(x) = (b(x)) и будут посвящены дальнейшие научные исследования, которые позволят повысить эффективность фильтрации спама.

Перечень опубликованных автором работ по теме диссертации

1. Блинов С.Ю., Коробейников А.Г., Кувшинов С.С., Лейман А.В., Кутузов И.М. Цифровые водяные знаки в графических файлах//Научнотехнический вестник информационных технологий, механики и оптики СПб: СПБНИУ ИТМО, 2013, 1(83)- с.152 - 157.

2. Блинов С.Ю., Коробейников А.Г., Кувшинов С.С., Лейман А.В.

Генерация цифровых водяных знаков в графических файлах //Программные системы и вычислительные методы. - Москва: М: "НБМедиа", 2013.-Вып. 2.-№1. - Модели и методы управления информационной безопасностью. - С. 35 – 44. - 144 с. - ISSN 2305-6061.

3. Блинов С.Ю., Коробейников А.Г., Кувшинов С.С., Лейман А.В., Нестеров С.И. Разработка стеганоалгоритма на базе форматных и пространственных принципов сокрытия данных//Научнотехнический вестник информационных технологий, механики и оптики - СПб: СПБНИУ ИТМО, 2012, 1(77)- с.116 - 119.

4. Блинов С.Ю., Коробейников А.Г., Лейман А.В.Методы систематизации разнородной информации для задачи фильтрации спама//Информационные технологии в профессиональной деятельности и научной работе: сборник материалов Всероссийской научно-практической конференции с международным участием: в 2 ч. - Йошкар-Ола: Марийский государственный технический университет, 2012. - Т. 1. - С.20-24. - 232 с. - ISBN 978-5-8158-1002-0.

5. Блинов С.Ю., Коробейников А.Г., Лейман А.В., Святкина М.Н.

Мониторинг объектов на базе мультиагентных систем интеллектуальных агентов магнитных измерений.//Материалы 1-го Международного симпозиума ”Гибридные и синергетические интеллектуальные системы: теория и практика”. Изд-во БФУ им.

И.Канта, 2012. - Т. 2. - С. 155-160. - 444 с. - ISBN 978-5-9971-0212-8.

6. Блинов С.Ю., Коробейников А.Г., Лейман А.В., Демина Е.А.

Систематизация разнородной информации в задаче фильтрации спама// В книге “Труды конгресса по интеллектуальным системам и информационным технологиям AIS-IT’12. Научное издание в 4-х томах. М.:Физматлит, 2012, – Т.2. стр.18-22.

7. Блинов С.Ю., Коробейников А.Г., Лейман А.В., Маркина Г.Л., Кутузов И.М. Разработка алгоритма определения спамности документов на основе фейеровских отображений//Научнотехнический вестник информационных технологий, механики и оптики - СПб: СПБНИУ ИТМО, 2012, 6(82)- с.123 - 127.

8. Блинов С.Ю., Коробейников А.Г., Кувшинов С.С., Лейман А.В.

Анализ принципов создания и работы стеганографических алгоритмов//Программные системы и вычислительные методы. - Москва: М:

"НБ-Медиа", 2012.-Вып. 1.-№ 1.-Модели и методы управления информационной безопасностью. - С. 28 – 36. - 102 с. - ISSN 2305-6061.

9. Блинов С.Ю., Коробейников А.Г., Сидоркина И.Г., Лейман А.В. Алгоритм классификации информации для решения задачи фильтрации нежелательных сообщений//Программные системы и вычислительные методы.-Москва: М:"НБ-Медиа",2012.- Вып.1.-№ 1.Математическое и программное обеспечение новых информационных технологий. - С. 89-95.-102 с.-ISSN 2305-6061.



Похожие работы:

«ЯКУТИНА НАТАЛЬЯ ВЛАДИМИРОВНА ИССЛЕДОВАНИЕ СВОЙСТВ МОДИФИЦИРОВАННЫХ ЛЬНЯНЫХ ТКАНЕЙ, ОБЕСПЕЧИВАЮЩИХ УЛУЧШЕНИЕ ГИГИЕНИЧЕСКИХ И ЭКОЛОГИЧЕСКИХ ПОКАЗАТЕЛЕЙ Специальность 05.19.01 – «Материаловедение производств текстильной и легкой промышленности» АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Москва Работа выполнена в ФГБОУ ВПО «Московский государственный университет дизайна и технологии» на кафедре «Материаловедения» и «Промышленной экологии и...»

«ЧЕРНЯВСКАЯ Елена Васильевна ДЕЯТЕЛЬНОСТЬ ГОСУДАРСТВЕННЫХ ОРГАНОВ РОССИЙСКОЙ ИМПЕРИИ ПО ПАТРИОТИЧЕСКОМУ И НРАВСТВЕННОМУ ВОСПИТАНИЮ ЧИНОВ ПОГРАНИЧНОЙ СТРАЖИ В КОНЦЕ XIX – НАЧАЛЕ XX вв. Специальность 07.00.02 – Отечественная история Автореферат диссертации на соискание ученой степени кандидата исторических наук Москва – 20 Работа выполнена на кафедре Гуманитарных и социально-экономических дисциплин Федерального государственного казенного образовательного учреждения высшего...»

«Митин Игорь Николаевич ПСИХОФИЗИОЛОГИЧЕСКАЯ АДАПТАЦИЯ КАК ВЕДУЩИЙ ФАКТОР ОБЕСПЕЧЕНИЯ БЕЗОПАСНОСТИ ДОРОЖНОГО ДВИЖЕНИЯ Специальность: 05.26.02. Безопасность в чрезвычайных ситуациях (медицина катастроф) Автореферат диссертации на соискание ученой степени кандидата медицинских наук Москва -20 Работа выполнена в Федеральном государственном бюджетном учреждении «Всероссийский центр медицины катастроф «Защита» Министерства здравоохранения Российской Федерации Научный руководитель:...»

«Трунева Виктория Александровна СОВЕРШЕНСТВОВАНИЕ МЕТОДОВ ОПРЕДЕЛЕНИЯ РАСЧЕТНЫХ ВЕЛИЧИН ПОЖАРНОГО РИСКА ДЛЯ ПРОИЗВОДСТВЕННЫХ ЗДАНИЙ И СООРУЖЕНИЙ НЕФТЕГАЗОВОЙ ОТРАСЛИ Специальность: 05.26.03 – Пожарная и промышленная безопасность (нефтегазовая отрасль, технические науки) АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Москва – 2015 Работа выполнена в ФГБУ «Всероссийский ордена «Знак Почета» научно-исследовательский институт противопожарной обороны...»

«Фомичев Николай Владимирович ИССЛЕДОВАНИЕ КРИПТОГРАФИЧЕСКИХ СВОЙСТВ СИСТЕМ ЗАЩИТЫ ИНФОРМАЦИИ С ПОМОЩЬЮ МАТЕМАТИЧЕСКОЙ МОДЕЛИ ПРИЗНАКОВ В КОНЕЧНЫХ ПОЛУГРУППАХ И ГРУППАХ ПРЕОБРАЗОВАНИЙ Специальность: 05.13.19 — методы и системы защиты информации, информационная безопасность (физико-математические науки) АВТОРЕФЕРАТ диссертации на соискание учёной степени кандидата физико-математических наук Автор: _ Москва – 2008 Работа выполнена в ГОУВПО Московском инженерно-физическом...»

«БЕСКАРАВАЙНЫЙ Егор Борисович ХАРАКТЕРИСТИКА АДАПТИВНЫХ РЕАКЦИЙ ОРГАНИЗМА ВОЕННОСЛУЖАЩИХ ОТРЯДА СПЕЦИАЛЬНОГО НАЗНАЧЕНИЯ, ДИСЛОЦИРОВАННОГО В СЕВЕРНОМ РЕГИОНЕ, К ВОЗДЕЙСТВИЮ ПСИХОТРАВМИРУЮЩИХ УСЛОВИЙ СЛУЖЕБНО-БОЕВОЙ ДЕЯТЕЛЬНОСТИ 05.26.02 – безопасность в чрезвычайных ситуациях АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата медицинских наук Архангельск– 2015 Работа выполнена в государственном бюджетном образовательном учреждении высшего профессионального...»

«Леошкевич Илья Олегович СИСТЕМА ВЫЯВЛЕНИЯ НЕДЕКЛАРИРОВАННЫХ ВОЗМОЖНОСТЕЙ ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ, ВЛЕКУЩИХ НАРУШЕНИЕ КОНФИДЕНЦИАЛЬНОСТИ ИНФОРМАЦИИ Специальность: 05.13.19 – методы и системы защиты информации, информационная безопасность АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Автор: Москва – 2011 Работа выполнена в Национальном исследовательском ядерном университете «МИФИ». кандидат физико-математических наук, Научный руководитель:...»

«Загарских Вера Валерьевна РАЗВИТИЕ УПРАВЛЕНЧЕСКОГО УЧЕТА И БЮДЖЕТИРОВАНИЯ В ПРОИЗВОДСТВЕННЫХ ПОДРАЗДЕЛЕНИЯХ КАЗЕННЫХ УЧРЕЖДЕНИЙ УГОЛОВНО-ИСПОЛНИТЕЛЬНОЙ СИСТЕМЫ 08.00.12 – Бухгалтерский учет, статистика АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата экономических наук Екатеринбург – 2014 1 Работа выполнена на кафедре финансов и экономической безопасности факультета экономики и менеджмента Федерального государственного бюджетного образовательного учреждения...»

«АГАФОНОВ ВЯЧЕСЛАВ БОРИСОВИЧ Правовое регулирование охраны окружающей среды и обеспечения экологической безопасности при пользовании недрами: теория и практика 12.00.06 – Земельное право; природоресурсное право; экологическое право; аграрное право Автореферат диссертации на соискание ученой степени доктора юридических наук Москва 2014 Работа выполнена в Федеральном государственном бюджетном образовательном учреждении высшего профессионального образования «Московский...»

«Мирзоев Саймуддин Тиллоевич Процесс незаконного оборота наркотических средств и его влияние на систему обеспечения национальной безопасности (На материалах Республики Таджикистан) Специальность 23.00.02 политические институты, процессы и технологии (политические науки) АВТОРЕФЕРАТ диссертации на соискание учной степени кандидата политических наук Душанбе 201 Работа выполнена в Институте философии, политологии и права Академик наук Республики Таджикистан им. А. Баховаддинова...»

«Фурманова Татьяна Николаевна ГЕОЭКОЛОГИЧЕСКАЯ ОЦЕНКА ВОЗДЕЙСТВИЯ ДОБЫЧИ ОБЩЕРАСПРОСТРАНЕННЫХ ПОЛЕЗНЫХ ИСКОПАЕМЫХ НА СОСТОЯНИЕ ОКРУЖАЮЩЕЙ СРЕДЫ (НА ПРИМЕРЕ БЕЛГОРОДСКОЙ ОБЛАСТИ) Специальность 25.00.36 – «Геоэкология» АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата географических наук Белгород – 20 Работа выполнена на кафедре географии, геоэкологии и безопасности жизнедеятельности ФГАОУ ВПО «Белгородский государственный национальный исследовательский университет»...»

«СВЕЧНИКОВ Лаврентий Александрович ИНТЕЛЛЕКТУАЛЬНАЯ СИСТЕМА ОБНАРУЖЕНИЯ АТАК НА ОСНОВЕ ИМИТАЦИОННОГО МОДЕЛИРОВАНИЯ С ИСПОЛЬЗОВАНИЕМ НЕЧЕТКИХ КОГНИТИВНЫХ КАРТ Специальность 05.13.19 – Методы и системы защиты информации, информационная безопасность АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Уфа – 2010 Работа выполнена на кафедре вычислительной техники и защиты информации Уфимского государственного авиационного технического университета Научный...»

«Калинин Максим Олегович АДАПТИВНОЕ УПРАВЛЕНИЕ БЕЗОПАСНОСТЬЮ ИНФОРМАЦИОННЫХ СИСТЕМ НА ОСНОВЕ ЛОГИЧЕСКОГО МОДЕЛИРОВАНИЯ Специальность 05.13.19 —Методы и системы защиты информации, информационная безопасность Автореферат диссертации на соискание ученой степени доктора технических наук Санкт-Петербург — 2011 Работа выполнена в Государственном образовательном учреждении высшего профессионального образования Санкт-Петербургский государственный политехнический университет Научный...»

«ЧЕБОТАРЕВА ОЛЬГА ИГОРЕВНА МЕТОДИКА АДАПТАЦИИ УЧЕБНЫХ МАТЕРИАЛОВ ДЛЯ ОЧНОДИСТАНТНОГО ОБУЧЕНИЯ АНГЛИЙСКОМУ ЯЗЫКУ Специальность 13.00.02 – Теория и методика обучения и воспитания (русский язык как иностранный и иностранные языки в общеобразовательной и высшей школе) АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата педагогических наук Москва 201 Работа выполнена на кафедре английского языка ГОУ ВПО «Академия Федеральной службы безопасности Российской Федерации»...»

«ДАЙНЕКО Вячеслав Юрьевич РАЗРАБОТКА МОДЕЛИ И АЛГОРИТМОВ ОБНАРУЖЕНИЯ ВТОРЖЕНИЙ НА ОСНОВЕ ДИНАМИЧЕСКИХ БАЙЕСОВСКИХ СЕТЕЙ 05.13.19 — Методы и системы защиты информации, информационная безопасность АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Санкт-Петербург — 2013 Работа выполнена на кафедре проектирования и безопасности компьютерных систем федерального государственного бюджетного образовательного учреждения высшего профессионального образования...»

«ХАМЗИНА АЛЕКСАНДРА КАМИЛЕВНА ОБОСНОВАНИЕ И РАЗРАБОТКА ТЕХНОЛОГИИ ИКРЫ ЛОСОСЕВОЙ ЗЕРНИСТОЙ ИЗ МОРОЖЕНЫХ ЯСТЫКОВ Специальность 05.18.04 – технология мясных, молочных и рыбных продуктов и холодильных производств Автореферат диссертации на соискание ученой степени кандидата технических наук Москва 2012 Работа выполнена в лаборатории аналитического и нормативного обеспечения качества и безопасности Федерального государственного унитарного предприятии «Всероссийский...»

«НАГАЕВ РАДИК ЗАВГАЛОВИЧ КОМПЛЕКСНАЯ СИСТЕМА ОБЕСПЕЧЕНИЯ БЕЗОПАСНОСТИ ЭКСПЛУАТАЦИИ РЕЗЕРВУАРНЫХ ПАРКОВ Специальность 05.26.03 – Пожарная и промышленная безопасность (нефтегазовый комплекс) АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Уфа 2008 Работа выполнена в Государственном унитарном предприятии «Институт проблем транспорта энергоресурсов» (ГУП «ИПТЭР») доктор физико-математических наук, профессор Научный руководитель...»

«Михеев Алексей Александрович МЕТОДЫ И СРЕДСТВА АВТОМАТИЗИРОВАННОГО УПРАВЛЕНИЯ СУШИЛЬНОЙ КАМЕРОЙ Специальность 05.13.06 – Автоматизация и управление технологическими процессами и производствами (промышленность) АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Иркутск 2015 Работа выполнена в Федеральном государственном бюджетном образовательном учреждении высшего образования «Иркутский национальный исследовательский технический университет» (ФГБОУ...»

«КИСЕЛЕВА ИРИНА АНАТОЛЬЕВНА Специализированный продукт диетического профилактического питания на основе коктейля бактериофагов: конструирование, технология производства, оценка безопасности и эффективности применения 03.01.06 – биотехнология (в том числе бионанотехнологии) 03.02.03 – микробиология АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата биологических наук Москва 2015 Работа выполнена в Федеральном бюджетном учреждении науки «Московский...»

«Пудовкина Марина Александровна СВОЙСТВА ПРОГРАММНО РЕАЛИЗУЕМЫХ ПОТОЧНЫХ ШИФРОВ (НА ПРИМЕРЕ RC4, GI, ВЕСТА) Специальность: 05.13.19 методы и системы защиты информации, информационная безопасность АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук Москва-2004 Работа выполнена в Московском государственном инженерно-физическом институте (государственном университете) Научный руководитель: доктор физ.-мат. наук, профессор Борис Александрович...»







 
2016 www.konf.x-pdf.ru - «Бесплатная электронная библиотека - Авторефераты, диссертации, конференции»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.