AI в DLP-системах против «черных лебедей» и «серых зон» в массивах данных

30.06.2024

Александр Абрамов

Нагрузка на DLP-систему в крупной компании сегодня может достигать миллиона обрабатываемых событий в день. Применение цифровых сервисов и разнообразных средств коммуникации, облачных хранилищ и совместных платформ приводит к тому, что в компаниях накапливается огромный массив данных, проанализировать которые в ручном режиме офицер безопасности не в состоянии. В этом случае использование искусственного интеллекта в DLP-системах – это не просто мегатренд, а необходимая мера, позволяющая автоматизировать процессы и обеспечить разделение труда: ИИ быстро и качественно разбирает «завалы» данных, а квалифицированный специалист принимает решение на основании своего опыта и тех практик, которыми владеет. DLP-системы, в которых технологии ИИ пока не применяются, постепенно превращаются в кладбище данных, где могут возникать «черные лебеди», накапливаться «серые события», зарождаться различные угрозы информационной безопасности организации. Подробнее о том, как этого избежать, выясняем с экспертом – руководителем направления InfoWatch Traffic Monitor Александром Клевцовым.

Эффективная DLP-система должна отражать в своих политиках все важные категории информации, которыми оперирует организация. И здесь кроется основная проблема: всегда в бизнес-процессах возникают какие-то непредвиденные и непредсказуемые события, так называемые «черные лебеди». В общем смысле «черный лебедь» – это непрогнозируемое событие, которое приводит к масштабным проблемам. В мире ИБ это, к примеру, внезапно обнаруженные уязвимости, атаки нулевого дня, вирусы-шифровальщики, которые приводят к серьезным неприятным последствиям.

С точки зрения защиты данных в организации «черным лебедем» можно назвать информационный актив или процесс, который не просто не отражен в политиках DLP, но о котором служба ИБ даже не подозревает. Он может появляться по разным причинам: например, как следствие теневого процесса или неформальной коммуникации внутри компании. Также может случиться, что формально в политиках отражены все шаблоны и категории документов, но по факту, когда внешний контрагент инициирует новый, пусть на первый взгляд и легитимный процесс, – служба ИБ ничего о нем не знает. Значит, внутри организации зарождается потенциальная угроза.

Итак, часть инцидентов оказывается вне поля зрения службы ИБ не потому, что офицер безопасности что-то вовремя не отразил в политиках DLP, а потому что он работает с огромным массивом данных и просто физически не может уследить за появлением в трафике нового, не учтенного информационного актива. Это одна из наиболее актуальных причин возникновения ложноотрицательных срабатываний: у специалиста ИБ не хватает времени на то, чтобы регулярно и методично разбирать события «серой зоны» – те, которые система никак не разметила потому, что они не соответствуют ни одной политике. Некоторые пользователи различных DLP-систем утверждают, что бороться с ложноотрицательными срабатываниями, просматривая все потенциальные инциденты, – всё равно, что искать иголку в стоге сена.

Александр Клевцов, руководитель направления InfoWatch Traffic Monitor»

Александр Клевцов, руководитель направления InfoWatch Traffic Monitor».
Фото предоставлено InfoWatch

Тем не менее, многие пользователи продуктов для защиты данных на регулярной основе практикуют разбор «серых событий». Это могут быть, например, активности увольняющихся сотрудников или события, связанные с критическими подразделениями компании, а также выборочные события, которые уходят за периметр компании. При их изучении обнаруживаются «черные лебеди» – огромные массивы неучтенных данных. Офицер безопасности должен проделать колоссальный объем ручной работы, чтобы разобраться с этими данными: с чем связан тот или иной документ, с каким бизнес-процессом, какие смежные документы и действия сотрудников к нему относятся.

И это еще не все сложности. После того, как офицер безопасности столкнулся с очередным «черным лебедем» и «раскрутил» по цепочке все документы, которые связаны с этим процессом, ему необходимо все собранные образцы документов превратить в новые знания для DLP-системы, чтобы она начала защищать эту категорию информации. Проблема заключается в том, что на создание одной качественной лингвистической модели, которая будет эффективно защищать новую категорию информации, уходит в среднем 5-7 дней работы профессионального компьютерного лингвиста. Под качественной лингвистической моделью мы подразумеваем не набор из 30-40 стоп-слов, а полноценную модель, которая содержит в себе сотни терминов, взаимосвязей этих терминов и других параметров, и которая впоследствии позволит выявлять и контролировать любую информацию, связанную с этой категорией.

Традиционно офицеры безопасности вынуждены вручную разбирать «серые события», искать артефакты, связанные документы и тратить продолжительное время, чтобы отразить это в политиках. Все это при условии, что им действительно удалось наткнуться на «черного лебедя» – ведь в большинстве случаев ИБ-специалисты могут не знать, что в трафике и бизнес-процессах компании содержится что-то потенциально опасное. В результате по факту политики оказываются неактуальными, и организовать по ним оперативную защиту информационных активов невозможно. Значит, эффективность DLP-системы в компании далека от совершенства.

На помощь в этой ситуации приходит модуль InfoWatch Data Explorer, разработанный для совместного использования с DLP-системой InfoWatch Traffic Monitor. Основываясь на технологии машинного обучения, он берет на себя всю рутину по исследованию трафика организации, выявлению неучтенных новых категорий документов, распределению их по кластерам. Более того, если InfoWatch Data Explorer распознает информационный актив, который необходимо защищать, он сформирует лингвистическую модель и создаст соответствующую политику DLP. Формирование лингвистической модели занимает у системы всего одну минуту: разница по сравнению с временными затратами лингвиста колоссальная, а качество – сопоставимое.

Искусственный интеллект позволяет быстро и качественно обновить политики DLP.
Слайд из презентации InfoWatch

«Представьте, что к вам приходит руководитель, высыпает на стол десятки тысяч бумажных документов и просит их проанализировать. Тем же самым, только в цифровом виде, занимается сотрудник службы безопасности, когда пытается вручную разбирать «серую зону»: начинает хаотично что-то просматривать, надеясь на удачу. Технология машинного обучения предлагает вам другой сценарий: в этом случае перед вами на столе, условно говоря, уже не гора документов, а скрепленные по категориям стопки, на каждой из которых сверху прикреплен стикер с указанием ключевых терминов. А в основании стопки еще и положены наиболее типичные для данной категории документы. Таким образом технология машинного обучения позволяет буквально за минуту классифицировать любые неопознанные данные. После этого вы можете снова загрузить эти документы в DLP и за минуту сформировать новый словарь. Без ручного разбора, без гигантских трудозатрат вы создаете сколь угодно много политик и словарей», – объясняет Александр Клевцов.

Алгоритм работы модуля очень простой: система находит информационные активы, о которых ИБ-специалисты ничего не знали, за минуту формирует лингвистическую модель и тут же создает политику. С этого момента DLP-система начинает защищать новую категорию информации так же, как все остальные. Такой способ кардинально меняет процесс формирования политик и защиты корпоративной информации: службе ИБ не нужно тратить недели на то, чтобы научить DLP-систему защищать какие-то абстрактные данные. Всего за несколько минут InfoWatch Traffic Monitor поможет ей получить данные актуальных бизнес-процессов, что дает возможность специалистам ИБ актуализировать политики не раз в несколько месяцев, а при первой необходимости.

Отдельно подчеркнем главные преимущества модуля InfoWatch Data Explorer. Во-первых, как уже было отмечено, качество создания лингвистических моделей на основе технологии ИИ сопоставимо с качеством работы профессионального компьютерного лингвиста. Во-вторых, использование этого модуля не требует от ИБ-специалиста специфических знаний, навыков, экспертизы – весь процесс защиты от утечек максимально автоматизирован. В-третьих, данное решение отлично подойдет заказчикам любого масштаба и сферы деятельности. К примеру, это оптимальный выход для компаний, которые имеют дело с чувствительной конфиденциальной информацией и не могут допустить к ней посторонних лиц для создания лингвистических моделей. Для компаний среднего бизнеса, для которых DLP-система – это сложный инструмент, оно будет отличным подспорьем, поскольку автоматизация поможет легко наладить работу по защите данных.

Добавим, что разработки InfoWatch в области технологий ИИ для защиты от утечек уже получили профессиональное признание. В частности, проект InfoWatch по защите чувствительной информации с помощью технологий машинного обучения стал лауреатом Национальной банковской премии 2023 года в номинации «Лучшая система защиты персональных данных для банковской отрасли».

Тематики: Безопасность

Ключевые слова: информационная безопасность, InfoWatch, DLP

Свежее по теме

24.07.2026

«Биометрию нельзя поменять»: Ирина Дмитриева об опасности аутентификации через видеоселфи

24.07.2026

Зараженные вложения и фишинг: Ближний Восток столкнулся с рекордным числом атак на промышленные системы

24.07.2026

Вирус прячет команды в календарных событиях 2050 года — эксперт «Группы Астра» о защите от подобных атак