четверг, 11 ноября 2021 г.

Об особенностях выявления социокультурных и киберугроз в интернет-ресурсах с использованием нейросетевых технологий

Нейронные сети все шире применяются для решения вопросов обеспечения информационной безопасности. Однако, несмотря на наличие в этой деятельности значительных успехов, существуют и серьёзные проблемы, такие как выявление ключевых факторов анализа, возможности несанкционированного перепрограммирования искусственного интеллекта, использование участниками коммуникации множества языков и их полисемия, и другие. Но одной из главных проблем, с точки зрения авторов, является экспоненциальное увеличение в интернет пространстве информационного хлама и информационного мусора. Обоснованию этого тезиса и уточнению данных понятий посвящена данная статья.

 Ключевые слова: искусственный интеллект, нейронные сети, нейросетевые технологии, информационная безопасность, угроза, информационный хлам, информационный мусор.

Neural networks are increasingly used to address information security issues. However, despite the significant success in this activity, there are also serious problems, such as identifying the key factors of analysis, the possibility of unauthorized reprogramming of artificial intelligence, the use of many languages ​​by communication participants and their polysemy, and others. But one of the main problems, from the point of view of the authors, is the exponential increase in the Internet space of information junk and information garbage. This article is devoted to the substantiation of this thesis and the clarification of these concepts.

Key words: artificial intelligence, neural networks, neural network technologies, information security, threat, information junk, information garbage.

 Как неоднократно писали в своих предыдущих работах авторы данной статьи (например, в [1, 2]), информационная безопасность вследствие дуализма понятия «информация» имеет два аспекта – технический и гуманитарный. Причём в силу определённых обстоятельств в России на заре компьютеризации и специалисты, и учёные в подавляющем своём большинстве трактовали термин «информационная безопасность» как синоним термина «безопасность информации», то есть как проблему чисто техническую. В рамках этого подхода в целях обеспечения безопасности информационных ресурсов успешно развивались такие направления как антивирусная и криптографическая защита информации, межсетевое экранирование и другие. Но по мере развития и усложнения информационно-коммуникационных технологий акцент постепенно стал смещаться в сторону гуманитарной трактовки. Появились и всё шире стали практиковаться «информационные войны», «информационный терроризм», преступления с использованием «социальной инженерии». Теперь уже и «технари» стали понимать, что деструктивное воздействие на информационные ресурсы вещь неприятная, но не фатальная. Куда большие неприятности могут возникнуть и возникают вследствие деструктивного воздействия на сознание больших масс людей. Такая возможность появилась вследствие того, что «Интернет стал самым популярным пространством самоорганизации граждан, которые играют ключевую роль на всех этапах медиапроизводства: начиная от активного участия в создании контента и заканчивая его распространением и популяризацией в сети», и что «для факта, достойного внимания медиа, оказывается, достаточно сообщения в социальной сети, а не реального события» [3]. Вследствие этого задача обеспечения информационной безопасности социума резко усложнилась. Значительные объёмы, а также семантическое и лексикологическое разнообразие интернет-контента, обуславливают необходимость разработки новых подходов с целью выявления потенциальных угроз и их источников. Эту задачу в современных условиях можно решить только междисциплинарными методами с использованием нейросетевых технологий.

Народная мудрость гласит, что лучший метод защиты – это нападение. При этом совершенно очевидно, что для обеспечения безопасности некоего объекта «нападать» нужно не на всех подряд, а только на тех, кто представляет реальную угрозу для объекта защиты. А для этого необходимо, в первую очередь, определить множество возможных угроз и, с учётом особенностей объекта защиты, выбрать из них подмножество угроз актуальных. На следующем этапе следует выявить источники актуальных угроз и только затем решать вопрос, как и при помощи каких средств «нападать» на эти источники.

Особую опасность как в техническом, так и в гуманитарном аспекте всегда представляют латентные (скрытые) угрозы, то есть те, которые содержатся в передаваемых сообщениях в неявном виде. В техническом плане к категории таких угроз относятся разного рода компьютерные вирусы, трояны, бомбы и иже с ними. Задачу их выявления и санации решать более-менее научились. Разработаны и постоянно совершенствуются методы и средства антивирусной защиты компьютерных систем и сетей, в том числе и с использованием искусственного интеллекта (далее – ИИ).

Технологии ИИ давно и успешно применяются для обеспечения безопасности, которую корректно было бы называть кибербезопасностью и сетевой безопасностью. Именно о них говорил в своём интервью операционный директор Кластера ИТ Фонда «Сколково» Сергей Ходаков: «Технологии искусственного интеллекта предоставляют возможность создавать решения существенно более высокой эффективности, позволяющие идентифицировать кибератаки с высокой скоростью, выбирать оптимальный ответ на инциденты безопасности, в автоматическом режиме проводить оценку актуальности и последствий инцидентов, в реальном времени вырабатывать пропорциональный ответ» [цит. по 4]. В разработку таких технологий вкладываются всё большие и большие деньги. Так, суммарные инвестиции в компании, которые создают продукты по информационной безопасности с применением технологий ИИ, на конец 2019 года составили $3749 млн., а по прогнозам специалистов мировой рынок продуктов по информационной безопасности с применением технологий ИИ в 2025 году достигнет $30 млрд с ежегодным ростом на 23% [4].

С некоторых пор технологии ИИ стали применяться и для анализа интернет-контента с целью выявления угроз социокультурного и политического характера [см., например, 14]. Проблема выявления деструктивного социокультурного контента и определения его принадлежности к источнику является не только актуальной, но и крайне сложной. Это обусловлено, конечно же, интенсивным ростом объёмов информационного контента и развитием сетевых коммуникаций. И в этих условиях, как считает С.Н. Федорченко, «исследователям, их группам и даже целым «фабрикам мысли» уже намного сложней качественно обработать такой океан данных без помощи ИИ» [5].

Анализ текстов в настоящее время реализуется в трёх основных форматах: классификации, отражении содержания и анализе тональности [14, 15]. При имеющихся во всех трёх направлениях успехах выявились и серьёзные трудности. Специалисты обращают внимание на уже имеющиеся случаи ценностного перепрограммирования ИИ. Так, например, американский эксперимент компании Microsoft по внедрению ИИ с элементами эмоционального интеллекта Tay в сеть микроблогов Twitter, как пишет С.Н. Федорченко, на деле окончился крахом вследствие того, что сеть радикально ориентированных интернет-пользователей целенаправленно переобучала Тау «языку вражды» (hate speech). В итоге ИИ стал поддерживать конспирологические гипотезы, одиозные планы и делать ссылки на запрещенную литературу [цит. По 5]. В статье [5] также говорится о том, что случаи ценностного перепрограммирования ИИ имели место и в Китае.

Кроме того, до настоящего времени не завершено выявление ключевых факторов контекстного анализа. Об этом говорит, к примеру, то, что ни одной из существующих глобальных систем прогнозирования (FEWER, EAWARN, ФАСТ и др.) не удалось адекватно спрогнозировать ни одного социального катаклизма [6]. И проблема здесь кроется не только в адекватном выявлении факторов анализа, что, как выяснилось, является сложнейшей научной задачей, но и в широте спектра используемой участниками интернет-коммуникации лексики: от нескольких языков одновременно в одной ленте, до различных жаргонизмов и сленгов (молодёжных, профессиональных, воровских и пр.). Это, как пишет в своей статье [3] А.Д. Криволап, не означает, что все пользователи одновременно владеют несколькими языками. Важно, считает он, что сообщения на этих языках смешиваются в ленте пользователей, образуя единый контент, где идеологические предположения и социальные отношения не просто вписаны в тексты, а часто погружаются в алгоритмы, которые действуют под поверхностью текстов и фундаментально влияют на то, как мы переживаем мир. Работа А.Д. Криволап была посвящена исследованию политического дискурса Твиттера, но вывод, который делает автор в результате проведённого анализа, о том, что этот дискурс «ориентирован не на политические дебаты или установление истины, а на конструирование множества индивидуальных дискурсивных картин политической реальности…» [3], можно смело проецировать на все популярные мессенджеры и социальные сети. Прав Криволап и в том, что угрозу (и, опять же, не только в Твиттере) «несут рекламные боты и нанятые тролли, задача которых «забить канал флудом» (бессмысленными сообщениями)». Борьба с этим злом даже с применением ИИ представляет значительную трудность. Причём трудность обуславливается не техническими проблемами (современные компьютерные системы способны перерабатывать огромные массивы информации), а, если можно так выразиться, философско-лингвистическими. Огромная трудность заключается, с одной стороны, в выявлении отличительных признаков такой информации, а, с другой, поддержкой властью этих самых «нанятых троллей».

Ещё одной трудностью в деле выявления социокультурных угроз в интернет-контенте является использование и в текстах, и в комментариях метафорических выражений [7].  Причём метафоричность эта имеет место не только в языке профессиональных политиков, журналистов, блоггеров, но и в постах и комментариях «обычных» пользователей социальных сетей.

Кроме того, авторы обратили внимание на то, что в последнее время в сети Интернет всё чаще стали появляются тексты, в которых смысл завуалирован, скрыт за ширмой слов из официально поощряемой риторики, где за броским заголовком, обличающим противников нынешней власти, следует текст с неоднозначно трактуемым содержанием, с двойным подтекстом. И сделать однозначный вывод о том, представляет данный текст с точки зрения власти угрозу или нет, не сможет даже опытный эксперт. Тем более это не под силу ИИ.

Савельева И.В., например, обратила внимание на такое явление, как двоякое проявление семантической организации текста, цитируемого в комментарии, что выражается в демонстративном присоединении к точке зрения автора, но в то же время выражении несогласия с официальными мерами [7]. Выявить в каких текстах и комментариях угрозу крайне сложно.

Выявление же и, особенно, разграничение типов угроз, как считает А.Н. Баранов, необходимо для полного и точного анализа семантики текста. Однако, констатирует Баранов, это не всегда удаётся сделать. Например, когда говорящий скрывает криминальный характер своих намерений, он, как пишет А.Н. Баранов, «может быть неискренним». При этом Баранов считает, что в результате анализа семантики и прагматики языковых форм, используемых говорящим, его неискренность может быть установлена, но, опять же, не всегда, а только «в некоторых случаях» [8].

В результате проведённого анализа и ряда экспериментов по выявлению в интернет-контенте социокультурных угроз, авторы пришли к выводам, аналогичным изложенным в статье [9]: «Классические исследования в online- и offline-пространствах как не дают визуальной картины дискуссионных кластеров социальных движений и сетевых сообществ, так и фактически не способны собрать и структурировать эмпирические данные в виде массивов метаданных».  Необходимы новые идеи и новые подходы к решению задачи выявления как социокультурных, так и киберугроз в интернет-контенте.

Всё больше людей приходит к осознанию того, что «век цифровых технологий, компьютеров, планшетов, смартфонов и прочих гаджетов, способных хранить и обрабатывать информацию, породил новый вид мусора, который также, хоть пока и не на столько очевидно, как мусор материальный, влияет на здоровье человека...» [10, с. 120]. Речь идёт о специфическом виде мусора – мусоре информационном.

На проблему информационного мусора некоторые исследователи обратили внимание ещё в начале 70-х годов прошлого века [11]. Она не носила тогда такого тотального и глобального характера и была названа информационным загрязнением. Под информационным загрязнением (англ. information pollution) тогда понимали загрязнение информационных ресурсов неполной, противоречивой, малоценной или не относящейся к делу информацией и относили к этой категории нежелательную рекламу, нежелательные почтовые рассылки (спам), личные сообщения, приходящие в рабочее время, использование мобильных телефонов в неподходящих для этого обстоятельствах, а также устаревшие и неточные сведения, ложную и вредоносную информацию, некачественно предоставленные данные, нечетко выраженные мысли, размещение важной информации в многословных или плохо составленных документах [11].

Но, как представляется авторам, за прошедшие полвека проблема информационного загрязнения приобрела колоссальные масштабы и стала настоящим бедствием. При этом увеличились не только масштабы, но и расширился спектр информационного контента, который можно и нужно отнести к категории «информационное загрязнение».

Авторы предлагают не только трактовать понятие «информационное загрязнение» значительно шире, но и дифференцировать его, для чего использовать два понятия – «информационный хлам» и «информационный мусор».

К категории информационный мусор предложено относить компоненты контента (фрагменты текстов и программ и/или тексты и программы в целом), непригодные по объективным и/или субъективным причинам к употреблению по их прямому назначению. Под информационным хламом предлагается понимать компоненты контента (фрагменты текстов и/или тексты), пригодные к употреблению, но выведенные (подлежащие выведению) из употребления по объективным (недостоверность, неактуальность, некорректность) и/или субъективным (неприятие, недопонимание, недооценка) причинам [об этом подробнее в 15]. Информационный мусор и информационный хлам все в большей мере становятся бичом и науки, и социокультурной сферы в целом. Они представляют реальную угрозу интеллектуальной сфере общества. Требуются срочные меры и действенные механизмы выявления контента, их содержащего, и последующей нейтрализации (блокирования) источников такого контента. И самым мощным источником информационного мусора и информационного хлама на сегодняшний день является Интернет. Интернет содержит огромное количество информации, но, к великому сожалению, значительная часть этой информации является информационным мусором/хламом. И эта часть растёт не по дням и даже не по часам, а по минутам и секундам.

Да, «любой феномен, любое новшество, придя в мир, проходит определённые стадии развития, от зарождения и хаоса, к той или иной степени упорядоченности, порождая в ходе своего развития большое количество отходов и побочных продуктов» [10, с. 120]. Но отличительной особенностью интернет-технологии от всех предыдущих является то, что информационный мусор и информационный хлам не являются её побочным продуктом. Напротив, информационный мусор и информационный хлам являются основным продуктом современных информационных систем таких как блоги, форумы, и, особенно, социальные сети. Политикой некоторых социальных сетей (в частности, Яндекс.Дзен) предусматривается продвижение только тех блогов, авторы которых размещают в них не менее двух постов в неделю, набирают определённое количество комментарием и лайков. В погоне за установленными провайдерами количественными показателями авторы не особенно заботятся о качестве размещаемого контента с точки зрения его достоверности, актуальности, социальной значимости. Скорее наоборот, чем провокационнее и недостовернее будет информация, тем быстрее она наберёт нужно количество комментариев и лайков. Недалеко от социальных сетей в плане генерации информационного хлама отстоят и «научные» журналы, и конференции. Пресловутая болонская система обязала всех преподавателей всех вузов страны писать «научные» статьи и чем больше, тем лучше. Вследствие этого информационное пространство захламляется экспоненциально. И это представляет уже не мнимую, а реальную угрозу культуре социума. Во-первых, тем, что качество таких текстов в подавляющем своём большинстве не отличается грамотностью, вследствие чего у их потребителей формируется искажённая картина Мира, а также дескриптивная и функциональная безграмотность [12]. Во-вторых, этот информационный хлам/мусор затрудняет поиск релевантной достоверной информации и таким образом затрудняет принятие верных решений, что, в свою очередь, чревато серьёзными последствиями не только для субъекта, принимающего решение, но и для социума в целом. И, в-третьих, информационный хлам/мусор негативно влияет на психику потребителей такого контента, побуждая их к совершению порой неадекватных действий.

По этим (и не только) причинам выявление информационного хлама и информационного мусора является, с точки зрения авторов, наиболее существенной, но и наиболее сложной задачей. Главная сложность состоит в выявлении и формализации отличительных признаков такого контента. ИИ сегодня готов выполнить любую задачу, люди не готовы пока её корректно сформулировать. Это очень интересная и, главное, жизненно важная для социума задача. Работа над ней продолжается и от результатов это работы будет зависеть будущее и Интернета, и человечества в целом.

И в завершение статьи ещё одна цитата, с которой авторы целиком и полностью согласны: «Одно дело, когда наши с вами данные из социальных сетей и других источников массово обрабатываются с целью маркетинговых или политических манипуляцией, а другое дело, когда в руки ИИ передается меч правосудия или, того хуже, арсенал национальной безопасности. Цена предвзятого решения многократно возрастает, и с этим надо что-то делать. Кому это удастся, тот и станет настоящим властелином XXI века» [13].

Выводы

1. Внедрение нейросетевых технологий во все сферы жизни и деятельности человека, в том числе и в обеспечение информационной безопасности, – неизбежный и объективный процесс. И, как это уже не раз бывало в истории человечества (пар, электричество, атомная энергия, компьютер), эти технологии несут с собой как плюсы, так и минусы, а также имеют свои ограничения, неучёт которых может привести к серьёзным негативным последствиям.

2. Искусственный интеллект, будучи порождением компьютерных технологий, пока что более-менее успешно «борется» с киберугрозами, но и это очень наукоёмкий и очень трудоёмкий процесс. Успешное применение ИИ для выявления социокультурных угроз – сложнейшая задача, решение которой возможно только на междисциплинарной основе с привлечением лучших умов из таких областей науки как философия, психология, лингвистика, а также высококлассных программистов и аналитиков.

3. Наибольшую угрозу в цивилизационном плане представляют не негативные высказывания в адрес власти и не публичные обещания причинить кому-то какой-то вред, которые в подавляющем большинстве на поверку оказываются пустой болтовнёй психически неустойчивых личностей, а информационный хлам и информационный мусор, «благодаря» которым Интернет – это гениальное изобретение человечества – постепенно, но неуклонно превращается в информационные авгиевы конюшни.

 Исследование выполнено при финансовой поддержке РФФИ и ЭИСИ в рамках научного проекта № 20-011-31648.

 Литература

 1. Атаманов Г. А. Информационная безопасность субъектов экономической деятельности // Проблемы и тенденции устойчивого развития аграрной сферы: Материалы Международной научно-практической конференции, посвященной 65-летию Победы в Сталинградской битве. Том 3. – Волгоград: ИПК ФГОУ ВПО ВГСХА «Нива», 2008. – С. 176-181.

2. Атаманов Г.А. Азбука безопасности. Методология обеспечения информационной безопасности субъектов информационных отношений // Защита информации. Инсайд. – 2014. – № 5. – С. 8 - 13.

3. Криволап А.Д. Эволюция твиттер-дискурса #electby в ходе политических кампаний 2012 и 2016 гг. // Методология исследований политического дискурса: актуальные проблемы содержательного анализа общественно-политических текстов. Сборник научных трудов. – Минск: Изд. центр БГУ, 2019. – Вып. 8. – С. 165-176 (ISBN 978-985-586-250-6).

4. Шабанов А. Применение технологий искусственного интеллекта в информационной безопасности [Электронный ресурс]. – Режим доступа: https://www.anti-malware.ru/analytics/Technology_Analysis/using-artificial-intelligence-technologies-in-information-securityЦит. по: https://www.anti-malware.ru/analytics/Technology_Analysis/using-artificial-intelligence-technologies-in-information-security (дата обращения: 80.02.2021).

5. Федорченко С. Н. Значение искусственного интеллекта для политического режима России: проблемы легитимности, информационной безопасности и «мягкой силы» // Вестник Московского государственного областного университета. Серия: История и политические науки. 2020. № 1. C. 41–53. (ISSN 2072-8360).

6. Методика анализа баз данных для выявления рисков социально-политической дестабилизации [Электронный ресурс]. – Режим доступа: https://social.hse.ru/mr/seg/project (дата обращения: 13.02.2021).

7. Савельева И.В. Тексты интернет-комментариев в пространстве непрофессионального политического дискурса / Методология исследований политического дискурса: актуальные проблемы содержательного анализа общественно-политических текстов. Сборник научных трудов. – Минск: Изд. центр БГУ, 2019. – Вып. 8. – С. 150-165 (ISBN 978-985-586-250-6).

8. Баранов А.Н. Семантика угрозы в лингвистической экспертизе текста. - http://www.dialog-21.ru/media/1223/baranovan.pdf (дата обращения: 08.02.2021).

9. Рябченко Н.А. Политический контент социальных движений в online-пространстве современных государств: методология анализа и исследовательская практика / Южно-российский журнал социальных наук / Н.А. Рябченко, В.В. Катермина, А.А. Гнедаш, О.П. Малышева. - 2018. Т. 19. № 3. С. 139-162.

10. Юдалевич Н.В. Информационный мусор как феномен современного общества // Бизнес-образование в экономике знаний. – 2016. – №2. – С. 119-122.

11. Информационное загрязнение [Электронный ресурс]. –  https://ru.wikipedia.org/wiki/Информационное_загрязнение (дата обращения: 12.02.2021).

12. Сокологорская Дарья. Функциональная неграмотность [Электронный ресурс]. – Режим доступа: https://pikabu.ru/story/funktsionalnaya_negramotnost_3418931 (дата обращения: 11.02.2021).

13. Федоров Е. Искусственный интеллект. Будущее национальной безопасности России? / Сайт «Военное обозрение». – 2019. – Режим доступа: https://topwar.ru/165650-iskusstvennyj-intellekt-buduschee-nacionalnoj-bezopasnosti-rossii.html (дата обращения: 12.02.2021).

14. A F Rogachev and E V Melikhova  2020 Automation of the process of selecting hyperparameters for artificial neural networks for processing retrospective text information. IOP Conf. Ser.: Earth Environ. Sci. 577 012012

15. A. Rogachev, E. Melikhova, G. Atamanov. Building Artificial Neural Networks for NLP Analysis and Classification of Target Content. Proceedings of the conference on current problems of our time: the relationship of man and society (CPT 2020) Advances in Social Science, Education and Humanities Research, v. 531. 383-387. https://doi.org/10.2991/assehr.k.210225.058

_________________________________________________________________________________

Библиографическая ссылка: Атаманов Г.А., Рогачев А.Ф. Об особенностях выявления социокультурных и киберугроз в интернет-ресурсах с использованием нейросетевых технологий // Защита информации. INSIDE. – 2021. – № 4. – С.77-81.

Комментариев нет:

Отправить комментарий