Статья

8 февраля 2023, 18:59

Нейроскомнадзор. Чем пользуется РКН, чтобы следить за интернетом — и кто ему в этом помогает

Иллюстрация: Соня Владимирова / Медиазона

Беларуская хакерская группа «Киберпартизаны» получила доступ к внутренней сети Главного радиочастотного центра (ФГУП «ГРЧЦ») — подведомственной организации Роскомнадзора, фактически его исполнителя.

Хакеры утверждают, что им удалось зашифровать рабочие компьютеры сотрудников, нарушить работу внутренней сети и выгрузить около 1,2 терабайта данных: архив внутреннего почтового сервера, внутреннее файловое хранилище, данные некоторых внутренних систем и данные системы контроля за сотрудниками FalconGaze.

В архивах переписки лежат около 1,5 млн электронных писем, в основном за 2020–2022 годы, а также около 200 тысяч текстовых документов, таблиц и презентаций.

«Медиазона» получила доступ к этим архивам. Первая часть нашего расследования — о том, как Роскомнадзор в последние годы опутывал российский интернет нейросетями для поиска «запрещенного» контента — и кто ему в этом помогал.

— Переписки раскрывают масштабные планы Роскомнадзора по слежке за российским интернетом при помощи нейросетей. Большая часть этих технологий уже применяется, они ищут не только картинки о суициде, но и, например, посты о войне в Украине.

— Самый масштабный проект называется «Чистый интернет». По замыслу разработчиков, он должен контролировать 100% российского сегмента.

— Для сбора данных «Чистый интернет» использует API поиска «Яндекса». По просьбе Роскомнадзора «Яндекс» увеличил для ведомства число возможных запросов в сутки.

— Кроме того, ГРЧЦ использовал для обучения нейросетей платформу «Яндекса» «Толока». Степень вовлеченности «Яндекса» в сотрудничество с РКН неясна; в компании отрицают, что давали ведомству какие-либо преференции.

— Среди тех, кто сотрудничал с ГРЧЦ активно — Московский физико-технический институт (МФТИ), а также компания Brand Analytics. Технологии последней помогли ГРЧЦ составить сотни отчетов на миллионы страниц.

— Еще две системы с использованием искусственного интеллекта создавались для автоматического анализа видеоконтента (сейчас все трансляции сотрудники ведомства смотрят сами), тоже для поиска «запрещенной информации».

Read in English

Найти и запретить. «Яндекс» и «Чистый интернет»

В полученном «Медиазоной» архиве содержится больше 680 писем с упоминанием корпоративной почты «Яндекса» за период с 2014 по 2022 год. Больше половины из них — это переписка внутри самого Роскомнадзора, например, сотрудники ГРЧЦ в письмах друг другу обсуждали, какой контактный адрес «Яндекса» указывать при заполнении карточек для реестра.

Другая часть — это переписка между «Яндексом» и ГРЧЦ. Большинство этих писем — стандартная коммуникация российской IT-компании с чиновниками, в ходе которой компания объясняет, почему не стоит блокировать те или иные страницы. Например, Роскомнадзор несколько раз вносил в реестр запрещенной информации поисковую выдачу «Яндекса», сервис для сокращения ссылок click.ru или несколько страниц «Яндекс.Турбо».

Некоторые встречи с представителями «Яндекса» проходили офлайн. Врио начальника управления по работе с автоматизацией отдела средств массовой коммуникации ГРЧЦ Анастасия Волкова в переписках с коллегами упоминает две из них: в конце 2019 года и в начале 2020-го.

На одной из них, по словам Волковой, представители «Яндекса» «консультировали нас [ГРЧЦ] по вопросам нейросетей». Подтверждений, что речь шла о какой-то адресной консультации, «Медиазоне» найти не удалось; вероятно, представительница ГРЧЦ имеет в виду совместное участие в одной из отраслевых конференций.

Схема работы АС ЧИ, составленная Роскомнадзором. Скриншот из презентаций ГРЧЦ и Роскомнадзора / Медиазона

Волкова также писала, что на этих встречах сотрудники IT-компании рассказывали о своем API для поиска в интернете — речь идет о «Яндекс.XML» — и якобы пообещали снять лимит на запросы для нужд Роскомнадзора.

Это обещание пришлось очень кстати. В 2020 году ГРЧЦ начал разрабатывать для Роскомнадзора систему «Чистый интернет». Она была задумана как замена уже существовавшей автоматизации поиска «запрещенного» контента, но с упором на использование нейронных сетей, а не словарей ключевых слов.

Руководитель департамента ведения реестров запрещенной информации Иван Зуев в мае 2020 года в описании стратегии развития ГРЧЦ писал: «Эффективность деятельности ГРЧЦ в соцсетях низкая», автоматизированы только поиск детской порнографии и «суицидального контента».

Почему мы считаем архив настоящим

Проверить подлинность всего архива невозможно. Однако «Медиазона» доверяет этой утечке по нескольким причинам.

Мы нашли в архиве документы, которые можно найти независимо. Например, мы встретили копии писем, запросов и ответов на требования Роскомнадзора от самих сотрудников «Медиазоны», а также обсуждения запросов наших коллег из других изданий.

Большая часть архива посвящена обработке сотрудниками ГРЧЦ публикаций, находящихся в свободном доступе, а огромный объем и общая непротиворечивость архивов не оставляют сомнений том, что материалы подлинные.

Система «Чистый интернет», или АС ЧИ, должна была собирать материалы по приоритетному списку источников и по соцсетям, а затем с помощью нейросетей находить нарушения: экстремизм, терроризм, призывы к участию в массовых мероприятиях, «пропаганду нетрадиционных отношений», оскорбление госсимволов и другие.

В презентациях о системе ГРЧЦ обещал, что после выхода на проектную мощность «Чистый интернет» будет покрывать 100% Рунета, за исключением стриминговых сервисов, которыми должна заниматься другая система — АС МАВР.

Главная проблема, которая стояла перед ГРЧЦ при разработке этой системы — как искать данные по всему интернету. Ее невозможно было решить без сотрудничества с поисковиками.

В мае 2020 года Анастасия Волкова решила напомнить «Яндексу» о доступе к API поиска. Она пишет директору по развитию технологий искусственного интеллекта «Яндекса» Александру Крайнову и жалуется на ограничения сервиса — всего тысяча запросов в день:

«Александр, добрый день!

Меня зовут Анастасия, начальник Управления развития автоматизации средств массовых коммуникаций ФГУП ГРЧЦ.

В том году осенью Вы с коллегами консультировали нас по вопросам нейросетей.

Мы потихоньку планируем работы с АПИ Яндекса, до конца года должны реализовать. Есть один вопрос, не знаю, к Вам он или нет, но Григорий [Бакунов] подсказал именно Вас. Если не к Вам, подскажите пожалуйста, кому его можно задать.

По доступной API сейчас существенные ограничения, для нас это очень мало. Насколько я помню, на первых встречах Вы или Ваши коллеги упоминали, что по необходимости можете посодействовать в снятии ограничений.

Ограничение сейчас 1000 запросов в сутки, 50 запросов в час.

А хотелось бы хотя бы 100К в сутки.

Подскажите, можно ли расширить для нас ограничения?».

В следующем письме Волкова уточняет: Роскомнадзор планирует использовать API, чтобы «мониторить интернет на предмет нарушений Федерального Закона».

На этом этапе «Яндекс» отказывает. Коллегам Волкова пишет: компания сослалась на то, что не может дать расширенный доступ бесплатно, а коммерческое расширение доступа подразумевает не только оплату, но и обмен трафиком — а трафика на собственных ресурсах у Роскомнадзора нет.

Из переписок также можно понять, что в ГРЧЦ присматривались и к другим поисковым системам, например Rambler, Google или «Спутнику», но в итоге отмели их. В отчете о запуске АС ЧИ объясняется: Google — платный, Rambler — это тот же поиск «Яндекса», а «Спутник» не индексировался уже несколько лет.

Дальнейшей переписки с «Яндексом» по поводу API в полученном «Медиазоной» архиве нет. Вероятнее всего, общение на себя взял непосредственно Роскомнадзор. В декабре 2020 года Волкова через начальника управления контроля и надзора в сфере электронных коммуникаций РКН Евгения Зайцева вновь пишет в «Яндекс». И если раньше речь шла об увеличении лимита с тысячи до 100 тысяч в сутки, то теперь чиновники просят дать 300 тысяч запросов на два аккаунта:

В 2021 году — точную дату «Медиазоне» установить не удалось — «Яндекс» все же поддался давлению Роскомнадзора. Компания увеличила для аккаунтов РКН лимит запросов до 300 тысяч в сутки, это упоминается в отчетах ГРЧЦ о развертывании системы.

Поиск «Яндекса» — это ключевой компонент сбора данных для «Чистого интернета». Вторая часть этого сбора — краулер для соцсетей, который был разработан ООО «Вектор Икс». Он ищет посты во «ВКонтакте», «Одноклассниках», «Моем Мире», «Ответах Mail.ru», «Живом журнале» и частично в телеграме и ютубе. В 2023 году, согласно планам ГРЧЦ, в список добавят фейсбук, инстаграм, твиттер, тикток, «Яндекс.Дзен» и рутьюб.

API «Яндекса» упоминается в отчетах о развертывании «Чистого интернета» до января 2022 года — и, вероятно, используется до сих пор. Добавление поиска от Mail.ru запланировано на 2023 год, а Google — на 2024-й.

25 февраля 2022 года, спустя сутки после начала войны, «Чистый интернет» подключили к поиску постов и комментариев с «призывами к незаконным митингам по ситуации на Украине».

Комментарий «Яндекса»

«"Яндекс" не разрабатывал и не предоставлял РКН никакой специальный API. Также для РКН не производилось никаких доработок в сервисах компании.

Публичный сервис доступа к поиску через протокол XML — xml.yandex.ru — доступен всем внешним пользователям в стандартном виде и без специальных доработок.

Расширение лимита является стандартной функциональностью нашего протокола XML и доступно для всех внешних пользователей. Такие изменения не являются эксклюзивными или специальными условиями».

Еще один продукт «Яндекса», который использовал Роскомнадзор — «Толока». Это краудсорсинговый сервис, который помогает готовить наборы данных для машинного обучения.

«Толока» работает так: заказчик заключает договор с «Яндексом» и загружает в сервис простые задания, например, классифицировать изображения, которые будут использованы для обучения моделей. Задания распределяются между людьми, которые регистрируются в сервисе; они выполняют их и получают за это небольшое денежное вознаграждение из бюджета заказчика.

Упоминание «Толоки» в почте ГРЧЦ встречается с осени 2021-го по февраль 2022 года. Следов каких-либо переговоров с «Яндексом» по поводу использования этого сервиса в архиве нет.

Примерно полгода ГРЧЦ использовал «Толоку» для того, чтобы его сотрудники размечали изображения по теме «суицидальный контент». Так ведомство готовило данные для модели, которая должна была стать частью «Единого модуля анализа» — ИИ «Чистого интернета».

В последнем доступном отчете, подготовленном 24 февраля 2022 года, говорится, что за все время работы операторы СМК разметили более 120 тысяч изображений, а до окончания работ нужно было разметить еще 150 тысяч. В переписках можно найти и составление «графиков дежурств»: в них ГРЧЦ планировал, кто будет работать с «Толокой» в следующем месяце, особенно в выходные и праздничные дни.

Степень кооперации «Яндекса» с Роскомнадзором и ГРЧЦ по «Толоке» неясна. Главный вопрос — договаривался ли Роскомнадзор с «Яндексом» о том, чтобы «Толоку» можно было использовать для распределения заданий только между своими сотрудниками, а не случайными исполнителями.

Привлечение собственных исполнителей доступно в версии Toloka In-House, которую «Яндекс» запустил осенью 2022 года. В пресс-службе «Яндекса» «Медиазоне» сообщили, что компания никогда не предоставляла Роскомнадзору доступ к режиму in-house в «Толоке».

Комментарий «Яндекса»

«Медиазона»: Правильно ли мы понимаем, что по умолчанию заказы в «Толоке» распределяются между случайными пользователями, а те, кто хочет распределять задания между своими подрядчиками, обращаются к услуге in-house? Когда был запущен in-house?

«Яндекс»: Да, все верно — любой заказчик может разместить свое задание на общедоступной платформе. Задания распределяются между исполнителями автоматически случайным образом с учетом соответствующих навыков толокеров (например, задача на иностранном языке не попадет к исполнителю, который им не владеет).

С осени 2022 для всех заказчиков стал доступен режим in-house, в рамках которого можно использовать собственных исполнителей (экспертов, исследователей и так далее).

Работавший с «Толокой» собеседник «Медиазоны» рассказал, что у платформы была возможность выдавать задачи только проверенной категории пользователей, которые имели больший опыт в системе и заключили дополнительные договоры с «Яндексом».

По его словам, такая опция использовалась во внутренних проектах IT-компании. Собеседник «Медиазоны» допустил, что таким же способом задачи в «Толоке» могли передавать сотрудникам ГРЧЦ, например, отобрав «проверенных пользователей» исключительно среди своих сотрудников по их email-адресам.

Еще одна часть проекта «Чистый интернет» — это бот-ферма. Ее разрабатывают внутри самого ГРЧЦ; финальную версию, согласно упомянутым в письмах планам, должны представить в мае 2023 года.

Цель такой бот-фермы отличается от привычной: фальшивые аккаунты служат не для того, чтобы публиковать какие-то сообщения, а для того, чтобы собирать посты в соцсетях, в том числе из закрытых групп и сообществ.

«Точки информационной напряженности»: «Вепрь», «Окулус» и МФТИ

Назвать «Яндекс» компанией, которая помогала строить систему контроля за российским интернетом, довольно трудно: IT-гигант дал ГРЧЦ доступ к двум сервисам — и, насколько можно судить по переписке, сделал это не по первому требованию. Но есть и те, кто тесно сотрудничал с Роскомнадзором и разрабатывал для ведомства целые продукты.

В сентябре 2021 года журналисты нашли на сайте госзакупок два опубликованных ГРЧЦ контракта: один — на концепцию системы для анализа изображений и видео «Окулус», а второй — на концепцию более обширной системы «Вепрь». Оба тендера выиграл Московский физико-технический институт (МФТИ): концепцию «Вепря» оценили в 10 млн рублей, а концепцию «Окулуса» — в 14 млн.

«Вепрь». Скриншот из презентаций ГРЧЦ и Роскомнадзора / Медиазона

В десятках отчетов и планов развития ГРЧЦ называет «Вепрь» ключевым направлением: система нужна для того, чтобы мониторить и даже прогнозировать так называемые «точки информационной напряженности».

Описание «Вепря» в целом похоже на «Чистый интернет»: это сбор постов и публикаций в интернете и их анализ с помощью искусственного интеллекта. Однако в «Вепре» упор делается не на поиск контента для реестра, а на его глубокий анализ, например, отработку неких сценариев, которые операторы ГРЧЦ смогут вносить в систему. В качестве аналога приводится разработка АО «РТИ» для Минобороны стоимостью 1,5 млрд рублей, она «во многом похожа на ИС "Вепрь" в рамках противодействия информационным атакам».

Научное обоснование «Вепря» выполнила кафедра машинного обучения и цифровой гуманитаристики МФТИ. Над документом работали десятки сотрудников; он состоит из ссылок на философов Макиавелли и Ортегу-и-Гассета, мемов, например, с Путиным и Геббельсом, а также математических принципов работы языковых моделей.

Огромное внимание при разработке в МФТИ уделили и классификации «точек информационной напряженности». В подготовленном институтом 500-страничном плохо структурированном документе все возможные угрозы перечислены вразнобой: терроризм и экстремизм, критика властей и несистемная оппозиция, «пропаганда ЛГБТ», чайлдфри, наркомания, уклонение от армии, «группы смерти», «оскорбительные арт-акции», методы Джина Шарпа и даже «коллекционирование собственных козявок или обстриженных ногтей».

При этом самой разработкой «Вепря» МФТИ заниматься не дали — контракт получила компания «НеоБИТ» из Петербурга.

«Окулус». Скриншот из презентаций ГРЧЦ и Роскомнадзора / Медиазона

Еще одна разработанная в МФТИ концепция — это «Окулус», система искусственного интеллекта для распознавания запрещенной информации в видео и на картинках. В обосновании к проекту ГРЧЦ жалуется, что сейчас сотрудники ведомства вынуждены проверять контент вручную, что невозможно из-за огромного потока информации.

В МФТИ чиновникам рассказали о возможностях по распознаванию лиц на изображениях (в том числе лиц в масках), по преобразованию надписей на изображениях в текст, а также по классификации изображений и видео по категориям: митинги, суицидальный контент, руферы и зацеперы, запрещенные логотипы и символика. Судя по приведенному в презентации примеру, нейросеть распознала эмблему НАТО как символ АУЕ.

В одном из документов МФТИ перечисляются аналогичные системы, которые можно было бы закупить для «подстраховки». Например, система поиска «запрещенного контента» была разработана ООО «ОКАС» для Центра изучения и сетевого мониторинга молодежной среды, а для распознавания лиц МФТИ рекомендовал аналоги от той же ООО «ОКАС», NtechLab, VisionsLabs, ФГУП «ГосНИИАС» и ДИТ Москвы.

В августе 2022 года тендер на разработку «Окулуса» стоимостью 57,7 млн рублей выиграло ООО «Эксикьюшн Эр Ди Си». Дедлайн выполнения — декабрь 2022 года. Как отмечал «Коммерсант», раньше эта компания не выступала подрядчиком в госзакупках.

Brand Analytics и тысячи страниц отчетов

Еще одна крупная компания, услугами которой активно пользуется ГРЧЦ — это Brand Analytics.

На своем сайте BA называет себя лидером мониторинга и анализа соцмедиа и СМИ. Направления работы — анализ бренда, поиск упоминаний, работа с аудиторией и реагирование на отзывы пользователей. Среди клиентов Brand Analytics — крупные российские компании, банки, а также «органы государственного управления, министерства и ведомства».

Панель доступа к Brand Analytics / Медиазона

Запросы ГРЧЦ к Brand Analytics тоже похожи на то, что планирует Роскомнадзор в «Чистом интернете». Клиенты BA могут искать публикации по ключевым словам, а на выходе получать отчеты с подробной статистикой, индексами цитируемости, анализом аудитории и тональной оценкой публикации. Кроме соцсетей, анализируются и СМИ, в том числе сканы газет, расшифровки эфиров и закрытые ленты информагентств.

Впервые использование Brand Analytics упоминается в переписках ГРЧЦ в декабре 2021 года, а через месяц ГРЧЦ выпускает первый подробный отчет об использовании системы.

Панель администратора Brand Analytics, которую ГРЧЦ использует для поиска контента в интернете. Скриншот из презентаций ГРЧЦ и Роскомнадзора / Медиазона

В отчете говорится, что ГРЧЦ оплатил максимальный тариф, который позволяет выгружать до 5 млн материалов в месяц. Среди тем, которые интересовали ГРЧЦ — анализ ежедневных протестных настроений на федеральном и региональном уровнях, поиск негатива по отношению к Владимиру Путину, ШОС, ЕАЭС и БРИКС, отчеты по «казакам» и «Эху Москвы», «искажение истории ВОВ», «пропаганда ЛГБТ».

Отдельно в отчете упомянуты «срочные» темы, «запросы на которые возникали в чатах Telegram», но их содержание не раскрывается.

С начала российского вторжения в Украину ГРЧЦ использует Brand Analytics, чтобы искать призывы к антивоенным митингам и «фейки» о действиях армии, например об убийствах мирного населения и уничтожении социальной инфраструктуры.

Отдельно заводятся темы «Фейк арест Путина» и «Фейк Патриарх Кирилл призвал остановить войну».

В октябре 2022 года к темам добавились военнопленные, мобилизация, «конспирологические теории, связанные с суевериями и предсказаниями», ядерная война, «критическое состояние здоровья Президента РФ В.В. Путина», «общий кризис российской экономики».

В переписке можно найти и несколько тысяч итоговых отчетов по темам, в том числе ежедневных. Они представляют собой эксель-таблички, в которых собраны все найденные по темам публикации и их статистика. Приводятся полностью тексты постов, их анализ, например тональность и наличие агрессии, количество репостов и лайков, а также справка об авторе публикации: имя, город или регион, указанный в профиле возраст.

«Дуализм» и МАВР

У ГРЧЦ есть еще два более скромных по задачам и масштабам проекта, которые связаны с искусственным интеллектом. Первый — это «Автоматизированная система мониторинга аудиовизуальных ресурсов» (АС МАВР).

АС МАВР должна отвечать за поиск запрещенной информации в фильмах и сериалах на стриминговых сервисах. Систему в 2021 году разработал давний подрядчик ГРЧЦ, компания «Е.Софт». Подробнее о «Е.Софт» и миллиардных контрактах с РКН можно почитать на «Медузе».

В проектных документах для разработки МАВР указано, что сейчас сотрудники ГРЧЦ смотрят сериалы и эфиры телеканалов сами, надеясь найти какие-либо нарушения. АС МАВР должна освободить их от этой работы, но функционирует ли она, до сих пор непонятно.

В 2021 году АС МАВР была способна лишь собирать метаданные к фильмам с помощью публичных API IMDB и «Кинопоиска». В 2022 году ее принялись дорабатывать; одной из основных задач называли как раз полную автоматизацию и передачу контента в «Единый модуль анализа», где запрещенную информацию будет искать ИИ. Следов работы новой версии этой системы «Медиазоне» найти не удалось.

Другой связанный с видеоконтентом проект ГРЧЦ называется «Дуализм». Ведомство хочет искать «дипфейки» при помощи нейросетей; эта разработка профинансирована Фондом перспективных исследований.

В проектных документах сотрудники подчеркивают опасность «дипфейков» и перспективность противодействия им. Сама система еще не разработана.

«Медиазона» продолжает изучать архив почты ГРЧЦ. В следующих публикациях мы расскажем о других направлениях работы Роскомнадзора. Подписывайтесь на наш Telegram, чтобы ничего не пропустить.

Редактор: Дмитрий Трещанин