Антивирус для новостей. Аспирант ИТМО, создавший распознающий фейки алгоритм, рассказал о своей разработке

14 апреля 2020, 21:12

Наука и технологии

Точность определения фейковых новостей — до 90%.

Аспирант Университета ИТМО Арсений Третьяков создал алгоритм нейросети, который позволяет отличить фейковую новость от достоверной. Разработчик рассказал об особенностях изобретения телеканалу «Санкт-Петербург».

Выявлением фейковых новостей занимается нейросеть. Для ее обучения требуются базы данных уже существующих текстов с недостоверной информацией. При этом базу данных наполняют как публикации в СМИ, так и сообщения в месседжерах и соцсетях.

Арсений Третьяков,аспирант Университета ИТМО, разработчик:

«Это алгоритм нейросети, который можно потом оформить в виде плагина, либо расширения для браузера, либо программы. Нейросети мы обучаем на основе базы данных.

Есть базы данных, примеры фейковых новостей, которые приходится собирать. На основе них происходит обучение нейросети. Это отдаленно напоминает из более классических изобретений спам-фильтр. То есть, по сути, фейковая новость — тоже в некотором роде спам, только настолько разнообразный, что приходится помучиться, чтобы собрать различные варианты.

Это могут быть твиты, сообщения в WhatsApp, могут быть обычные новости или новости из каналов в телеграме. И это все необходимо комбинировать. Они имеют метаданные — автор, заголовок, дата создания новости, ссылка, издание, тема. И происходит обучение на примерах».

Для определения достоверности новости нейросеть изучает «шаблоны поведения» фейков. Их описывают несколько параметров.

Арсений Третьяков,аспирант Университета ИТМО, разработчик:

«База разбита на два понятия — правда или ложь. Нейросеть учится не только искать недостоверные новости, а еще и правдивые. Там есть определенные параметры, условные паттерны поведения фейковых новостей. Алгоритм за счет похожих примеров распознает, что является фейковой новостью, по аналогии учится.

В новости, скажем, очень много ироничных слов, мало фактов, выдуманные люди, много текста, но ни о чем. Если взять нормальную новость, там больше фактов, подкрепляется цифрами. Если брать на примере спама, то вы сами можете отличить, как выглядят спам-новости, чаще всего какая-нибудь навязчивая реклама, или написана какая-нибудь белиберда из непонятного источника».

На этапе лабораторного тестирования алгоритма он показывал высокую точность — до 90%. Разработка может стать удобным помощником для фактчекинговых агентств, СМИ или правоохранительных органов.

Арсений Третьяков,аспирант Университета ИТМО, разработчик:

«На примере лабораторных испытаний получалась точность от 80% до 90%. Точность меняется при разных условиях — от доступа к трафику социальных сетей или других новостных ресурсов, наличия сбалансированного корпуса текстов, баз данных, от многих косвенных факторов.

Это как один из методов, как можно искать фейковую новость. Это как антивирус. Просто будет предупреждение, что эта новость, возможно, фейковая, стоит на нее обратить больше внимания. Это не идет как последняя инстанция, это дополнительный инструмент».

Алгоритм разрабатывался на основе публикаций в испанской прессе. Испанские фактчекинговые агентства предоставили ученому необходимые для обучения нейросети базы данных фейков. В России такую систему пока не ввести — нет собранных баз, хотя систематизацией фейков уже занимается Роспотребнадзор.

Другая сложность внедрения системы в России — многогранность русского языка. Множество оттенков и смыслов, которые передаются при помощи как лексики, так и грамматики, могут стать препятствием для обучения нейросети. На адаптацию алгоритма под русский язык и создание необходимых баз данных может уйти около года, считает разработчик.

Подписывайтесь на нас в «Яндекс.Новостях», Instagram и «ВКонтакте ».

Читайте нас в «Яндекс.Дзене».

_{Фото: pixabay.com}

_Видео_{: телеканал «Санкт-Петербург»}