Cмотреть прямой эфир Сейчас в эфире:
  • 07:45
  • -2°
  • доллар 74,57
  • евро 89,56

Расскажите всем, что случилось

Пожалуйста, указывайте дату, время и место события, излагайте объективные факты. Вы можете приложить к тексту видео, фотографию или документ. Если вы хотите прислать чужое видео или фото — не забудьте указать ссылку на источник. Мы будем признательны, если вы укажете достоверную контактную информацию, чтобы мы могли связаться с вами и уточнить детали.

Приложите файл

Отправляя этот материал, вы соглашаетесь на передачу всех интеллектуальных прав согласно условиям.

Петербургские математики разработали алгоритм для определения авторства текстов

524
Поделиться:

Ученые математико-механического факультета СПбГУ при содействии коллег из израильского ОРТ Брауде колледжа разработали алгоритм, который поможет установить авторство того или иного текста. С помощью формул литературоведы смогут установить, был у произведения один автор или несколько.

Алгоритм получили, изучив цикл романов Айзека Азимова «Основание», «Сагу о Форсайтах» Джона Голсуорси и трилогию «Властелин колец» Джона Толкина. Например, этот текст сравнили с более поздним произведением британца - «Сильмариллион». Выяснилось, что стили текстов сильно отличаются друг от друга. В семье автора рассказали, что книгу о мифах Средиземья дорабатывал Кристофер Толкин — сын знаменитого писателя.

В ближайшее время студент СПбГУ использует алгоритм для анализа произведений Михаила Шолохова.

Как работает математическая теория, рассказал Олег Гранитин, профессор кафедры системного программирования матмеха СПбГУ:

«Особенность алгоритма заключается в том, что на вопрос о больших данных пытаемся смотреть не с точки зрения того, как все эти данные в одной куче могут быть классифицированы, разложены, разобраны. А мы начинаем смотреть на процесс, как они рождались. Разбиваем текст на фрагменты, небольшие кусочки. И выстраиваем функцию, которая связывает текущий кусочек с предшествующими. И строим некоторую функцию похожести во временном ряде. И оказывается, что такие функции уникальны для каждого автора. То есть у тех примеров, которые мы проверили, показывает свою характеристику, свою особенность. Попытки перемешать разные тексты показывают, что вот здесь один автор, здесь — другой. Демонстрирует правильную классификацию. 

Огромные тексты делим по страницам. То есть взяли книгу, разделили по страницам. И на каждой странице вычисляем определенную функцию, как эта страница связана с предыдущими. Не с одной, а с десятком. Получается процесс написания книжки или других текстов, которые последовательно могли рождаться». 

Подробный репортаж об алгоритме и способах его использования смотрите в материале Артёма Шарипова в дневных выпусках новостей.

Подписывайтесь на канал «Говорит и показывает Санкт-Петербург» в Telegram. 

Реклама

Реклама

Обсуждение