Ученые ИТМО научили компьютер точнее распознавать названия и имена в старых русских текстах

Она научили программу распознавать имена Февронья и Иоланта.

Программисты и сотрудники Университета ИТМО научили компьютерный алгоритм правильно анализировать старые тексты и искать в них названия, имена и адреса, сообщили телеканалу «Санкт-Петербург» в пресс-службе вуза.

Существующие алгоритмы заточены под разбор современных текстов, поэтому очень часто они дают сбои при работе с книгами или статьями прошлого и позапрошлого века. Специалистам ИТМО удалось научить компьютер узнавать имена Февронья и Иоланта.

Проблемы в распознавании имен также связаны с тем, что современные алгоритмы заточены на распознавание англоязычных текстов. Для русского языка таких программ меньше, а сделать их намного сложнее из-за семантики и морфологии русской речи. Причем, чем старше текст, тем хуже будет результат распознавания.

Главная проблема для алгоритма, «воспитанного» на современных текстах, заключается в старых именах вроде Феодоры, Февронии, Иоланты или Мазепы. Именно на них точность работы проседала сильнее всего. Ученым удалось повысить точность распознавания имен.

Вся работа — часть большого проекта, который ведет Международный центр цифровых гуманитарных исследований Университета ИТМО. Задача проекта — создать карту важнейших локаций Санкт-Петербурга, которые связаны с именами великих писателей, композиторов ученых.

Подписывайтесь на нас в «Яндекс.Новостях», Instagram и «ВКонтакте ».

Читайте нас в Telegram.

_{Фото: pexels.com}