• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

В НИУ ВШЭ создали инструмент для оценки сложности текстов на малоресурсных языках

Инсталляция в Национальной библиотеке Республики Татарстан, использующая символы исторических письменностей татарского языка

Инсталляция в Национальной библиотеке Республики Татарстан, использующая символы исторических письменностей татарского языка
Фото: Wikimedia Commons

Исследователи Центра языка и мозга НИУ ВШЭ разработали инструмент, позволяющий определить сложность текстов на малоресурсных языках. В первой версии поддерживаются несколько малых языков России: адыгейский, башкирский, бурятский, татарский, осетинский и удмуртский. Это первая подобная разработка, адаптированная специально для этих языков и учитывающая их морфологические и лексические особенности.

По данным Института языкознания РАН, в России насчитывается 155 языков. Среди них есть малочисленные: например, на адыгейском говорят около 80 тысяч человек, на бурятском, осетинском и удмуртском — от 250 до 350 тысяч человек. Есть и языки с более чем миллионом носителей, например башкирский и татарский. Все эти языки имеют статус государственных в республиках России, поэтому важно не только сохранить их, но и создавать условия для их развития, а также возможности для обучения и реального использования, в том числе в образовании и науке. 

В 2025 году был принят Указ Президента РФ «Об утверждении Основ государственной языковой политики Российской Федерации». Он поддерживает языковое многообразие и задает курс на развитие и практическое использование языков народов России. Один из способов достичь этих целей — создать цифровые инструменты, которые сделают работу с малоресурсными языками проще и доступнее.

Команда ученых из Центра языка и мозга НИУ ВШЭ разработала онлайн-инструмент — калькулятор сложности текстов, который помогает быстро и легко оценить сложность текста на нескольких малых языках с учетом их лингвистических особенностей. Калькулятор создавался с опорой на опыт Антонины Лапошиной и Марии Лебедевой, разработавших инструмент для оценки сложности русскоязычных текстов («Текстометр»).

Калькулятор, созданный психолингвистами НИУ ВШЭ, оценивает тексты по нескольким параметрам: во-первых, длина и частотность слов — они анализируются на основе данных из больших языковых корпусов,  во-вторых, процент лексики из частотного списка, то есть учитывается доля слов, входящих в список 5000 наиболее употребляемых слов каждого языка, и, в-третьих, соотношение частей речи — анализируется распределение различных частей речи в тексте. Кроме того, калькулятор учитывает такие характеристики, как лексическая плотность, лексическое разнообразие, динамичность и описательность текста.

Ключевая инновация — использование формулы удобочитаемости Флеша, адаптированной для каждого языка отдельно. Это позволяет точнее оценивать сложность и удобство восприятия текста. 

Индекс Флеша основан на количестве слов, предложений и слогов, но исходные коэффициенты были подобраны для английского языка и плохо работают для языков с иной структурой — например, для полисинтетического адыгейского, где средняя длина слова значительно больше. В исследовании 2025 года Ульяны Петруниной и Нины Здоровой коэффициенты в формуле были пересчитаны для адыгейского языка отдельно, что значительно повысило точность оценки.

Ульяна Петрунина

«Параметры нашего калькулятора адаптированы под структурные особенности каждого из шести малоресурсных языков России — на основе корпусов текстов, частотного и морфологического анализа. Аналогичным образом мы скорректировали и классический индекс удобочитаемости Флеша. Благодаря этому алгоритм можно легко перенастраивать на другие малоресурсные языки, независимо от их типологических характеристик», — поясняет один из разработчиков инструмента, научный сотрудник Центра языка и мозга НИУ ВШЭ Ульяна Петрунина.

Инструмент поможет создавать сопоставимые стимульные материалы в научных экспериментах и обеспечит преподавателей ресурсом для подбора качественного учебного материала по уровням сложности. Такая разработка — важный вклад в сохранение и развитие малых языков России, поддержку языкового многообразия страны. 

Нина Здорова

«Наш инструмент позволяет исследователям и педагогам подбирать материалы с учетом их лингвистической сложности, что особенно важно для исследований и преподавания с ограниченным количеством ресурсов на данных языках», — отмечает Нина Здорова, один из авторов инструмента.

В следующих версиях планируется добавление других малоресурсных и мало представленных в лингвистике языков — не только на территории России.

Вам также может быть интересно:

МИЭМ ВШЭ и МТС запускают мастерскую по инновационным решениям в сетях связи

​​​​​​​Московский институт электроники и математики им. А.Н. Тихонова ВШЭ и МТС запускают совместную мастерскую, в которой студенты будут работать на стыке инженерии сетей связи, анализа данных и цифровых технологий. Совместный проект подразумевает формат практического обучения, где студенты смогут решать реальные задачи индустрии вместе с инженерами компании и специалистами МИЭМ.

«Думать о будущем — сверхусилие»: в ИСИЭЗ обсудили возможности и вызовы корпоративного форсайта

Поиск новых точек роста и снижение неопределенности перед крупными решениями — основные задачи, которые компании стремятся реализовать с помощью форсайта. Среди ключевых вызовов стратегического прогнозирования — высокая степень непредсказуемости будущего. К таким выводам пришли участники круглого стола с ведущими российскими компаниями «Технологии управления будущим», который прошел в ИСИЭЗ 1 апреля 2026 года.

«Хотелось бы создать фотонно-интегральную схему, которую можно будет применить на практике»

Научный сотрудник Международной лаборатории квантовой оптоэлектроники НИУ ВШЭ в Санкт-Петербурге Никита Фоминых пришел в Вышку ради творческой атмосферы и возможности проводить эксперименты и исследования на уникальном оборудовании лаборатории. Недавно он защитил кандидатскую диссертацию, посвященную изучению и разработке компонентов для фотонных интегральных схем. О работе в лаборатории и о своих исследовательских планахученый рассказал «Вышке.Главное».

Как адаптироваться к жаре и наводнениям

Разработанное экспертами и партнерами факультета географии и геоинформационных технологий НИУ ВШЭ руководство по адаптации к изменениям климата дает практические рекомендации по системному управлению адаптацией к изменениям климата и природными рисками, которые оказывают значительное влияние на экономику и качество жизни людей. Одновременно авторы предлагают современные технологии, которые способны эффективно справляться с угрозами, вызванными изменениями климата, и снижать негативные последствия опасных природных явлений.

В НИУ ВШЭ показали антропоморфного робота-курьера

С 1 по 3 апреля прошел IV Фестиваль робототехники, главным организатором которого стал факультет компьютерных наук НИУ ВШЭ. Одним из ключевых событий фестиваля стала презентация антропоморфного робота-курьера Аркуса. Разработку представил Институт робототехнических систем, созданный НИУ ВШЭ совместно с Группой компаний «ЭФКО».

Как формируется новая профессия специалиста по безопасности систем машинного обучения

Онлайн-кампус НИУ ВШЭ запускает новую онлайн-магистратуру «Информационная безопасность систем искусственного интеллекта», посвященную подготовке специалистов по защите систем машинного обучения. Программа ориентирована на одну из самых быстро формирующихся профессиональных ниш — безопасность моделей ИИ и инфраструктуры их эксплуатации.

«Для нас большая честь быть партнерами»

В конце марта состоялась официальная встреча делегации Высшей школы экономики НИУ ВШЭ с делегацией Ханойского государственного университета (ХГУ), Правительства Социалистической Республики Вьетнам и Посольства Вьетнама в РФ. Участники обсудили ключевые точки взаимодействия, которые послужат укреплению связей не только между университетами, но и между странами.

От робототехники до разработки игр: в Вышке проходят Дни компьютерных наук

В апреле 2026 года факультет компьютерных наук НИУ ВШЭ приглашает всех увлеченных компьютерными науками на ежегодный фестиваль Дни компьютерных наук. Многочисленные мероприятия объединят студентов, преподавателей, профессионалов из ИТ-индустрии и всех желающих, чтобы поделиться опытом, идеями и вдохновением.

ВШЭ и БГУ запускают совместную ИТ-программу при поддержке Правительства Бурятии

Высшая школа экономики подписала соглашения о сотрудничестве в сфере подготовки кадров в области искусственного интеллекта и информационных технологий с Правительством республики Бурятия и Бурятским государственным университетом имени Доржи Банзарова. Оба документа закладывают основу для реализации совместной образовательной программы по направлению «Прикладная математика и информатика», а также для системного развития сквозных цифровых компетенций студентов и преподавателей вузов республики (программирование, анализ данных, методы искусственного интеллекта).

Вышка провела экзамены, квизы и отборы для школьников в Ташкенте и Бишкеке

Более 3 тысяч иностранных школьников приняли участие в Международной олимпиаде молодежи НИУ ВШЭ, церемонии награждения которой прошли в Ташкенте и Бишкеке в марте. Выездные мероприятия университета также включали выпускные экзамены, презентации образовательных программ и очные отборочные испытания для поступающих. В Узбекистане и Кыргызстане дипломы победителей и призеров получили почти 200 участников. Лучшие из них смогут претендовать на обучение в НИУ ВШЭ на бюджетной основе.