мар

2025

Ученые представили новый метод для работы с несбалансированными данными

Специалисты факультета компьютерных наук НИУ ВШЭ и Лаборатории искусственного интеллекта Сбера разработали геометрический метод расширения данных — Simplicial SMOTE. Тесты на разных наборах данных показали, что он значительно улучшает качество работы AI. Метод особенно полезен в ситуациях, когда редкие случаи очень важны, например в борьбе с мошенничеством или при диагностике редких болезней. Результаты исследования доступны в открытом архиве Arxiv.org и будут представлены на Международной конференции по обнаружению знаний и анализу данных (KDD) летом 2025 года в Торонто.

Проблема несбалансированных данных становится все более актуальной в различных областях, в том числе в банковском секторе и медицине. Традиционные методы — случайное дублирование или глобальное семплирование — часто дают низкокачественную выборку или плохо моделируют данные редких классов.

Предложенный учеными из НИУ ВШЭ и Сбера новый метод — Simplicial SMOTE (Synthetic Minority Oversampling Technique) — решает эти проблемы: обеспечивает более точное моделирование сложных топологических структур данных и увеличивает качество классификаторов на несбалансированных наборах данных.

Он помогает создавать новые примеры редкого класса, используя информацию из нескольких близких примеров («симплекса»), а не только из двух близких точек, как в исходной версии SMOTE и его известных аналогах. Это позволяет лучше понимать данные и улучшать работу AI. Метод помогает усовершенствовать обучение искусственного интеллекта на несбалансированных данных, то есть в таких ситуациях, когда есть много примеров одного класса (например, нормальных транзакций), но мало примеров другого (например, мошенничества).

Исследователи экспериментально показали на большом количестве тестовых датасетов, что предложенный подход значимо повышает метрики качества (F1-мера, коэффициент корреляции Matthews) как базового SMOTE, так и его модификаций. В том числе зафиксировано улучшение и для градиентного бустинга — часто используемого на практике классификатора.

Андрей Савченко

«Наш метод особенно эффективен в задачах, где распространены несбалансированные данные и где редкий класс более значим. Банки могут использовать Simplicial SMOTE, чтобы лучше выявлять мошенничество, а медицинские центры — чтобы диагностировать редкие заболевания», — комментирует один из авторов статьи Андрей Савченко, ведущий научный сотрудник Лаборатории теоретических основ моделей искусственного интеллекта Института искусственного интеллекта и цифровых наук ФКН НИУ ВШЭ.

Новый метод можно интегрировать в существующие алгоритмы оверсемплинга (Borderline-SMOTE, Safe-level-SMOTE и ADASYN), повысив их точность без существенного роста вычислительной сложности. Исследователи считают, что разработанный подход может способствовать развитию более точных и надежных моделей машинного обучения и, следовательно, повышению качества аналитики.

Исследование выполнено при поддержке Программы фундаментальных исследований НИУ ВШЭ.

Дата

14 марта

Рубрики

Наука

Темы

исследования и аналитика анализ данных искусственный интеллект

В статье упомянуты

Институт искусственного интеллекта и цифровых наук, Лаборатория теоретических основ моделей искусственного интеллекта, Программа фундаментальных исследований НИУ ВШЭ, Факультет компьютерных наук

Персоны

Савченко Андрей Владимирович

Вам также может быть интересно:

ноя

2025

Экономисты ВШЭ выяснили, что ИИ слишком хорошо думает о людях

Ученые из НИУ ВШЭ выяснили, что современные ИИ-модели, включая ChatGPT и Claude, в играх на стратегическое мышление вроде «конкурса красоты» Кейнса переоценивают уровень рациональности своих оппонентов, будь то студенты-первокурсники или опытные ученые. Модели стараются предсказать поведение людей, но в итоге играют «слишком умно» и проигрывают, потому что приписывают людям больше логики, чем те демонстрируют на деле. Исследование опубликовано в Journal of Economic Behavior & Organization.

28 ноября

ноя

2025

Вышка Онлайн представила документальный фильм о влиянии ИИ на нашу жизнь

27 ноября на всех онлайн-площадках Вышки Онлайн состоялась премьера документального фильма «После промпта» от онлайн-кампуса НИУ ВШЭ. Его авторы исследуют, как искусственный интеллект меняет работу, карьерные траектории и профессиональное развитие специалистов. Это первый видеопроект, полностью реализованный командой онлайн-кампуса НИУ ВШЭ совместно с приглашенным режиссером Ольгой Науменко.

27 ноября

ноя

2025

Технологический прорыв: исследования Института ИИ и цифровых наук отмечены на AI Journey 2025

Ученые Института искусственного интеллекта и цифровых наук факультета компьютерных наук ВШЭ в рамках Международной конференции AI Journey 2025 представили передовые ИИ-исследования с высоким уровнем научной новизны и практической применимости. Научное решение заведующего Научно-учебной лабораторией матричных и тензорных методов в машинном обучении Максима Рахубы получило премию «Лидеры ИИ — 2025». Заведующий Центром глубинного обучения и байесовских методов Айбек Аланов — среди финалистов премии.

24 ноября

ноя

2025

«ИИ позволяет людям без опыта разработки прототипировать решения, упрощающие их деятельность»

28 октября завершилось обучение в рамках третьего потока программы «Искусственный интеллект в социальной сфере». Слушатели представили и защитили свои проекты. В рамках освоенного курса преподаватели помогли им найти перспективные области применения ИИ для эффективной работы в социальной сфере и обучили практическому применению инструментов ИИ.

5 ноября

окт

2025

«Искусственный интеллект» — лидер по итогам приема на онлайн-программы НИУ ВШЭ

Онлайн-магистратура «Искусственный интеллект» факультета компьютерных наук НИУ ВШЭ показала рекордные результаты. В этом году на нее подали документы 987 абитуриентов — это абсолютный максимум среди всех магистерских программ Вышки. К обучению приступил 351 первокурсник, что обеспечило программе лидирующую позицию по общему объему приема среди онлайн-магистратур университета.

20 октября

окт

2025

«Fall into ML прочно утвердилась в календаре знаковых событий российской ИИ-сцены»

24–25 октября в Центре культур НИУ ВШЭ Институт искусственного интеллекта и цифровых наук факультета компьютерных наук организует четвертую ежегодную конференцию Fall into ML 2025. Мероприятие традиционно поддерживает генеральный партнер — Сбербанк. В фокусе — прорывные исследования и будущее фундаментального ИИ.

16 октября

окт

2025

Стартует новый норматив технологической грамотности ТехноГТО «Искусственный интеллект»

Открыт новый норматив технологической грамотности ТехноГТО по направлению «Искусственный интеллект», разработанный совместно с Академией искусственного интеллекта для школьников Благотворительного фонда Сбербанка «Вклад в будущее». Проект ТехноГТО является частью Национальной технологической олимпиады (НТО) и реализуется Кружковым движением НТИ совместно с президентской платформой «Россия — страна возможностей» и Движением Первых при поддержке НИУ ВШЭ и Росмолодежи.

14 октября

сен

2025

Критика речистого разума: искусственный интеллект в восприятии математиков

Математики Вышки считают, что не стоит опасаться потери работы из-за массового использования ИИ, и одновременно предостерегают от некритического восприятия работ и проектов, подготовленных с его применением. При этом ИИ может быть полезным инструментом в исследованиях, создавая модели и обрабатывая большие массивы информации.

26 сентября

сен

2025

Стартовала регистрация школьников на Всероссийскую олимпиаду по ИИ

Открылась регистрация на пятый сезон Всероссийской олимпиады по искусственному интеллекту. В этом году организаторы ожидают увеличения числа участников — соревнование получило международный статус, и теперь принять участие могут школьники 8–11-х классов не только из России, но и из других стран. Олимпиаде присвоен II уровень в перечне РСОШ — ее призеры и победители получат льготы при поступлении в вуз.

16 сентября

сен

2025

В НИУ ВШЭ обсудили глобальные тренды ИИ на международной форсайт-сессии

В Высшей школе экономики прошла международная форсайт-сессия по искусственному интеллекту (ИИ). Российские и иностранные ученые обсудили тренды и вызовы, которые возникают в связи с быстрым развитием ИИ.

15 сентября