апр

2025

Новый метод кластеризации упрощает анализ больших массивов информации

Исследователи из ВШЭ и Института проблем управления РАН предложили новый метод анализа данных — туннельную кластеризацию. Он помогает быстро находить группы похожих объектов и требует меньше вычислительных ресурсов, чем традиционные методы. В зависимости от конфигурации данных алгоритм может работать в десятки раз быстрее аналогов. Исследование опубликовано в журнале «Доклады Российской академии наук. Математика, информатика, процессы управления».

С каждым годом объем информации, которую нужно обработать, становится все больше. Данные поступают из разных источников: научных исследований, финансовых отчетов, медицинских обследований и множества других. Для поиска закономерностей и структурирования информации в таких массивах применяют методы кластеризации — группировки данных по схожим характеристикам. Группы, полученные таким способом, называют кластерами.

Один из самых популярных методов кластеризации — метод k-средних. Он делит данные на заданное количество кластеров, предварительно выбирая их центры (центроиды). Однако у этого метода есть ограничение: перед началом работы необходимо знать, сколько кластеров должно получиться, что не всегда возможно при анализе сложных данных.Ученые из НИУ ВШЭ и Института проблем управления имени В.А. Трапезникова РАН предложили новый подход, который упрощает этот процесс, — туннельную кластеризацию. В отличие от метода k-средних, этот алгоритм не требует заранее задавать число кластеров: он сам определяет, сколько кластеров необходимо, анализируя структуру данных.

Фуад Алескеров

«Алгоритм формирует “туннели” данных — области в многомерном пространстве, в которых группируются объекты с похожими характеристиками, — объясняет руководитель департамента математики факультета экономических наук НИУ ВШЭ Фуад Алескеров. — Пользователь может выбрать один из трех вариантов работы алгоритма: с фиксированными границами кластеров, с адаптивными границами, которые подстраиваются под структуру данных, или комбинированный подход. Это делает метод гибким и подходящим для разных типов задач».

Метод протестировали на синтетическом (сгенерированном) наборе данных из 100 000 объектов, а также на реальных задачах в области государственного управления и банковского сектора.

Главное преимущество нового метода — скорость. В отличие от классических алгоритмов, требующих больших вычислительных ресурсов, туннельная кластеризация в зависимости от конфигурации данных может справляться с анализом в десятки раз быстрее.

Кроме того, ученые ввели понятие «степень перехода» — параметр, который показывает, сколько характеристик объекта нужно изменить, чтобы он оказался в другом кластере. Это помогает оценить четкость границ кластеров и выявлять объекты, находящиеся на стыке групп.

Алексей Мячин

«Люди создают все больше данных, и этот процесс только ускоряется. Согласно последнему отчету “Digital 2025: Global Overview Report”, в начале 2025 года в интернете насчитывалось 5,56 миллиарда пользователей — это почти 68% населения планеты. Взрослые проводят в Cети в среднем по 6 часов 38 минут в день, общаясь, работая, смотря видео и потребляя контент, — рассказывает старший научный сотрудник Международного центра анализа и выбора решений НИУ ВШЭ Алексей Мячин. — Компании, которые игнорируют анализ данных, теряют большие деньги».

Авторы продолжают работать над усовершенствованием алгоритма, включая исследования по снижению размерности данных, что позволит еще больше сократить временные затраты при поиске закономерностей в данных.

Работа выполнена при частичной поддержке РНФ.

Дата

8 апреля

Рубрики

Наука

Темы

публикации исследования и аналитика РНФ центры превосходства

В статье упомянуты

Департамент математики, Международный центр анализа и выбора решений, Факультет экономических наук

Персоны

Алескеров Фуад Тагиевич

Анисимов Никита Юрьевич

Мячин Алексей Леонидович

Вам также может быть интересно:

апр

2025

Искусственный интеллект помогает точнее прогнозировать риски сложных заболеваний

Разработанные в Центре искусственного интеллекта НИУ ВШЭ нейросетевые модели значительно улучшают прогнозирование риска ожирения, диабета первого типа, псориаза и других многофакторных заболеваний. Совместное исследование с компанией Genotek показало, что алгоритмы глубокого обучения эффективнее традиционных методов, особенно при сложных взаимодействиях генов (эпистазах). Результаты опубликованы в журнале Frontiers in Medicine.

30 апреля

апр

2025

«Надеюсь, что смогу инициировать новые исследования в Высшей школе экономики»

Более 10 тысяч научных проектов было поддержано Российским научным фондом (РНФ) в 2024 году. Один из получателей грантов фонда — ученый из Ирана, доцент МИЭМ ВШЭ Ахмад Остовари Могаддам. Благодаря поддержке РНФ и Вышки он принял решение надолго остаться в России.

29 апреля

апр

2025

Мозг детей с аутизмом иначе слышит мир

Международный коллектив исследователей при участии ученых из Центра языка и мозга НИУ ВШЭ впервые применил в одном эксперименте два метода — магнитоэнцефалографию и морфометрический анализ — для изучения детей с расстройствами аутического спектра. Оказалось, что мозг детей с аутизмом хуже справляется с фильтрацией и пониманием звуков, особенно в той части, которая обычно отвечает за речь. Исследование опубликовано в журнале Cerebral Cortex.

29 апреля

апр

2025

Ученые выявили особенности восприятия историй у дошкольников

Психолингвисты Центра языка и мозга ВШЭ совместно с коллегами из США и Германии впервые использовали регистрацию движений глаз во время проведения теста на определение нарративных навыков у дошкольников и взрослых. Исследователи обнаружили, что понимание историй зависит от их структуры, а вопросы про внутренние состояния персонажей вызывают трудности у детей 5-6 лет. Результаты исследования опубликованы в журнале Journal of Experimental Child Psychology.

22 апреля

апр

2025

Генетический прогноз рецидива рака: ученые проверили, можно ли доверять компьютерным моделям

В биомедицинских исследованиях алгоритмы машинного обучения часто используются для анализа данных, например для предсказания рецидива рака. Однако не всегда ясно, находят ли эти алгоритмы значимые закономерности или подстраиваются под случайные шумы в данных. Ученые из НИУ ВШЭ, ИБХ РАН и МГУ разработали тест, который позволяет определить эту разницу. Он может стать важным инструментом для проверки надежности алгоритмов в медицине и биологии. Исследование опубликовано в цифровом архиве arXiv.

15 апреля

апр

2025

Математики из нижегородской Вышки доказали существование устойчивого хаоса в сложных системах

Исследователи из Международной лаборатории динамических систем и приложений НИУ ВШЭ — Нижний Новгород разработали теорию, которая позволяет с математической точностью доказать существование устойчивого хаотического поведения в сетях взаимодействующих элементов. Работа открывает новые возможности для изучения сложных динамических процессов в нейронауке, биологии, медицине, химии, оптике и других областях. Результаты исследования приняты к публикации в ведущем международном научном журнале Physical Review Letters. С результатами исследования можно ознакомиться в архиве Arxiv.org.

14 апреля

апр

2025

Среди победителей трех конкурсов РНФ — проекты четырех кампусов ВШЭ

Российский научный фонд подвел итоги конкурса на проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами, а также конкурса на продление сроков выполнения проектов по данному мероприятию, получивших гранты РНФ в 2022 году. Кроме того, подведены итоги конкурса на проведение фундаментальных научных исследований и поисковых научных исследований по поручениям Президента Российской Федерации (междисциплинарные проекты). В числе победителей трех конкурсов — проекты НИУ ВШЭ, реализуемые во всех четырех кампусах университета.

4 апреля

апр

2025

Различие алфавитов мешает билингвам быстро переключаться с языка на язык

Ученые Центра языка и мозга НИУ ВШЭ с помощью айтрекинга исследовали, как билингвы переключаются с языка на язык при смене контекста. Выяснилось, что различие алфавитов замедляет этот процесс. Если буквы выглядят необычно — например, латиница в русскоязычном тексте, — мозг не сразу переключается на другой язык, даже если человек знает, что он в билингвальной ситуации. Статья опубликована в журнале “Bilingualism: Language and Cognition”.

3 апреля

апр

2025

Видеть, ощущать и понимать: ученые ВШЭ изучат механизмы восприятия движений при аутизме

Ученые Центра исследований интеллекта и когнитивного благополучия НИУ ВШЭ выиграли грант РНФ на изучение механизмов зрительного восприятия движений при аутизме. Исследователи разработают экспериментальную парадигму, чтобы выявить взаимосвязь визуального внимания и моторики у людей с расстройствами аутистического спектра. Это позволит объяснить нейрокогнитивные механизмы, лежащие в основе трудностей социального взаимодействия при аутизме, и в дальнейшем найти способы их компенсировать.

1 апреля

мар

2025

Ученые предложили новую теорию происхождения генетического кода

Научный консультант Международной лаборатории биоинформатики Института искусственного интеллекта и цифровых наук Алан Герберт предложил новое объяснение одной из нерешенных загадок биологии — происхождения генетического кода. Согласно исследованию, опубликованному в журнале Biology Letters, современный генетический код мог возникнуть благодаря самоорганизующимся молекулярным комплексам — тинкерам. Новую гипотезу автор выдвинул на основе анализа вторичных структур ДНК с помощью нейросети AlphaFold3.

27 марта