• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Новый метод кластеризации упрощает анализ больших массивов информации

Новый метод кластеризации упрощает анализ больших массивов информации

© iStock

Исследователи из ВШЭ и Института проблем управления РАН предложили новый метод анализа данных — туннельную кластеризацию. Он помогает быстро находить группы похожих объектов и требует меньше вычислительных ресурсов, чем традиционные методы. В зависимости от конфигурации данных алгоритм может работать в десятки раз быстрее аналогов. Исследование опубликовано в журнале «Доклады Российской академии наук. Математика, информатика, процессы управления».

С каждым годом объем информации, которую нужно обработать, становится все больше. Данные поступают из разных источников: научных исследований, финансовых отчетов, медицинских обследований и множества других. Для поиска закономерностей и структурирования информации в таких массивах применяют методы кластеризации — группировки данных по схожим характеристикам. Группы, полученные таким способом, называют кластерами.

Один из самых популярных методов кластеризации — метод k-средних. Он делит данные на заданное количество кластеров, предварительно выбирая их центры (центроиды). Однако у этого метода есть ограничение: перед началом работы необходимо знать, сколько кластеров должно получиться, что не всегда возможно при анализе сложных данных.Ученые из НИУ ВШЭ и Института проблем управления имени В.А. Трапезникова РАН предложили новый подход, который упрощает этот процесс, — туннельную кластеризацию. В отличие от метода k-средних, этот алгоритм не требует заранее задавать число кластеров: он сам определяет, сколько кластеров необходимо, анализируя структуру данных.

Фуад Алескеров

«Алгоритм  формирует “туннели” данных — области в многомерном пространстве, в которых группируются объекты с похожими характеристиками, — объясняет руководитель департамента математики факультета экономических наук НИУ ВШЭ Фуад Алескеров. — Пользователь может выбрать один из трех вариантов работы алгоритма: с фиксированными границами кластеров, с адаптивными границами, которые подстраиваются под структуру данных, или комбинированный подход. Это делает метод гибким и подходящим для разных типов задач».

Метод протестировали на синтетическом (сгенерированном) наборе данных из 100 000 объектов, а также на реальных задачах в области государственного управления и банковского сектора.

Визуализация исходных данных и итогов туннельной кластеризации в 4-мерной системе параллельных координат.
© Aleskerov, F.T., Myachin, A.L. & Yakuba, V.I. Tunnel Clustering Method. Dokl. Math. 110, 474–479 (2024)

Главное преимущество нового метода — скорость. В отличие от классических алгоритмов, требующих больших вычислительных ресурсов, туннельная кластеризация в зависимости от конфигурации данных может справляться с анализом в десятки раз быстрее. 

Кроме того, ученые ввели понятие «степень перехода» — параметр, который показывает, сколько характеристик объекта нужно изменить, чтобы он оказался в другом кластере. Это помогает оценить четкость границ кластеров и выявлять объекты, находящиеся на стыке групп.

Алексей Мячин

«Люди создают все больше данных, и этот процесс только ускоряется. Согласно последнему отчету “Digital 2025: Global Overview Report”, в начале 2025 года в интернете насчитывалось 5,56 миллиарда пользователей — это почти 68% населения планеты. Взрослые проводят в Cети в среднем по 6 часов 38 минут в день, общаясь, работая, смотря видео и потребляя контент, — рассказывает старший научный сотрудник Международного центра анализа и выбора решений НИУ ВШЭ Алексей Мячин. — Компании, которые игнорируют анализ данных, теряют большие деньги».

Авторы продолжают работать над усовершенствованием алгоритма, включая исследования по снижению размерности данных, что позволит еще больше сократить временные затраты при поиске закономерностей в данных. 

Работа выполнена при частичной поддержке РНФ.

Вам также может быть интересно:

Среди победителей трех конкурсов РНФ — проекты четырех кампусов ВШЭ

Российский научный фонд подвел итоги конкурса на проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами, а также конкурса на продление сроков выполнения проектов по данному мероприятию, получивших гранты РНФ в 2022 году. Кроме того, подведены итоги конкурса на проведение фундаментальных научных исследований и поисковых научных исследований по поручениям Президента Российской Федерации (междисциплинарные проекты). В числе победителей трех конкурсов — проекты НИУ ВШЭ, реализуемые во всех четырех кампусах университета.

Различие алфавитов мешает билингвам быстро переключаться с языка на язык

Ученые Центра языка и мозга НИУ ВШЭ с помощью айтрекинга исследовали, как билингвы переключаются с языка на язык при смене контекста. Выяснилось, что различие алфавитов замедляет этот процесс. Если буквы выглядят необычно — например, латиница в русскоязычном тексте, — мозг не сразу переключается на другой язык, даже если человек знает, что он в билингвальной ситуации. Статья опубликована в журнале “Bilingualism: Language and Cognition”.

Видеть, ощущать и понимать: ученые ВШЭ изучат механизмы восприятия движений при аутизме

Ученые Центра исследований интеллекта и когнитивного благополучия НИУ ВШЭ выиграли грант РНФ на изучение механизмов зрительного восприятия движений при аутизме. Исследователи разработают экспериментальную парадигму, чтобы выявить взаимосвязь визуального внимания и моторики у людей с расстройствами аутистического спектра. Это позволит объяснить нейрокогнитивные механизмы, лежащие в основе трудностей социального взаимодействия при аутизме, и в дальнейшем найти способы их компенсировать.

Ученые предложили новую теорию происхождения генетического кода

Научный консультант Международной лаборатории биоинформатики Института искусственного интеллекта и цифровых наук Алан Герберт предложил новое объяснение одной из нерешенных загадок биологии — происхождения генетического кода. Согласно исследованию, опубликованному в журнале Biology Letters, современный генетический код мог возникнуть благодаря самоорганизующимся молекулярным комплексам — тинкерам. Новую гипотезу автор выдвинул на основе анализа вторичных структур ДНК с помощью нейросети AlphaFold3.

Ученые опровергли существование кризиса доверия к науке

Международная группа исследователей, включающая специалистов из НИУ ВШЭ, провела масштабный опрос в 68 странах на тему доверия к науке. В большинстве стран люди продолжают высоко ценить работу ученых и хотят видеть их более активными участниками общественной жизни. Результаты опубликованы в Nature Human Behaviour.

Химики упростили синтез лекарств с амидной группой

Химики НИУ ВШЭ и ИНЭОС РАН разработали новый метод синтеза амидов — соединений, важных для производства лекарств. Они использовали рутениевый катализатор и угарный газ при точно подобранных параметрах реакции, что позволило получать целевой продукт без побочных отходов и сложных стадий очистки. Метод уже протестировали на синтезе ключевого компонента вориностата — препарата для терапии Т-клеточной лимфомы. Благодаря этому подходу стоимость препарата может снизиться в сотни раз. Исследование опубликовано в Journal of Catalysis. Исследование выполнено при поддержке РНФ.

Полиция и ученые обсудили, как ловить лесных браконьеров

Заведующий Международной лабораторией статистической и вычислительной геномики НИУ ВШЭ Владимир Щур принял участие в круглом столе, организованном Экспертно-криминалистическим центром МВД России. Криминалисты, биологи, генетики и математики поговорили о возможностях применения ДНК-анализа деревьев при расследовании преступлений, связанных с незаконной вырубкой леса.

Ученые ВШЭ выяснили, какие фразы труднее всего даются младшим школьникам

Психолингвисты Центра языка и мозга НИУ ВШЭ сравнили восприятие разных грамматических конструкций у младших школьников и взрослых. Эксперимент показал, что стратегии понимания сложных синтаксических конструкций формируются годами, а переход к взрослым механизмам восприятия текста происходит в конце начальной школы.Исследование опубликовано в журнале «Rhema.Рема».

Российские ученые воссоздали динамику модели нейрона мозга с помощью нейросети

Исследователи из НИУ ВШЭ в Нижнем Новгороде показали, как с помощью нейросети воссоздавать динамику нейрона мозга, имея всего один ряд измерений, например запись его электрической активности. Разработанная нейросеть научилась восстанавливать полную динамику системы и предсказывать ее поведение при изменении условий. Такой метод может помочь изучать сложные биологические процессы, даже если нет возможности провести все необходимые измерения. Исследование опубликовано в журнале Chaos, Solitons & Fractals.

Центр языка и мозга начал сотрудничество с Академией наук Республики Саха

Центр языка и мозга НИУ ВШЭ и Академия наук Республики Саха (Якутия) заключили соглашение о партнерстве. Оно открывает новые возможности для исследований малоизученных языков региона и билингвизма. Благодаря современным методам, таким как айтрекинг (технология отслеживания движений и положения глаз) и нейровизуализация, ученые смогут ответить на вопросы о том, как устроен билингвизм на уровне мозга.