📊 Исследование BNMusic: почему будущее шумоподавления — не в наушниках, а в умной генерации музыки

📅 12 июня 2025 года международная команда исследователей из Университета Ухань (Китай), Bang&Olufsen (Дания) и Принстонского университета (США) опубликовала исследование (https://arxiv.org/abs/2506.10754) «BNMusic: Blending Environmental Noises into Personalized Music».

Помните то чувство, когда едешь в метро, а звук колёс по рельсам буквально сверлит мозг? Или когда соседская стиральная машина работает как отбойный молоток?

Исследователи решили эту проблему нестандартно — они научили ИИ не глушить шум, а превращать его в персональную музыку 🤯

🔍 Проблема, которую решали
Традиционные методы шумоподавления работают только индивидуально — нужны наушники с активным шумоподавлением (ANC). Но что делать в общественных местах, где сотни людей одновременно?

Большинство решений в виде обычного акустического маскирования:
— требуют чрезмерной громкости для эффективности,
— создают конфликт между маскирующим звуком и шумом,
— не учитывают ритмические особенности окружающих звуков.

🎯 Что предложили?
Модель BNMusic работает по принципу "если не можешь победить — возглавь":

1️⃣ Анализирует ритм шума — находит в нём музыкальные паттерны

2️⃣ Генерирует музыку по текстовому запросу — но синхронизированную с этим ритмом

3️⃣ Создаёт гармоничное смешивание — шум органично вплетается в мелодию

Фишка в том, что система работает не через наушники, а создаёт общую звуковую среду для всех людей в помещении. 🎧

⚙️ Как это устроено? Два этапа работы:

❗️Этап 1: Синтез музыки, выровненной по шуму
— Riffusion (модифицированная Stable Diffusion) превращает аудио в мел-спектрограммы

— ИИ применяет двухступенчатый процесс: сначала "дорисовывает" музыку вокруг ключевых областей шума (outpainting), затем заполняет центральные участки (inpainting)

— Результат: музыка ритмически синхронизирована с шумом

❗️Этап 2: Адаптивное усиление
— Система рассчитывает психоакустические пороги маскирования (21-28 дБ)

— Специальный алгоритм подбирает оптимальную громкость через градиентный спуск

— Цель: максимальное маскирование при комфортном уровне звука

📊 Что получилось?
Модель тестировали на масштабных датасетах:
EPIC-SOUNDS (1,000 сегментов), ESC-50 (300 сегментов) и MusicBench (5,000 музыкальных клипов)

BNMusic показала:
❗️Лучшие объективные показатели — FAD = 7.98, KL = 1.67 (превзошла все baseline методы)
❗️Высокие субъективные оценки — качество 3.67/5 против 2.93 у обычной музыки
❗️Снижение восприятия шума на 40% при сохранении приятного звучания

🧠 Что важно? Система научилась:
✅ Извлекать ритмические паттерны из хаотичных шумов
✅ Генерировать персонализированную музыку по текстовым описаниям пользователя
✅ Создавать органичное слияние шума и музыки без конфликтов

🔮 Перспективы применения
Пока что система работает не в реальном времени (генерация занимает ~5 секунд), но для повторяющихся шумов можно записать "саундтрек" заранее:

🚇 Общественный транспорт — персональные плейлисты для каждой линии метро

🏢 Офисы и торговые центры — адаптивная фоновая музыка

Это исследование — шаг к следующему поколению акустического комфорта, где ИИ не борется с шумом, а делает его частью приятной звуковой среды.

BNMusic доказывает: иногда лучший способ решить проблему — превратить её в возможность 🚀

#AIWiz #ИскусственныйИнтеллект #Музыка #технологии

AI Wiz

📊 Исследование BNMusic: почему будущее шумоподавления — не в наушниках, а в умной генерации музыки

Комментарии