Поиск внутри музыки
12 ноября 2008 / Переводы
Музыкальный стиль, казалось бы, — материя трудноуловимая. Но в этой статье рассказывается о настоящем стилевом анализе, успешно проводимом… автоматикой. Статья — это обзор научного проекта, посвященного (в целом) изучению новых способов организации больших коллекций музыки и поиска по ним. Решение такой задачи и потребовало «разобраться» с музыкальными стилями (любыми!). Результат — вы сможете даже услышать и увидеть автоматические поступенные плавные переходы между стилями, буквально от Моцарта до «Нирваны».
Обзор
В последнее десятилетие резко увеличился размер цифровых музыкальных коллекций. Вместимость mp3-плееров возросла от десятков до 40 и более тысяч песен. Музыкальные онлайн-магазины предлагают миллионы композиций для продажи по доллару за штуку. Сервисы цифровой музыки по подписке предлагают неограниченный доступ к миллионам треков за несколько долларов в месяц.
Но даже несмотря на такое увеличение размеров музыкальных коллекций, инструменты, предлагаемые любителям музыки для ее поиска, не изменились. Они до сих ищут по жанру или по исполнителю, альбому, названию «песни», как это происходило и при поиске в обычном магазине. И с увеличением размера коллекции людям стало значительно сложнее найти музыку при использовании настолько примитивных инструментов поиска, особенно новую музыку, которая им могла бы понравиться.
Цель проекта Поиск внутри музыки (Search Inside the Music) — открыть новые методы анализа, классификации, индексации и организации больших коллекций музыки, чтобы позволить нам создавать более эффективные инструменты для изучения, обнаружения и рекомендации музыки. Этот проект расширяет музыкальный поиск до поиска «внутри музыки», то есть поиска не только по названиям, ключевым словам и исполнителям, но по музыкальному содержимому и контексту. Мы хотим помочь людям находить и упорядочивать их музыку, опираясь на все музыкальные качества, в том числе такие, как акустическая схожесть, настроение, слова, музыкальные темы, мелодии, темп, ритм и инструментовка. В настоящее время мы сосредоточились на двух направлениях: использование социальных данных для рекомендаций и организации музыки на основе слушательских привычек людей со схожими музыкальными вкусами и автоматическая разметка (автометки) новой или непопулярной музыки с помощью обработки звуковых сигналов и машинно-обучаемых моделей.
Разметка аудио по словам
Одна из основных целей Поиска внутри музыки — создание машинно-обучаемой модели, которая, «прослушав» аудио, могла бы генерировать полезные описания (они же «автометки»). Получившиеся слова могут быть использованы для оценки сходства между композициями и авторами. Более того, эти слова можно смешивать с другими описаниями, например, взятыми с таких социальных сайтов, как Last.fm.
В качестве примера возьмем старую версию песни Дуга Экка, написанную 15 лет назад, Keep the Change. (Мы используем его музыку только потому, что ее слушают только тогда, когда мы ссылаемся на нее в научных целях. Кроме того, его музыка не использовалась для построения наших моделей. Таким образом, это справедливый тест.) Приведем наиболее релевантные1 результаты по жанру и эмоциям ( слово «эмоция» в данном случае толкуется свободно):
Audio clip: Adobe Flash Player (version 9 or above) is required to play this audio clip. Download the latest version here. You also need to have JavaScript enabled in your browser.
Слова категории «жанр» | Слова категории «эмоции» |
bluegrass | красиво |
ирландский | грустно |
slowcore | нежно |
инди поп | меланхолично |
кантри-альтернатива | модно |
американское | расслабляюще |
Хороши ли эти слова в качестве меток? Сложно сказать. Конечно, мы еще можем найти плохие слова среди менее релевантных («вокалистка», например), однако в целом мы рады, что подобные слова ушли из наших моделей.
В документе «Автоматическая генерация социальных тегов для музыкальных рекомендаций» приведены технические подробности о принципах работы этих моделей.
Приведем его краткое содержание: каждому слову в нашем словаре присваивается своя собственная машинно-обучаемая модель (конкретно AdaBoost или FilterBoost), которая размечает свойства 5-секундных аудиофрагментов лейблами вроде «американское». За время обучения мы выбираем положительные примеры для данного слова из нашей базы аудиоданных. Положительные примеры определяются на основании анализа данных. Проще говоря, мы генерируем учебные наборы для машинного обучения, используя слова из социальных сервисов. В частности, слово «американское» взято из песен, больше всего отмеченных этой меткой пользователями Last.fm. Мы выбираем аудио для композиций из нашей лабораторной базы данных и тренируем классификатор на нахождение соответствующих особенностей в аудио, необходимых для того, чтобы «услышать», «американская» песня это или нет. Тренировка осуществляется на 5-секундных аудиофрагментах. Для общей метки на всю композицию берется средний прогноз по всем 5-секундным фрагментам для конкретного слова. По результатам тренировки множества индивидуальных словесных моделей мы в состоянии построить сеть релевантных слов для песни, альбома или исполнителя. Подводя итог: набор нелинейных классификаторов получает на вход аудио и генерирует на выходе соответствующие слова.
На рисунке приводятся свойства, используемые для обучения модели. В очень широком смысле это особенности, чувствительные к ритму и метру (автокорреляция; вверху), звуковысотности (спектр; в центре) и музыкальному тембру/инструментовке (коэффициенты косинусного преобразования Фурье; внизу).
Сходство автометок
Мы используем термин «автометки» для обозначения слов, сгенерированных нашими машинно-обучаемыми моделями. Создав ряд автометок для музыкальной коллекции, можно использовать их в качестве средств измерения сходства композиций, альбомов и исполнителей. Поскольку автометки — обычные слова, то можно легко смешивать автометки с данными из других источников, таких, как Last.fm, Wikipedia и т.д.
Предлагаем несколько примеров того, как звучит получающееся пространство похожих исполнителей. Мы применяли технику уменьшения Isomap для создания диаграммы наиболее близких авторов. Затем мы смогли найти кратчайший путь, соединяющий двух авторов. Из их композиций сэмплировались 5-секундные фрагменты и объединялись в один mp3-файл. Эти демо немного грубоваты, потому что брались случайно отобранные 5 секунд из случайной композиции каждого автора; есть много значительно более эффективных способов сделать это путем рационального отбора песен, а также рационального выбора 5 секунд. Щелкните по графикам, чтобы увидеть крупные версии.
Audio clip: Adobe Flash Player (version 9 or above) is required to play this audio clip. Download the latest version here. You also need to have JavaScript enabled in your browser.
От Бетховена до The Prodigy
Audio clip: Adobe Flash Player (version 9 or above) is required to play this audio clip. Download the latest version here. You also need to have JavaScript enabled in your browser.
От Вольфганга Моцарта до Nirvana
Audio clip: Adobe Flash Player (version 9 or above) is required to play this audio clip. Download the latest version here. You also need to have JavaScript enabled in your browser.
От Джона Колтрейна до System of a Down
Визуализация
Еще одна цель «Поиска внутри музыки» — найти новые способы помочь людям открыть для себя новую музыку. В частности, с помощью интерактивной 3D визуализации музыкально схожего пространства мы дали возможность слушателю свободно ориентироваться в своей музыкальной коллекции, получать рекомендации в отношении новой музыки, создавать интересные и логически осмысленные плейлисты и взаимодействовать с обложками альбомов из музыкальной коллекции. В результате возможен более интересный и приятный в использовании пользовательский интерфейс, чем доступные нам сегодня.
Подробнее об этом — в документе «Using 3D Visualizations to Explore and Discover Music».
Люди и места
Поиск внутри музыки — это проект Sun Labs, Burlington, MA.
Сегодняшняя команда:
- Paul Lamere, ведущий инженер-специалист в Sun Labs, Burlington, MA и руководитель исследований проекта Поиск внутри музыки.
- Douglas Eck, приглашенный профессор в Sun Labs в 2007 году; после этого вернулся в Монреальский университет. Он остался в проекте, занимаясь разработкой машинно-обучаемых алгоритмов.
- Francois Maillet, стажировался в Sun Labs летом 2008 года, сейчас учится на магистра в Монреальском университете под руководством Дугласа Эка.
Исследовательская группа также тесно сотрудничает с Advanced Search Technology group в Sun Labs, в которую входят:
- Steve Green, ведущий инженер-специалист в Sun Labs, Burlington, MA и руководитель исследований в Advanced Search Technology group.
- Jeff Alexander, Sun Labs, Burlington, MA и член Advanced Search Technology group.
Выпускники проекта:
- Sten Anderson, независимый контрактный сотрудник, сделал вклад в трехмерную визуализацию музыкального пространства.
- Thierry Bertin-Mahieux, стажировался в Sun Labs летом 2007 года и сейчас заканчивает обучение на магистра в Монреальском университете под руководством Дугласа Эка.
- Rebecca Fiebrink, стажировалась в Sun Labs в 2006 году, сейчас готовится на доктора философии в Принстоне под руководством Перри Кука.
- Kris West, стажировался в Sun Labs в 2005 году.
Информация по состоянию на 11 ноября 2008 года; статья от 17 июля 2008 года
Перевод с английского — Владимир Громадин
Ответ (Владимир Громадин):
ноября 18, 2008, 21:53
и что, нас всех разгонять? :)) придется устраивать движение луддитов применительно к композиции
Ответ (Михаил Пучков):
ноября 18, 2008, 22:00
Ну, ежели мы не сможем конкурировать с программой, то да, разгонять нафиг