Нейросеть научилась распознавать музыкальный инструмент на видео
Разработчики из MIT создали алгоритм PixelPlayer, позволяющий на видео определять звук нужного музыкального инструмента и изменять его громкость. Теоретическое обоснование работы опубликовано на Arvix.org, а сама программа будет представлена на сентябрьской конференции по компьютерному зрению European Conference on Computer Vision.
Для обучения нейросети «скормили» 714 видео с 60 часами записи игры музыкантов на 11 инструментах: аккордеоне, акустической гитаре, виолончели, кларнете, эрху (китайской скрипке), флейте, саксофоне, трубе, тубе, скрипке и ксилофоне. При этом в отличие от других алгоритмов распознавания отдельных источников в звуковой дорожке, для PixelPlayer не нужно ставить вручную метки. Для этого исследователи использовали «самоконтролируемое» глубинное обучение, поэтому всю необходимую информацию программа извлекает самостоятельно.
Напомним, нейросеть научили генерировать мемы.