Услышав звук, мы можем представить себе картинку, и наоборот - мысленно подобрать звуки к фотографии или рисунку. Этому можно обучить и нейросеть, что и сделали японские разработчики. Смотрите, какая забавная штука получилась: вы загружаете картинку, а нейросеть распознаёт на ней образы и подбирает наиболее уместную озвучку, исходя из тех данных, на которых её обучили. Попробовал загрузить простые пейзажи - пляж, лес, большой город. С ними всё просто, правильный звук подбирается легко. Самое интересное - звуки, которые нейросеть подбирает к картинам (их можно выбрать из галереи на сайте). "Купальщики" Сезанна слушают пение сверчков на берегу, женщина с утюгом (Дега) сосредоточенно считает себе под нос, японская гравюра с цветами и птицами предсказуемо озвучена птичьим пением, а гуляющая в лесу парочка Моне шуршит опавшими листьями. Поэкспериментировать можно здесь.

Кстати, в основу этого эксперимента лёг классный проект от MIT - нейросеть, подбирающая звук к беззвучному видео.