AVLnet: Learning Audio-Visual Language Representations from Instructional Videos.

Andrew Rouditchenko Angie W. Boggust David Harwath Brian Chen Dhiraj Joshi Samuel Thomas Kartik Audhkhasi Hilde Kuehne Rameswar Panda Rogério Schmidt Feris Brian Kingsbury Michael Picheny Antonio Torralba James R. Glass

Published in: Interspeech (2021)

Keyphrases