HENASY: Learning to Assemble Scene-Entities for Egocentric Video-Language Model.

Khoa Vo Thinh Phan Kashu Yamazaki Minh Tran Ngan Le

Published in: CoRR (2024)

Keyphrases

language model
video sequences
n gram
language modeling
information retrieval
active learning
generative model
unsupervised learning
context sensitive