HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large Language Models.

Junyi Li Xiaoxue Cheng Xin Zhao Jian-Yun Nie Ji-Rong Wen

Published in: EMNLP (2023)

Keyphrases

language model
language modeling
document retrieval
speech recognition
probabilistic model
information retrieval
statistical language models
n gram
query expansion
test collection
retrieval model
query terms
vector space model
language modelling
document ranking
ad hoc information retrieval
relevance model
relevance assessments
smoothing methods
pseudo relevance feedback
passage retrieval
quantitative evaluation
error rate