Beyond Accuracy: Evaluating the Reasoning Behavior of Large Language Models - A Survey.

Philipp Mondorf Barbara Plank

Published in: CoRR (2024)

Keyphrases

language model
language modeling
probabilistic model
n gram
language modelling
document retrieval
retrieval model
statistical language models
speech recognition
test collection
language model for information retrieval
relevance model
query expansion
information retrieval
context sensitive
language models for information retrieval
vector space model
classification accuracy
smoothing methods
query terms
document ranking
passage retrieval
pseudo relevance feedback
error rate
feature selection