TCRA-LLM: Token Compression Retrieval Augmented Large Language Model for Inference Cost Reduction.

Published in: EMNLP (Findings) (2023)

Keyphrases