Eval4NLP

Keyphrases

Publications

2023

Daniil Larionov, Vasiliy Viskov, George Kokush, Alexander Panchenko, Steffen Eger
Team NLLG submission for Eval4NLP 2023 Shared Task: Retrieval-Augmented In-Context Learning for NLG Evaluation. Eval4NLP (2023)
Rui Zhang, Fuhai Song, Hui Huang, Jinghao Yuan, Muyun Yang, Tiejun Zhao
HIT-MI&T Lab's Submission to Eval4NLP 2023 Shared Task. Eval4NLP (2023)
Abhishek Pradhan, Ketan Kumar Todi
Understanding Large Language Model Based Metrics for Text Summarization. Eval4NLP (2023)
Yuan Lu, Yu-Ting Lin
Characterised LLMs Affect its Evaluation of Summary and Translation. Eval4NLP (2023)
Savita Bhat, Vasudeva Varma
Large Language Models As Annotators: A Preliminary Evaluation For Annotating Low-Resource Language Content. Eval4NLP (2023)
Yanran Chen, Steffen Eger
Transformers Go for the LOLs: Generating (Humourous) Titles from Scientific Abstracts End-to-End. Eval4NLP (2023)
Joonghoon Kim, Sangmin Lee, Seung Hun Han, Saeran Park, Jiyoon Lee, Kiyoon Jeong, Pilsung Kang
Which is better? Exploring Prompting Strategy For LLM-based Metrics. Eval4NLP (2023)
Proceedings of the 4th Workshop on Evaluation and Comparison of NLP Systems, Eval4NLP 2023, Bali, Indonesia, November 1, 2023 Eval4NLP (2023)
Vatsal Raina, Adian Liusie, Mark J. F. Gales
Assessing Distractors in Multiple-Choice Tests. Eval4NLP (2023)
Zahra Kolagar, Sebastian Steindl, Alessandra Zarcone
EduQuick: A Dataset Toward Evaluating Summarization of Informal Educational Content for Social Media. Eval4NLP (2023)
Lukas Weber, Krishnan Jothi Ramalingam, Matthias Beyer, Axel Zimmermann
WRF: Weighted Rouge-F1 Metric for Entity Recognition. Eval4NLP (2023)
Neema Kotonya, Saran Krishnasamy, Joel R. Tetreault, Alejandro Jaimes
Little Giants: Exploring the Potential of Small LLMs as Evaluation Metrics in Summarization in the Eval4NLP 2023 Shared Task. Eval4NLP (2023)
Christoph Leiter, Juri Opitz, Daniel Deutsch, Yang Gao, Rotem Dror, Steffen Eger
The Eval4NLP 2023 Shared Task on Prompting Large Language Models as Explainable Metrics. Eval4NLP (2023)
Jad Doughman, Shady Shehata, Leen Al Qadi, Youssef Nafea, Fakhri Karray
Can a Prediction's Rank Offer a More Accurate Quantification of Bias? A Case Study Measuring Sexism in Debiased Language Models. Eval4NLP (2023)
Yixuan Wang, Qingyan Chen, Duygu Ataman
Delving into Evaluation Metrics for Generation: A Thorough Assessment of How Metrics Generalize to Rephrasing Across Languages. Eval4NLP (2023)
Ghazaleh Mahmoudi
Exploring Prompting Large Language Models as Explainable Metrics. Eval4NLP (2023)
Jeremy Block, Yu-Peng Chen, Abhilash Budharapu, Lisa Anthony, Bonnie J. Dorr
Summary Cycles: Exploring the Impact of Prompt Engineering on Large Language Models' Interaction with Interaction Log Information. Eval4NLP (2023)
Pavan Baswani, Ananya Mukherjee, Manish Shrivastava
LTRC_IIITH's 2023 Submission for Prompting Large Language Models as Explainable Metrics Task. Eval4NLP (2023)
Nitin Ramrakhiyani, Vasudeva Varma, Girish K. Palshikar, Sachin Pawar
Zero-shot Probing of Pretrained Language Models for Geography Knowledge. Eval4NLP (2023)
Abbas Akkasi, Kathleen C. Fraser, Majid Komeili
Reference-Free Summarization Evaluation with Large Language Models. Eval4NLP (2023)

2022

2021