Charting the Future: Using Chart Question-Answering for Scalable Evaluation of LLM-Driven Data Visualizations
这个工作名字有点拗口,但其实很新颖:作者想要评测LLM做数据可视化的质量。可视化中的一个重要因素就是信息不丢失,作者想到,能不能用VQA的形式评测?如果另一个VQA模型回答对了问题,说明可视化模型信息没丢失。
这个方向挺小众,不过我感觉这个方法还可以深挖呀,抽象一下:一个任务可以退化成更简单的任务,那可以通过评测退化的任务来给出原任务的一个noisy-reward
A Survey on the Honesty of Large Language Models
一篇LLM honesty的survey,这个领域一直挺小众的,大家好像叫法也挺多的,很多人叫自己hallucination,还有人叫"known and unknown",感觉需要有个谁出来给个具体的定义,整合一下。