2024-09-30-insights

发表于 2024-10-06 更新于 2024-10-22 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 425 阅读时长 ≈ 1 分钟

Charting the Future: Using Chart Question-Answering for Scalable Evaluation of LLM-Driven Data Visualizations

这个工作名字有点拗口，但其实很新颖：作者想要评测LLM做数据可视化的质量。可视化中的一个重要因素就是信息不丢失，作者想到，能不能用VQA的形式评测？如果另一个VQA模型回答对了问题，说明可视化模型信息没丢失。

这个方向挺小众，不过我感觉这个方法还可以深挖呀，抽象一下：一个任务可以退化成更简单的任务，那可以通过评测退化的任务来给出原任务的一个noisy-reward

一篇LLM honesty的survey，这个领域一直挺小众的，大家好像叫法也挺多的，很多人叫自己hallucination，还有人叫"known and unknown"，感觉需要有个谁出来给个具体的定义，整合一下。