0%

2024-06-11-insights

apple 还真出了自己的模型,但是端侧:https://machinelearning.apple.com/research/introducing-apple-foundation-models

Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation

这篇是 cv track 的论文,但感觉挺牛的,就放上来了,名字在致敬 OpenAI 那个 “diffusion model beats GAN”。作者用 llama 的方式做了图片生成的工作。作者发现,经过好的设计,Autoregressive 的形式其实比 latent diffusion 效果更好,然后速度还快 5 倍。

这玩意看起来是不是一行一行刷新出来图片…… 再套个投机推理、再套个 MoE,水出来 100 篇论文

Video-Language Understanding: A Survey from Model Architecture, Model Training, and Data Perspectives

一篇关于视频理解模型的综述,感觉还挺全的。挺好挺新的一个领域,如果想要入坑这个可以看看。

Reasoning in Token Economies: Budget-Aware Evaluation of LLM Reasoning Strategies

作者认为,目前学界对于 reasoning module 的研究太乐观了,主要是因为测试时只考虑效果,不考虑消耗的资源。换句话说,在消耗同等计算资源的情况下,self-consistency 的效果可能比目前所有的 reasoning 类方法都要好。还有就是,multiagent 和 reflexion 相关的方法可能在进一步提升计算资源的情况下,效果变得更差。

底下这个图,越看越经典

Powered By Valine
v1.5.2