文章链接:Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4
主页: VILA-Lab/ATLAS: A principled instruction benchmark on formulating effective queries and prompts for large language models (LLMs). Our paper: https://arxiv.org/abs/2312.16171 (github.com)
数据: raw.githubusercontent.com/VILA-Lab/ATLAS/main/data/general_dataset.json
写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!!
写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!!
本文介绍了一套由26条指导原则构成的框架,旨在简化向大型语言模型(LLMs)提问和提示的过程。这些原则旨在帮助用户更好地理解如何针对不同规模的LLM设计问题,评估它们的能力,并提升用户对不同模型在接收不同提示时行为的理解。研究团队在LLaMA-1/2和GPT-3.5/4等模型上进行了广泛实验,验证了这些原则在指导指令和提示设计上的有效性。该工作为大型语言模型提示研究者提供了一个更全面的指南,并通过开源项目页面(https://github.com/VILA-Lab/ATLAS)分享了相关资源。
随着ChatGPT等大型语言模型在问答、数学推理、代码生成等多个领域展现出惊人的能力,如何有效与这些模型互动,特别是如何设计最优的指令或提示,成为了广大用户和开发者面临的一个挑战。直接对模型进行微调以适应特定任务往往不切实际或效率低下,因此,研究界开始聚焦于优化提示技术,即“提示工程”。这项技术涉及精心构建特定任务的指令,以引导模型产生期望的输出。本文旨在揭开这一过程的神秘面纱,帮助用户和开发者更好地与LLMs沟通,通过优化提示来提高预训练模型的响应质量。
作者总结归纳了26条框架,具体如下:
在不同尺寸的模型
质量提升 :小型(7B)、中型(13B)和大型 LLMs(70B 以及 GPT-4.5/4) 的回答质量都显著提高。其中套路 2、5、15、16、25 和 26,对大型模型的提升效果最明显。而套路 14,在所有尺寸的模型中,都获得了显著的提升:
准确提升 :不同规模的模型应用这些套路后,平均准确率在20%到40%之间。小型和中型模型的准确率在10%到40%之间,而大型模型的准确率超过40%。在相对准确性方面,各模型的性能平均提高了10%以上,大型模型的提升甚至超过20%。
本文通过一套细致入微的指导原则,为大型语言模型的提示设计提供了一种系统化的方法。这些原则覆盖了从简洁明了的指令到引导模型进行多步骤推理的策略,再到避免偏见和提升用户参与度的各种方面。研究不仅揭示了有效提示设计的关键要素,还展示了通过优化提示,即便是未经专门微调的大型语言模型也能在多种任务上展现更佳性能。作者希望这一工作能为从事大型语言模型提示研究的人员提供一个实用的指南,促进未来模型交互方式的创新和优化。通过开源项目,研究团队进一步鼓励社区参与到这一重要领域中来,共同探索如何更好地利用大型语言模型的潜力。