幻觉问题综述

admin2024-09-05  8

https://arxiv.org/pdf/2202.03629

分类

内在幻觉:生成的输出与源内容相矛盾
外部幻觉:生成的输出无法从源内容中验证

数据引发的幻觉(来源不同引发分歧)
训练和推理中的幻觉(编码器不能很好的表征,解码错误,曝光偏差:训练时解码器被鼓励预测以真实前缀序列为条件的下一个标记,推理时根据自身先前生成的歷史序列来生成下一个标记;参数化知识偏差)

衡量幻觉的指标

统计指标

  1. 词汇特征(n-gram)来计算生成文本和参考文本之间的信息重叠和矛盾(不匹配计数)
  2. PARENT(表格中蕴含 n 元组的精确率和召回率)

基于模型的指标

  • 神经模型
  • 基于信息抽取(表示为关系元组格式+验证是否匹配)
  • 基于问答
  • 自然语言推理指标(忠实度得分定义为源文本与其生成文本之间的蕴涵概率
  • 基于语言模型的指标(无条件 LM 仅在数据集中的目标(真实参考)上进行训练,而一个条件语言模型 𝐿𝑀𝑥则在源数据和目标数据上进行训练)

人工评估:评分/比较

幻觉缓解方法

数据相关:短句修剪,去语境化,语法修改,自动数据清洗/过滤,信息增强

模型角度:编码器改进(双编码),注意力机制改进(稀疏注意力/归纳注意力),解码器改进(多分支解码器/不确定感知解码器)

训练角度

规划(限制内容顺序/提供框架)

强化学习(用不同的奖励优化模型:ROUGE/多项选择完形填空分数)

多任务学习(单个数据集容易导致幻觉→在训练过程中添加适当的额外任务以及目标任务)

可控生成(受控重采样、可手动提供的控制代码或自动预测的控制代码)

其他方法:正则化/损失重构/后处理(生成+细化)

指标设计

  1. 能够差异化衡量两种幻觉的细粒度指标
  2. 事实核查:知识证据选择+声明验证两个子任务
  3. 泛化:研究源文本/输出文本之间的关系和共同点
  4. 融入人类认知视角:人类对不同类型的信息敏感程度不同

幻觉减缓方法的未来方向

  1. 通用且鲁棒的数据预处理方法
  2. 数字幻觉(生成文本中数字的正确性非常重要)
  3. 外部幻觉缓解

幻觉(未来可能出现的+解决方案)

  1. 长文本中的幻觉:基于 Longformer的模型可以帮助编码长输入
  2. 抽象摘要中的幻觉
  3. 对话生成中的幻觉(自我一致性/外部一致性)
  4. 生成问答中的幻觉(生成的答案和基本事实答案之间的语义重叠、生成的答案的忠实度以及答案和源文档之间的事实一致性,只考虑了幻觉的一个方面。可以设计能够考虑与幻觉相关的所有因素(如语义重叠、忠实度或事实一致性)的度量标准)
  5. 数据转文本中的幻觉
  6. 机器翻译中的幻觉
  7. 视觉语言生成中的幻觉
  8. 图像字幕中的客体幻觉
  9. 其他VL任务中的幻觉
  10. LLM中的幻觉(这个方法就多了:预训练数据质量 / 指令调优 / RL / RAG / CoT / 后处理 / 集成

幻觉问题综述,在这里插入图片描述,第1张
https://zhuanlan.zhihu.com/p/671435046

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明原文出处。如若内容造成侵权/违法违规/事实不符,请联系SD编程学习网:675289112@qq.com进行投诉反馈,一经查实,立即删除!