利用文本到图像和大模型生成个性化电子商务横幅的新方法

admin2024-08-23  10

人工智能咨询培训老师叶梓 转载标明出处

目前电子商务平台创建横幅广告的过程往往依赖于手动操作,这一过程耗时且难以规模化。为了解决这一问题,沃尔玛的研究团队提出了一种创新方法,通过结合文本到图像模型和大模型(LLM),自动化生成个性化的网络横幅广告。

方法

解决电子商务网站个性化横幅广告生成问题所设计的工作流程如图1,在这张图中,矩形框代表流程的输入和输出,而菱形符号则表示在生成过程中采取的具体行动。首先通过大模型(LLM)分析商品名称以提取关键属性,然后将这些属性转化为文本到图像模型的提示,接着利用稳定扩散模型根据提示生成个性化的电子商务横幅图像,最后根据用户的历史互动数据和群体偏好来确保图像与用户兴趣的匹配,从而实现自动化且高度个性化的横幅广告生成。

利用文本到图像和大模型生成个性化电子商务横幅的新方法,第1张

研究团队面临的挑战是如何有效地解释和理解产品名称。为了解决这个问题,他们采用了大模型(LLM)来提取产品名称中的三个关键属性:产品本身(主题)、描述产品的特定特征(关键词),以及产品最有可能被使用的环境(设置)。这样的表示方法旨在使图像生成模型的提示清晰、简洁、一致,并基于LLM的领域知识。

利用文本到图像和大模型生成个性化电子商务横幅的新方法,第2张

Table 1展示了商品名称的统计信息。商品名称平均包含16个单词,最长可达256个单词,最短为1个单词。这种分布的广度给从产品名称中提取有意义的关键词带来了挑战。为了测试直接使用产品名称作为输入提示的图像生成能力,研究团队进行了比较研究。

第二个子问题是使用稳定扩散模型生成能够突出显示在特定环境中的产品并展示其特征的图像。这需要开发一个图像生成提示,该提示由大型语言模型产生的元组引导,并生成图像作为输出。鉴于电子商务目录包含数以百万计分散在众多类别和子类别中的商品,需要一个适用于所有商品的固定模板来自动化这个过程。LLM创建这个图像生成提示作为其最终输出。

第三个子问题是将生成的图像根据用户的兴趣个性化。本方法可以根据商品的属性/关键词生成横幅。需要将相关商品映射到用户。虽然简单的方法是使用用户最近互动的商品,但是在任何合理的时间框架内,用户可能与多个商品互动,并非所有这些商品都与他们相关。

在电子商务环境中,用户兴趣通常通过将用户分组到群体中来捕捉。这些群体基于历史用户-商品互动,例如,经常与宠物产品互动和交易的用户将被分配到“宠物主人”群体,并有一个相应的亲和度分数。为了解决个性化的商品到用户的映射问题,于是研究团队利用现有的用户群体亲和度。对于给定用户的所有候选商品中,他们选择与用户具有最高亲和度的群体匹配的商品。这种映射确保了可以生成多个个性化的网络横幅(基于不同的商品),同时创建一个与特定群体的用户产生共鸣的个性化体验。研究团队的未来计划包括过渡到基于会话的用户到商品映射框架。

通过这种方法,研究团队不仅提高了个性化横幅广告的生成效率,还提升了其与用户兴趣的关联度,从而有望增强用户体验和广告效果。

评估研究

研究团队使用了SD v1.5模型进行图像生成,并观察到与广泛社区一致的结果:包含人体部位(尤其是面部特征和手部)的图像会出现变形和比例失调;包含文本的图像则难以辨认或不连贯。由于研究目标是创建营销横幅,其中需要在图像中放置文本,但大多数提示变化导致图像中的文本模糊或混乱。

为了改进这一点,研究团队对SD-v1.5模型进行了微调,以提高图像生成与提供提示的一致性。随后,他们转向使用Stable Diffusion XL模型,因为它具有改进的文本编码器,并且能提供更高分辨率的图像。

评估图像质量时,使用了广泛使用的BRISQUE指标。使用v1.5模型生成的图像的平均BRISQUE得分为29.63,而XL模型的得分通常在15-18范围内。尽管如此,考虑到产品名称的长度复杂性,研究团队决定继续使用LLM方法来为稳定扩散模型创建提示。

Table 2 展示了不同提示方法的BRISQUE指标均值和标准差:

利用文本到图像和大模型生成个性化电子商务横幅的新方法,第3张

为了评估生成图像与用户互动产品的关联性,研究团队设置了人类评估,以对生成图像的偏好顺序进行排名。评估员包括从事个性化领域的数据科学家和负责视觉质量评估的质量分析师。每个评估员都获得了一组产品名称以及使用上述方法生成的三幅图像。评估员有三个选项来对每个产品的图像进行评分:1)低关联性,2)中等关联性,3)高关联性。

利用文本到图像和大模型生成个性化电子商务横幅的新方法,第4张

Figure 2 展示了不同产品的平均用户得分及标准误差。从得分中可以看出,PTYPE方法的表现始终不如PNAME和LLM方法。在PNAME和LLM之间,参与者对于哪种方法生成的图像更相关没有明确的共识。对所有产品的平均得分进行平均后,如Table 4所示,可以说平均而言PNAME的表现优于LLM;然而,大的标准偏差并不支持我们得出明确结论。

利用文本到图像和大模型生成个性化电子商务横幅的新方法,第5张

Table 3 展示了不同方法生成的产品名称和图像示例。例如:

  • Vibrant Life Luxe Cuddler Mattress Edition Dog Bed, Medium, 27"x21", Up to 40lbs:两种方法都生成了带有可爱狗狗的客厅设置中的狗床的高质量图像,但使用链接方法生成的图像中狗床占据了更大的画面比例。
  • Walker Edison 32" Scandinavian 2 Door Accent Cabinet - Coastal Oak/ Black:生成的提示忽略了尺寸特征,产品没有占据图像的主要视觉空间,导致整体关联性得分较低。

这些评估结果表明,尽管存在一些挑战和不一致性,但所本方法在生成与产品相关联的图像方面具有潜力。未来的工作将需要更大规模的评估,以进一步探索和理解这些图像与在线流量模式的相关性。

论文链接:https://arxiv.org/abs/2403.05578

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明原文出处。如若内容造成侵权/违法违规/事实不符,请联系SD编程学习网:675289112@qq.com进行投诉反馈,一经查实,立即删除!