郭建与沉向阳
传统的量化投资研究面临着回报递减以及劳动力和时间成本上升的问题。 为了克服这些挑战,我们引入了大型投资模型(LIM),这是一种新颖的研究范式,旨在大规模提高绩效和效率。 LIM 采用端到端学习和通用建模来创建上游基础模型,能够从跨越多个交易所、工具和频率的各种金融数据中自主学习综合信号模式。 这些“全局模式”随后被转移到下游策略建模,优化特定任务的性能。 我们详细介绍了 LIM 的系统架构设计,解决了该方法固有的技术挑战,并概述了未来研究的潜在方向。 LIM 的优势通过一系列商品期货交易跨仪器预测的数值实验得到了证明,并利用了股票市场的见解
郭建IDEA研究
郭建现任国际数字经济研究院(IDEA)执行院长、人工智能金融与深度学习首席科学家。 他还是香港科技大学(广州)人工智能兼职教授、上海交通大学上海高级金融学院(SAIF)附属教授以及清华大学实践教授。 郭博士获得学士学位。 清华大学数学博士,并获博士学位。密歇根大学统计学博士。 自 2011 年起,他开始在哈佛大学担任教授(终身教授)。
沉向阳是国际数字经济学院(IDEA)创会主席,也是香港科技大学校董会主席。 美国国家工程院外籍院士、英国皇家工程院国际院士、ACM Fellow、IEEE Fellow。 2020 年 3 月之前,他担任微软公司执行副总裁,负责人工智能和研究。 沉博士获得博士学位。卡内基梅隆大学计算机科学学院机器人学博士学位。
1
1 简介 1
2.1 量化策略。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2.2 定量建模中的数据多样性。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.3 多因素定量建模。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
3 大型投资模式 4
3.1 LIM 的端到端建模。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 3.2 LIM 通用建模。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
4.1 问题表述。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 4.2 建模原理。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 4.3 基础模型设计。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
5.1 数据对齐和标准化。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 5.2 模型微调。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 5.3 各种类型的下游任务。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
6.1 计算和数据基础设施。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 6.2 基础模型系统。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 6.3 自动化策略建模。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 6.4 代理系统。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 6.5 交易系统。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
7 未来的研究方向 13
8 讨论与结论 14
2
∗
传统的量化投资研究面临着回报递减以及劳动力和时间成本上升的问题。 为了克服这些挑战,我们引入了大型投资模型(LIM),这是一种新颖的研究范式,旨在大规模提高绩效和效率。 LIM 采用端到端学习和通用建模来创建上游基础模型,能够从跨越多个交易所、工具和频率的各种金融数据中自主学习综合信号模式。 这些“全局模式”随后被转移到下游策略建模,优化特定任务的性能。 我们详细介绍了 LIM 的系统架构设计,解决了该方法固有的技术挑战,并概述了未来研究的潜在方向。 LIM 的优势通过一系列商品期货交易跨仪器预测的数值实验得到了证明,并利用了股票市场的见解。
关键词:通用人工智能 端到端大额投资模型 量化投资基础模型 多模态大语言模型
造型。 与通过研究管道逐步构建交易策略的多因素建模不同,端到端建模旨在直接生成最终交易策略,绕过因子挖掘等中间步骤,并生成预测阿尔法、最佳头寸甚至算法交易订单。 这种方法有可能消除劳动密集型的要素挖掘过程,并显着提高定量研究的效率。 其次,从传统的特定任务建模到通用建模的转变,类似于“预训练基础模型大型语言模型中常用的“微调任务模型”方法,在量化投资中日益凸显。 基础模型通常是在广泛且多样化的数据集(例如跨越不同国家、证券市场和交易资产的数据)上训练的通用模型,可以进行微调以优化特定的交易策略。 通过结合端到端建模和通用建模的优势,我们提出了大型投资模型(LIM),这是一种新颖的量化投资研究方法论框架。 图 1 说明了多因素建模、端到端建模和通用建模之间的区别。
量化投资(Quant)涉及由数学、统计或机器学习模型驱动的金融投资策略,它使用强大的计算机以人类交易者无法达到的速度和频率执行源自量化模型的交易指令。 特别是,深度学习技术广泛应用于量化建模,例如股票/期货趋势预测[1,2,3,4],选股[5,6,7],投资组合优化[8,9,10,11] , 12] 和算法交易 [13, 14, 15, 16, 17]。
传统的定量研究范式充满了一些局限性。 首先,它坚持包括数据处理、因子挖掘、机器学习、投资组合优化和算法交易在内的综合管道。 这些步骤中的每一个都需要大量的研究资源,包括大量的劳动力和大量的时间来识别有效的“阿尔法”。此外,这些管道阶段的优化目标通常缺乏一致性,导致最终交易策略的结果不理想。 此外,传统的特定任务定量建模严重依赖于预定义的场景、策略任务和相关数据,因此很难将这些模型直接转移到其他策略任务中。 这种对“本地”数据的依赖不仅限制了模型的潜力,而且还加剧了研究成本,因为宽客被迫为每种策略开发独特的模型。