机器学习和大数据在会计与选股中的应用-切.格瓦拉：让我们面对现实，让我们忠于理想-财新网

本文节选自巴曙松教授发起的“连线华尔街”第115期内部会议纪要。

主持：巴曙松

主讲：罗崟（沃尔夫投资银行副董事长）

今天演讲的主题是大数据和机器学习在会计财务质量和选股模型中的应用。演讲的内容主要是基于《Quant CSI》这篇研究报告，第一部分讲做大数据和机器学习的动机；第二部分介绍如何将大数据和机器学习应用到公司财务质量和股权投资之中。

一、为什么做大数据和机器学习

十年前即使在欧美，大数据和机器学习的应用也是很有限的，但这两年大数据、人工智能、机器学习逐渐成为非常流行的趋势。十几年前我们做机器学习的时候，市场上几乎没有人感兴趣，因为当时市场认为数据挖掘是比机器学习和人工智能更好的方式。量化投资三十年的历史，从媒体报道的角度，2007年夏天可能对量化投资和分析来说是第一个危机时期，七月份和八月份前两周，传统的价值投资和量化投资都损失了5%-10%，这在媒体中是一个为人熟知的量化危机。在行业内来说，2009年3月至5月和2007年相比，损失大概是后者的5-10倍，其实在欧美市场，2009年的损失是要远远高于2007年的。

就传统的因子模型来说，尤其是在如美国和日本等比较发达的市场中，其收益率在不断降低接近于零（图1）。蓝色柱形是传统因子投资策略在上世纪80年代到90年代的平均收益，红色柱形是2000-2007年，绿色柱形是从2008年到现在平均的收益。可以看到在日本和美国市场最近十年的收益接近于零。在欧洲市场收益大概下降了一半，在亚洲市场下降了三分之一左右。

因子间相关性（Factor Correlation）上升和下行风险（Downside Risk）的增强对传统因子投资造成了挑战。因子间的平均相关性在不同的时期、不同的国家和地区不会是完全一样的。将全球市场分成美国、加拿大、日本、英国、澳大利亚等九个区域，可以看到从80年代到90年代，2000-2007年，2008年至现在，对动量投资（price momentum）和低风险投资（low risk）而言，地区间的相关性上升现象尤为显著，从30%上升了到60%左右，但同样的现象也能在成长型投资（value）、盈利预测因子（earning revision）上观测到（图2）。下行风险（downside risks）在美国市场更加严重，但在其他市场也是一样（图3）。

风险追逐（risk-on）和风险规避（risk-off）市场情绪的影响。现在的市场中，尤其在2008年以后，市场上的风险追逐和风险规避情绪呈周期性变动，对于选股模型来说，无论是对基本面分析还是量化分析，情况都变得更为复杂。对量化投资来说，风险追逐其实比风险规避更具有挑战性，在风险追逐情绪中，投资人对市场更加乐观，倾向于买进风险资产，而量化投资总体来说是买高质量、高价格动能、低风险因子的资产，会在风险追逐情绪中遇到更多困难。在风险追逐（risk-on）和风险规避（risk-off）两种情绪下因子的波动率，可以看到在风险追逐情绪中，所有因子的波动率都要比风险规避时高（图4）。

对传统分析方式和量化投资的第三个挑战，是预测因子与股票收益的非线性关系越来越强。从价格动量与股票平均年收益率的关系，根据价格动量将美国市场的股票分成五组，第一组价格动量最弱，第五组价格动量最强。80年代到90年代，可以看到是一个拟合度很高的线性关系，价格动量强，则股票收率高；2000-2007年，二者已经不再符合线性模型了，但还保持着价格动量强股票收益率高的大致趋势；从2008-2015年则可以看到，线性关系发生了很大变化，价格动量最弱和最强的收益率都很低，而处于中间位置的收益率较高；到2016年，之前的线性关系完全反转，价格动量最弱的股票收益率最高，而价格动量最强的股票收益率最低（图5）。

这不仅仅在美国市场，在其他很多市场上我们也越来越能观察到这种现象。比如日本市场的盈利预测因子与收益率的关系。在80年代到90年代，呈现出明显的线性关系；到了2000-2007年，二者不再为线性关系；2008年以后呈现为U型曲线，非线性关系越来越强（图6）。

总结以上三点，传统的投资方式，无论是与公司管理层的交流还是传统因子投资分析，在高度发达的市场上不再很好地发挥作用了，这就是为什么要做大数据和机器学习。

因此，投资理念发生了根本性转变。做投资主要有三种模式，第一种模式是金融理论指导应该如何做。首先建立假设，假设某种投资方式，比如说如果一家公司财务质量很高而市场没有意识到这一点，那么股票可能会有高收益率，比如理论认为现金流比利润更可靠，那么如果一家公司现金流状况比其他公司好，财务质量就高，否则就低。于是收集数据，接着建立模型，进行样本内数据和样本外数据的检验，观察样本外数据结果是否与假设矛盾，如果与最开始的假设一致，就发表这一研究成果。这是根据传统的金融理论进行投资。但是实际操作中很少有人这么做，几乎所有人采用的都是第二种模式。这种模式也建立假设，收集数据，定义样本内和样本外数据，并做检验，如果模型不奏效，结果与最初的假设不一致，几乎没有人会推翻假设，而是会一遍又一遍的修改模型，变换样本数据和研究方法，直到得到理想的结果再得出研究报告。而在第三种模式机器学习中，我们训练机器和电脑，使其能够执行投资方法。实际上，更应该鼓励机器学习的发展。在机器学习中，选择模型时没有说哪个金融理论比另一个更好，所有因素都是由实证决定的。更重要的是要确保得到的结果满足理想的迭代过程，如果不满足，就再回到抽样步骤。机器学习中有专门的设计来解决结果的波动问题，这一点与传统的投资方法差异很大。

二、怎样运用大数据和机器学习预测公司财务质量和股票投资

这一部分讲怎样运用大数据和机器学习来预测公司财务质量和进行股票投资，它比传统的投资方法为什么更好。但在此之前，我会介绍传统的利用财务质量进行分析和投资的方法。如何确定公司的财务质量，怎么知道管理层在披露会计信息的时候是诚实的？在当下的环境中，越是想要量化财务质量，就越需要收集大量的数据。

1、传统财务质量分析方法——The Accruals Anomaly

财务分析的基准模型，即Sloan教授提出的应计异象，是Sloan教授在1996年发表的文章。应计项目并不是真的确认了收入，没有现金流入；而在需要支付费用时，又没有现金流出，因此可以判断哪家公司的现金流情况和经营情况更好。Sloan对盈余组成部分中的应计项目、现金流量的持续性及定价进行检验，发现应计项目持续性低于现金流量持续性，美国市场高估应计项目、低估现金流量，采用买入低应计公司、卖出高应计公司的投资组合，可获得超额收益。公司管理层的目标是创造净收入，不能控制现金流，但是可以通过控制应计项目控制净利润。

从目前有多种方式定义权责因子，其中最简单也是最流行的方法是测算加回折旧后的净利润与经营现金流量的差异。Sloan权责因子在美国市场的年回报率，按照财务质量将公司分为十个层级，Q1是财务质量最好的一类公司，Q10是财务质量最差的一类公司，可以看到最好与最差公司之间回报率的差异可以达到接近9%（图7）。

从时间上来看，2009年以前的大部分时间，收益率都比较稳定，但是过去几年中，这种稳定的表现消失了（图8）。注意Sloan的论文发表于1996年（在那之前以working paper的形式已公开数年），论文发表之前，这个权责因子的表现非常强，论文发表后10到15年依然表现不错，但在那之后则不能获得稳定的收益。如同第一部分的分析，市场渐渐呈现出非线性的模式，传统线性模型的收益逐渐消失。市场不见得是完全有效，尽管确实是在逐渐变得更加有效。

2、数值分布特征——the Benford’s Law

本福特定律（Benford's law），是一个关于数值型数据概率分布的数学定理，与金融本来没有任何关系，主要应用于自然科学领域，我们希望在金融领域运用这一定理。从美国公司中雇员数量的分布图，如果只看雇员总数的第一位数字（比如1000个雇员的第一位数字是“1”,900个雇员的第一位数字是“9”），这张图描述了雇员总数的第一位数字的分布。大多数人可能认为，第一位数字出现的概率应该是相同的，但现实却非常不同，数据1出现的频率要远远高于2，2出现的频率要远远高于3，这样的频率递减到9。同样的现象在中国、日本以及几乎所有国家的数据中也可以观察到。对于几乎所有的会计项目，如销售额、销货成本、总资产、经营现金流量等，它们几乎完美地符合这一定律（图9）。

既然许多公司的数字的分布符合本福特定律，那么会计项目不符合这一定律的公司可能存在会计质量问题。下面给出一个具体的例子，这是一个公司的资产负债表，现金资产是210000美元，则它的第一位数字是2，统计每一个会计科目的第一个数字，计算每一个数字出现的频率分布，可以看到这个公司的会计信息很好得符合了本福特定律，大多数公司都符合这一定律，不符合的公司则可能存在某些会计质量问题（图10）。

下面是两个具体的例子，迪士尼公司和曾爆发会计问题的安然公司。一般而言，多数公司是能够非常好得符合本福特定律，但安然公司却很不符合。安然公司的问题是公司管理层曾操纵财务造假，使他们的债务数字看起来比真实情况好很多。将安然公司的数字分布与本福特定律的分布作对比可以发现，高位数字如8和9占比较高，而低位数字2、3、4、5则占比较低，因此安然公司财务造假的可能性要比迪士尼公司高（图11）。

如果把所有公司的会计信息都使用这种规则计算一下，发现美国市场中95%的公司符合这一定律，只有5%不符合，不符合的公司股票的表现要远远差于其他公司。将这一方法应用到全球，会发现相似的规律（图12）。图中红线表示不符合本福特定律的公司，绿色表示其他公司，会发现不管在哪个区域，红线公司的表现都要弱于绿线，其中亚洲市场中符合定律的公司表现尤为突出。也就是说，潜在会计信息质量符合本福特定律这个因素贡献了超过50%的公司市场表现。我们在参考文件中提供了更加深入的内容，比如目前主要使用的是资产负债表、利润表和现金流量表中的一种来衡量，在文件中我们考虑了使用哪一种或者多种财务报表是更好的选择。值得注意的是，相比较资产负债表，多数企业难以操纵现金流量表。

3、大数据：logit vs machine learning techniques

首先要介绍一个大数据公司Audit Analytics（简称AA），很多投资人可能不是特别的熟悉，这个公司已经成立超过10年了，他们的服务对象主要是会计师和律师，在投资领域并没有很多人知道这家公司。拥有其他人并不了解的数据供应商，这对我们来说是一件好事。

这家公司提供许多种数据集合，比如审计意见、审计员的变动、审计员佣金、审计的程序等，我们主要关注一个特别的元素，财务重述（Financial Restatement）。可以从多个来源获得企业财务重述的数据，但是时间和准确性可能存在差异。AA公司提供的数据是文字型的而非数值型的，所以实际在使用过程中，应该更加注意数据处理和解释，而非仅把数据放在一起做回归。AA公司提供一些高质量的细节，例如可以看到财务重述中的审计师来源分布，按来源分类的财务重述种类，在美国市场上的来源可以是10-K、8-K、10-Q等文件，其中最重要的来源是8-K文件。按照多种不同标准分类的财务重述，例如按原因将财务重述分为三类，第一类是由于财务欺诈、违规和虚假陈述，这是最主要的类型，反映了企业内部控制的问题。

有很多种投资方式来处理财务重述，最简单的方式是一种经典的事件研究法，基于公司事件发生的交易策略，具体而言，当某些重要的公司事件发生，投资者不会立刻对每一条信息作出反应，他们会有所滞后，或者说他们对于新消息存在滞后反应。一个非常简单的事件研究，把财务重述事件按照影响的正面和负面分类，但实际上正面与负面并不重要，其实二者存在很大的相似性，都会造成公司股价表现不佳。中间的竖线是事件发生期（event date），将该时点的收益率标准化为0。在事件发生2到3个月后，公司的股票价格将普遍表现不佳，但财务重述正面的公司股价下行程度较小。所以基于这种公司财务重述事件的卖空交易策略可能盈利，但这种策略存在一个问题，这种交易方式的样本非常少，实际上在某一给定时点很少有公司进行财务重述，所以没有很多交易机会，更为重要的是，这种交易策略会错失股价在事件发生前以及事件发生时的走低。事实上，在事件发生前的3个月，股价已经开始下行（图13）。

公司发生财务重述的一个主要原因是存在财务欺诈、违规和虚假陈述，说明其会计信息质量较差，所以我们考虑能否做出一个模型来预测公司的财务质量。从会计信息的角度看，一个宣布财务重述的公司往往财务质量较差，交易量较低，杠杆率较高，股价更高，信用状况较差，公司规模较小以及股价波动性更强（图14）。但是我们并非只使用这些传统的指标来做预测，这还是一种线性模型，在逐渐有效的市场上可能不会那么有用。

预测财务重述最常用的模型，是做一个logit模型或者说logit回归，因为要预测的是一个二值变量（公司在接下来的几天或一个月是否会财务重述）。其中最大的难题在于，预测的是一个非常罕见的事件（rare event），只有不超过1%的公司会发生重要的财务重述事件，因此预测这类事件的模型与预测公司发生并购或者破产事件的模型比较相似。如果是预测哪些公司不会发生财务重述，那会有99%以上的高成功率，但那样做并没有意义，因为需要预测的是哪些公司会发生财务重述。传统的计量方法告诉我们，如果要预测一件罕见的事件，应该使用match sample，对于每一个发生事件的公司，需要选择另一同行业样本公司，没有发生事件但有着类似的估值和规模。

我们给出了模型中更有可能预测财务重述事件的因素，其中预测性最强的因素是应计项占比，该项越低则越有可能存在会计质量问题，另外较快的债务增速、过多的无形资产同样可能降低会计质量甚至存在财务造假，比如一个企业有着较高的账面市值比但同时有较低的有形资产账面市值比（过多的无形资产），或者一个企业有较高的每股资产增速同时有较低的总资产增速（现实中不造假是难以实现的）（图15）。

传统的模型可以用来预测会计质量问题，但总体仍是难度较大，因为模型的样本中，需要较多（如40或50个）发生财务重述事件的公司以及同样数量的没有发生财务重述的公司，而现实中只有1%的公司会发生财务重述，对于这种高度不均衡的样本，要想使用传统模型预测就存在很大困难。下图中，Q1表示所有公司中重述概率最高的10%，也就是表现最差的公司，平均年化收益率最低，仅为为3.71%，表现较好的公司平均年化收益率在11%-12%。重述概率最高的10%的公司波动率最高，达到29.2%（图16）。同时，高重述风险的公司表现明显差于其他公司（图17）。

从以上结果可以看出，传统的模型表现尚可，从一定程度上可以说明问题，但是难度比较大。高重述风险的公司表现明显较差、收益较低、波动较大。其报酬形态呈现非线性。此外我们也做过很多类似的研究，比如说预测公司的并购交易等，总体来说，传统模型预测相对比较困难。

总体来说，对于罕见事件预测，机器学习模型预测表现比传统模型好很多倍。这个模型是我们自己的模型，叫做TS-Boosting（Time Series Boosting）算法。用TS-Boosting机器学习算法代替传统整体或Logit模型对重述风险进行预测，在模型预测结果方面有很大的改进。Boosting与传统的方法有很大不同，传统方法是做回归分析；boosting 模型是一步一步向上做。机器学习模型和传统的Logit回归模型在因子选择上类似，但在预测结果识别方面差异很大。TS-Boosting算法下的非线性分类树模型比简单的Logit模型表现效果更加突出。

TS-Boosting模型和传统Logit模型选择因子方面大多数是相同的，但是在两者在建模方式上差别很大。Q1表示的公司的平均年化收益率最低，为-0.05%，并且随着重述概率的降低，年化回报率逐级上升。而重述概率最高的10%的公司波动率最高，达到26.10%，并且随着重述风险降低而逐级降低。该模型结果表现出更加明显的阶梯性，而且Q1的年化回报率降低非常明显，仅为-0.05%（图18）。结果表明机器学习模型效果是传统模型的3倍左右，而且传统模型我们还加入了Bagging算法，如果不加Bagging算法，机器学习的表现可能是传统模型4到5倍。

另外一种潜在的研究方法是在模型中使用更多的非常规因子作为输入变量。非常规因子很难被复制因此很少受到套利影响。我们使用大约250个非传统因子，把研究领域扩展到全球重新运行了机器学习模型。有意思的是，我们发现在模型中使用更多非常规因子后，模型表现效果得到非常大的改善。而且我们的机器学习算法在更高维度的问题上依然稳健。我们到目前所说模型仅使用了美国数据和一些其他地区的数据，在会计和管理环境不同的国家和地区，我们预期可以发现一些具有地区特色的模型，其表现应该要比以美国为中心的模型更加出色。例如在语言方面，在澳洲市场、加纳市场、英国市场、美国市场上，英语几乎是唯一的语言，该模型表现特别出色；在欧洲市场，虽然英语不是唯一的语言，但也是非常重要的语言，该模型表现也比较好；而在东欧国家、俄罗斯、非洲市场，英语并非重要语言，该模型表现并不好（图19）。

问答环节

Q1：您在最后提到了模型使用了250个非常规因子（unconventional factors），能否举一些比较明显的例子？

A1：我们定义的传统因子主要是用公司的财务数据或市场数据来做的，非传统因子主要是除了财务数据和市场数据以外的任何因子。比较明显的例子比如说使用空头净额（short interest）、持仓（holding）。这种非常规数据也是我们主要研究的前沿和方向。

Q2：您刚才讲的会计数据会服从Benford’s Law，那对于股票的收益率（returns）和持仓数据（holding）是否也服从Benford’s Law？

A2：我们测试过很多种数据，包括股票交易等都很好的遵循Benford’s Law。我们也用高频交易的数据来寻找市场规律，那篇文章还没有发表。对于大多数的数据，都会很好的遵循Benford’s Law。

主讲人简介

罗崟先生目前在华尔街独立投资银行沃尔夫（Wolfe Research）担任董事会副董事长，负责量化投资，宏观经济和投资策略，以及全球股票交易业务。在2016年6月之前，罗崟在德意志银行担任董事总经理，负责全球量化及宏观策略（执委会成员）。罗崟和他的团队连年在全球最为权威的美国、欧洲和亚洲的《机构投资人》杂志的卖方研究员的量化投资、投资策略、会计与税务研究行业中名列前茅。罗崟本科毕业于中国人民大学投资经济系，在加拿大多伦多大学获得MBA，现兼任人民大学汉青经济与金融学院兼职教授。罗崟是特许金融分析师（CFA）美国注册会计师（CPA）。

话题：