大数据风控在金融科技中如何应用？难题何在？-切.格瓦拉：让我们面对现实，让我们忠于理想-财新网

一直以来，金融科技（FinTech）的发展常被划分为三个阶段：

第一阶段FinTech1.0是金融业内通过IT技术实现办公电子化；

第二阶段FinTech2.0是通过互联网实现金融业务中的资产端、交易端、支付端和资金端的互联互通；

第三阶段FinTech3.0是通过大数据、云计算、人工智能、区块链技术来解决传统金融的信息采集、风险定价模型、投资决策和信用中介等痛点。

由此可见，大数据风控作为金融科技FinTech3.0的重要落地场景，是大数据、云计算、人工智能等技术在金融行业风险控制领域的应用。这里的风控领域既包含了银行的信贷风险，也包含了保险业和投资业的各类风险，其中信贷领域的应用发展最为迅速，融资企业数量最多，各大金融机构也最为重视。

与传统银行风控模式相比，大数据风控所需数据量更大，数据时效性更强、数据维度更多、数据处理更快。为了应对这些问题，需要应用的新技术包括大数据采集和处理、机器学习、生物特征识别、自然语言处理、用户画像等，其应用的场景也涵盖了贷前准入、贷中审批和贷后管理几个方面。

一、大数据采集和处理

大数据采集和处理是大数据风控实施的前提，金融机构可以获取的数据维度不涵盖了海量互联网数据、信用数据、合作数据、企业数据和历史数据，通过大数据处理技术把非机构化数据转换成结构化数据，进行清洗、抽取和转换，以便于在此基础上进行数据分析和各类新技术运用。信贷场景面临最大的一个难题是技术门槛较高，一方面需要具有分布式计算集群的架设经验，另一方面也需要在分布式平台上各类数据处理和分析工具的使用经验。第二个难题就是数据难以获取，以及获取数据的质量和合法性问题。

二、机器学习

首先是新算法应用。通过将各类新型的机器学习算法应用到信贷场景，一方面无监督算法可以监测异常交易，控制欺诈风险和信用风险；另一方面有监督算法构建和探索输入变量和目标变量之间线性或非线性的关系，对客户进行分类，以便于实施差异化风险策略。其次是在线学习。针对欺诈监测实时性较强的特点，在线学习技术次是在线学习。针对欺诈监测实时性较强的特点，在线学习技术通过对数据实时训练，预测欺诈概率。随着机器学习技术的发展，在线学习技术能够监测识别出更加复杂的欺诈行为。最后是模型自主迭代。随着数据维度的日益丰富，金融机构更加倾向于运用多级模型和策略进行信贷风控智能化。这时，一旦输入变量发生变化，就会影响到模型结果。模型自主迭代技术可以在保证模型输出稳健性的同时，根据输入数据变化调整模型参数，该过程不需要过多人工干预，极大提升了效率。该技术直接的应用就是自动决策引擎，以数据化、智能化驱动自动审批。这方面最大的问题就是决策过程过于复杂，使得解释性较差。同时，过于智能化的流程设计使得该类方法的稳定性和泛化性较差，需要快速迭代。

三、生物特征识别

近年来，生物特征识别被广泛应用到信贷审批流程中，尤其是人脸识别、指纹识别、声纹识别、虹膜识别等。从金融行业的应用来看，指纹识别应用最广，超过了市场份额的一半。生物特征识别应用的场景包括：远程开户、身份核验、放款确认等。这方面技术性难题相对较少，更多的是数据隐私和数据安全问题。

四、自然语言处理

自然语言处理包括语音识别和文字识别，与生物特征识别相比，自然语言处理更进一步，具备了理解语言的能力。通过挖掘语音信息、文本转换后的语义信息，可以辅助客服人员监测客户情绪；与机器学习结合，可以在某种程度上替代人工客服，提供智能语音机器人服务。这方面最大问题是语言和环境的复杂性，人类思维的跳跃性和语言的模糊性会增加语义识别的难度，进而造成错误的决策。

五、用户画像

用户画像技术建立在海量数据维度的基础上，根据用户社会属性、生活习惯和消费行为抽象出标签化的用户模型。对于金融机构来说，用户画像可以帮助企业从业务角度分析客户，了解用户特征，控制用户风险。用户画像技术通常与聚类算法结合使用，通过系统的梳理用户群体，分析恶意用户的行为特征，采取针对性的风控规则。这方面最大问题是用户标签的准确性，以及与关联风控规则之间的稳定性。

文章来源：悟空问答（2018年9月28日）

话题：