上个星期,我有幸听了Georgia State University副教授Sean Cao的讲座,关于数据科学在金融中的应用。
在大数据时代,利用数据的方法应用于各种领域十分有效且重要。对于紧跟时代潮流的经济,管理和金融而言,它更是不可或缺。自上大学以来,我一直对数据科学在金融、经济和管理中的应用很感兴趣。之前听过胡详培教授关于“区块链与数智管理”的讲座。通过教授生动的讲解,感受了区块链与数智管理的魅力。
而这次的讲座,主讲人通过深入浅出的方法给我们介绍了数据科学在金融中的应用,让我对Fintech有所了解,更是用一个有趣的例子让我了解了数据科学在金融中的应用方法。
主讲人首先给我们介绍了Fintech的总体情况。研究者可以根据公司披露的非结构数据,例如公司政策,开会内容,年终报表等信息,利用数据科学进行分析,然后进行预测,以达到获利目标。举几个Fintech的例子,如蚂蚁金融,它可以进行用户定位,如分析用户的历史数据、消费行为、信贷行为等来进行公司决策;保险公司可以通过分析历史数据,用户信息,来搭建模型,减少骗保事件的发生;银行可以通过应用数据科学,进行利息定价,来实现风险管理,保证资金安全。
主讲人接着给我们展示了他的团队做的一个有意思的互联网金融项目——运用数据科学对股票分析师进行分析,分析其历史定位从而分析他的可信权重,最后通过股票分析师们的可信权重做出股价预测。众所周知,股票市场里面有一种角色,为股票分析师。股票分析师根据公司的各种信息和市场状况等条件预测股价。对于股民来说,一般看股票分析师们预测出来的股价均值,但由于人的复杂性,人在做决策时总会夹杂着其他情感,每位不同的股票分析师的可信程度不一样。所以他们团队构建模型来进行股票分析师的可信权重,再进行股价推测,做出决策。一般而言,股票分析师过去的信息是比较清晰明确的(如他们的学历,以前分析股价的数据等),并且可以观察他们决策的正确度,所以利用股票分析师作为数据来源是比较靠谱的。
经过多种尝试,主讲人的团队发现CNN为最好的模型,所以他们选择CNN为模型。在一般建模中,利用CNN模型,然后对信息进行降维,再进行局部扫描,分析变量之间的关系,拿到想要的关系。但是在此次建模中,很难进行关系局部化,因为利用卷积神经网络是需要有顺序的,但这次是分析人的特征,人的特征是无顺序的,所以人的特征需要人工排序。这个时候,便需要专业的商科知识来进行排序了。由此可见,专业领域知识在数据科学的应用中很重要的。对于这个问题的解决方法,主讲人的团队利用聚类,把十个变量聚类为四组,穷举了二十四组,再进行局部,最终形成最优化排序。检验方法是算精准度,看最高的精准度,然后发现交层无意义时,可判定聚类为对的。最后模型可说明在什么时候,哪家公司,谁的可信度高。主讲人团队利用十二个季度的数据进行训练模型,利用四个季度的数据检查模型,并且通过设置随机化来保证精准度过渡到预测阶段。最后,这个模型通过金融机构(大资本与重复买进卖出的时间成本)组合买股可以实现百分之九十的正确度。
这个模型也有一定短板,机器对无形化信息难以理解,比如专利,广告,领导力等。
这个模型的现实意义不仅于此,以后还可能通过分析人的复杂性,以对民调机构进行可信预测。这个模型的思想还可以应用于许多类似的场景。