### **大数据分析与挖掘**
众所周知,在当今时代背景下,大数据分析与挖掘正越来越成为人们生产生活中必不可少的信息要素。从银行账户分析到电子病历查询,从电商平台流量实时监测到利用大数据平台存储各式各样的生产流程数据,从教育教学精准管理到防御网络攻击的国家安全行为,不难注意到,大数据在目前的应用范围之广阔,应用形式之宽泛,应用方式之多样。而我们作为新时代高校大数据研习者,理当对大数据的分析与挖掘有更为全面的认知理解。本心得综述将以当前时代大数据实际应用为背景,力图深入浅出的探究目前大数据的分析与挖掘应用流程。
根据当前数据科学知识应用理论体系,对于大数据这门学科,其基本内容主要为基于数学,统计学,计算机应用与科学等跨学科领域知识的综合性运用,以达到对于信息化数据进行统计与处理的目的。纵观当今数据科学基本模式,其运行方式可归纳为:数据采集,数据管理,数据治理,数据分析,数据可视化,数据伦理,数据应用等七个发面。下面本心得综述将对该七个方面进行简单的概括总结。
在大数据分析与挖掘的过程中,所谓数据采集,即借助相关的信息学技术手段,对相关数据进行收集;所谓数据管理,即对已收集到的数据存储在相应的介质中,并对其进行相应分层管理,维护;所谓数据治理,即对数据进行有效化组织处理,以此提升相应数据的质量;所谓数据分析,即对所收集到的数据进行详细的研究和总结概括,以此提炼有价值的数据信息;所谓数据可视化,即使用规范化图形图表等可视化手段进行数据展示,以此更加清晰明了的传递数据中所蕴含的信息价值;所谓数据伦理,即探究数据科学技术应用中可能带来的一系列伦理问题,诸如数据安全,数据隐私问题,大数据算法偏见,数字鸿沟问题等等;所谓数据应用,即数据科学在多方面(譬如金融,教育,健康医疗,电商,交通等领域)的跨领域跨学科应用。
值得钻研数据科学,从事大数据分析与挖掘的研学者注意的是,数据科学是一门交叉学科。大数据基于其规模性,多样性,高速性,真实性,价值性的5V特点,易于与其它跨领域学科相互结合。通常而言,大数据研习者通过计算机编程构想,编写相对复杂的机器算法程序,运用数学统计学知识对相应算法进行理论分析,价值评估以及改善优化,并将其投入相应的知识领域,以此发挥相应数据的实际价值。
在了解完大数据的基本应用模式,作为大数据专业的研习者,我们更当了解当今较为热门的大数据平台与大数据分析编程工具。当今为公司,企业以及个人提供大数据平台服务的相应品台较为广泛,比如美国的EQUIFAX,TransUnion,Experian等相应大数据数据采集,整理平台,以及FICO数据分析,建模平台。同时值得注意的是,编写大数据处理的主要程序语言为Python,Java,C,C++等。其中Python因为其简单明朗,可以移植性强,可扩展能力高,语言本身为高级语言等明显优势特点,在大数据编程语言中排名在今年内迅速上升,也是当今研习数据科学专业的学术界人才经常使用的编程工具。
下面,本心得综述将区分四个对于初学者来说容易混淆的概念:“大数据”,“机器学习”,“深度学习”,“人工智能”。其中,大数据指的是一系列整理,标准化数据的方法,诸如数据采集,数据清洗,数据分析以及数据应用中采取的理论知识,实际操作技术以及算法方法。机器学习是大数据分析中的核心内容,它是一种找到已经过规范化的数据X和目标结果Y之间相互关联性模型F的一种高级算法。值得注意的是,从原始数据到计算机可以识别,量化操作的数据X的过程一般都是由人工完成的,是一种基于不同数据采取不同策略的特征工程。深度学习是机器学习的重要组成部分,其核心是自动寻找到对特定任务有效的数据特征,也就是将原本由原始数据到X的人工步骤取代为机器步骤的相应计算机算法。而当今受到国家战略支持的“人工智能”,则是一种基于大数据理论指导的特定学科理论实现,具体来说,如果我们的任务Y是模拟人类行为(诸如自动驾驶,下围棋等),那么这类运用大数据实现的任务被叫做“人工智能”,而“深度学习”也是目前AI算法中的核心发展技术。四者相互配合,相互为完成特定的“从数据到行为”的任务提供理论指导。
综合以上对于大数据分析与挖掘的理论,不难发现,大数据对于人类型为的知道具有极高的知道价值。从近代德国开普勒对于行星数据的归纳总结,得出开普勒公式,到现代人们运用大数据与人工智能理论指导,成功研制出能超越人类实力的AlphaGo,从医学影像CT分析到新型药物研制,从皮肤癌的专家辅助诊断到位电商提供新的客户获取途径,从智能红绿灯的应用到潮汐车道的成功运行,从自动驾驶技术的部分实现到教育学工管理的数据体系化运营模式,从预测性执法数据理论到金融界的客户服务,可以说,大数据已经融入了我们生活中的方方面面,并且在未来将更加深入,更加透彻的影响到我们未来的生活。而我们,作为新时代大数据分析与挖掘的开拓者,理当对大数据应用与科学有更加深入,全面而透彻的理解,通过对大数据处理过程的自主学习,更加系统化的了解大数据的运行与实现机制。