# 《大数据分析与数据挖掘》专题讲座学习心得
在当今科学与技术高速发展的时代背景下,大数据分析与挖掘也越来越多地应用在我们的生活当中。但是凡事皆有两面性。在一方面,大数据分析与挖掘使我们的生活更加便利。从文字识别到精准推送,从鉴定红酒到鉴别欺诈交易,从预测流感到判断肿瘤,我们似乎在每个领域见到数据分析与挖掘的身影。由此可见,数据分析与挖掘在现实中的应用领域十分广泛,并且随着该项技术的不断进步,其在应用中的深度也将不断提高,从而实现更快速,更精确地得到结果。但数据分析与挖掘也存在着一定的弊端,即公民的隐私权难以得到保护。例如上文中提到的精准推送,实质上正是一些公司通过收集并分析用户的行为来做到的。这在为用户带来便利的同时,也会带给用户一种隐私被泄露的感觉,即自己的一举一动都被屏幕后的另一个人监视着。依我之见,国家也应当继续出台数据隐私保护相关领域的法律,加大保护公民隐私权的力度。
“数据挖掘”和“数据分析”常常被同时提起,而实际上它们二者是可以相互替代的术语。关于数据挖掘,已有多种文字不同但含义接近的定义,例如“识别出巨量数据中有效的.新颖的、潜在有用的最终可理解的模式的非平凡过程”,无论是数据分析还是数据挖掘,都是帮助人们收集、分析数据,使之成为信息,并做出判断,因此可以将这两项合称为数据分析与挖掘。再说回到数据分析与挖掘本身。数据分析与挖掘实质上是数据科学的基本内容之一,是基于某个目的,对数据进行详细研究和概括总结,从而提炼有价值信息的过程。其主要技术有探索性数据分析与机器学习。其中探索性数据分析是指探索数据的结构和规律以及数据间关系的数据分析技术,其主要内容有数据的集中趋势分析,离散趋势分析,分布情况分析,及相关性分析等。通过探索性数据分析,我们可以对数据的结构、规律、相互关系有着更加清晰的认识,从而为后续更好地利用数据打下良好的基础。而机器学习则是利用数据训练模型从而获取知识或信息的数据分析技术,它专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。通过机器学习,我们可以通过其提供的统计分析、知识发现等手段分析海量数据,同时利用数据存取机制实现数据的高效读写。机器学习在数据分析与挖掘领域中也拥有无可取代的地位,2012年Hadoop进军机器学习领域就是一个很好的例子。
通过在《大数据分析与挖掘》讲座中的学习,我对数据分析与数据挖掘有了更加全面且深入地理解,同时也提高了学习大数据课程的动力与热情。作为新时代中数据科学学科的学习者,我们也应当增加自己对数据分析的学习的广度与深度,熟练掌握大数据相关技术,从而为未来从事大数据行业打下夯实的基础。