数据科学是什么?
数据科学指的是围绕数据展开的探索性活动,本质上是以数据为基础探求事物规律的学问,它涉及两大核心内容,一是借助数据探索科学问题,二是运用科学手段分析数据特征。这项工作的宗旨是从海量信息中挖掘出关键要素,进而转化为实用成果,它融合了众多学科的理论方法,涵盖应用数学,统计学,图像分析,智能算法,信息图形,信息管理,以及计算优化等关键技术。
数据科学在众多行业领域发挥着作用,包括医疗健康和公共事务,工程技术,司法系统,学术研究,艺术设计,企业运营,宏观经济,以及社会管理等方面,并且将对这些行业领域产生深远的影响,推动其发生根本性的变化和进步。
数据科学的由来
数据科学现阶段尚属较新领域,回溯其演进历程,可见其历史仅四十载,而迅猛发展时期不过十年上下。
1974年彼得诺尔发表文章首次提出“数据学”和“数据科学”的概念,他提出“数据学”是计算机科学的一个分支,其研究内容是数码化的数据。
1996年,在日本神户举办的某次国际会议中,首次正式在该场合提及“数据科学”这一术语。1997年,杰夫-吴(来自密西根大学)在其发言里阐述了“统计学即数据科学”的观点,并提议将统计学更名为数据科学,同时将统计学家改称为数据科学家。
2001年,威廉-克里富兰首次提出将数据科学作为一个独立的研究领域来对待。他主张应该从统计学中,选取那些与数据分析密切相关的技术层面,并且要和概率理论加以区分,在此基础上进行拓展。拓展的方向包括六个方面,具体如下:
(1) 多学科的联合研究 ( )
数据架构和解析技巧,同样针对资料
(3) 数据计算 ( with Data)
(4) 数据科学教程 ()
(5) 工具评估 (Tool )
(6) 理论 ()
2002年国际科学委员会确立“数据科学”这一术语,并设立了《数据科学杂志》。2003年哥伦比亚大学发行了《数据科学杂志》,为数据从业者构建了互动渠道。
2007年2月,美国北卡罗来纳州立大学设立了高级数据分析研究院,也就是IAA,这是该州立大学的简称。该研究院成为全美首个能够正式授予数据分析硕士研究生学位的单位,同时它还研发了广为人知的决策支持大型集成信息系统SAS。
二零一二年三月,时任美国总统奥巴马宣告启动“大数据研究与开发计划”,这标志着数据科学迅猛发展时期的来临。
数据科学在我国的发展历史则更为短暂。
当前正处在海量信息发展的阶段,社会各界对于掌握海量信息分析能力的人才需求量极大,国内众多高等学府也积极顺应这一趋势。在2014至2015年这段时期,一些国内享有盛誉的高校率先通过成立专门研究机构的方式,从校内其他优势学科或关联学科中挑选研究人员与学生,着手研究和规划数据科学领域未来的发展方向。清华大学最先设立了研究院,接着西南交通大学,随后贵州大学,北京大学,中国人民大学等七所高校也依次建立了。
高等院校自身对于数据科学这一学科领域开展深入钻研的同时,众多网络公司也对数据科学领域的人才培养提供了诸多方面的帮助。二零一五年六月十五日,国内知名云计算服务提供商阿里云与慧科教育集团联手,发起了阿里云大学合作项目,即AUCP,该计划旨在与高校合作开设云计算及数据科学的专业方向。阿里云借助校企合作模式,在AUCP项目里投入了云服务能力,数据挖掘技术,技术人才以及行业生态伙伴等支持,旨在培育新一代数据分析师。随着互联网公司持续钻研与尝试,数据科学逐渐演变为一个独立的学科方向,社会各界对该领域专业人员的渴求日益增长。
哪些人适合学数据科学专业?
该领域的基本规范主要涉及对信息的认知程度,思维过程的条理性,对行业背景的把握深度,以及若干专门知识的具备情况。
数据意识方面:
从事数据分析工作首先需要不反感数字,倘若对于指标的具体计算方法,比如乘除加减的推导过程感到厌烦,那么他显然不适合这个领域。如果对数据比较敏感,能够迅速察觉异常数据点,了解数据的分布特征,这会是相当有利的。
逻辑性方面:
尝试解答一些传统的逻辑问题,观察能否成功,以及所需时间;逻辑思考对于数据研究极为关键,否则容易陷入各类数据指标的界定规范以及与业务关联的困境之中,逻辑能力强的人编写SQL等数据操作程序也会更为得心应手。
业务理解能力:
分析成果的最终目的,通常不是由分析师直接负责规划或执行,因此必须条理分明、逻辑严谨地阐述,以便业务部门理解分析的价值,进而促使他们采纳基于数据得出的见解。比如如何明确网站的核心宗旨,哪些数据能够当作关键绩效指标,用户从访问网站到达成预定效果的具体路径是怎样的,能否绘制出类似业务运作步骤的示意图等等。倘若侧重技术层面,则需掌握数据库的构成以及SQL语言,若是偏向视觉呈现,则要检验对数据图形的运用水平,何时选用何种图形最为恰当,甚至要懂得如何进行色彩搭配。
愿意学习:
你的分析不会始终如一,即便研究的方向比较稳定,但业务状况却总在变动,你必须持续更新知识,和各类人员交流,借鉴他人的见解。因此,作为分析师,必须具备强烈的求知欲望。
细心、耐心和交流能力(这个很重要):
处理数据信息时,常常感到困扰,周全和持久是必要条件,良好的沟通技巧能让数据工作者更清晰地说明各种疑问。
需要学习的课程
先修课程:数据科学原理、算法、数据库管理系统、统计
基础课程包括计算统计方法,机器学习和数据挖掘,视觉分析,多媒体检索,数据分析和商业智能,数据安全管理,预测分析,高级数据模型,云计算,自然语言处理,高级机器学习,统计学习和数据挖掘,复杂系统,空间数据分析,环境足迹和IO分析等。
研究开发项目(毕业项目)
数据科学专业的就业
数据科学作为近年新兴的热门学科,职业发展路径相当多元,大致可归纳为三个主要领域
第一类:纯数据分析类
1.Data 数据分析师
数据分析师主要运用统计和数学方法开展数据探索工作,经常需要整理原始信息,去除错误部分,接着进行深入研究和图表呈现,对计算机语言掌握程度较高,比如R语言,C语言,C++语言,以及SQL语言。初级人员的主要职责是协调联络,当业务方面需要采用特定手段时,他们充当直接执行者,当需要信息时,他们负责整理归纳信息,当客户或分公司索取信息时,他们同样要整理归纳信息,最终形成分析文档提交给产品团队工程团队或决策层,所以说他们基本上只是单纯地和信息打交道而已。
2.Data 数据科学家
数据科学家是数据行业里一种高度综合性的核心职位,通常要求工作者能够自主负责整个数据分析的流程,包括从数据源获取信息,将数据整合到一起,然后进行分类处理,运用统计方法或其他复杂技术进行分析数据分析课程,制作出令人印象深刻的图表展示,并且设计出具有更广阔应用价值的数据解决方案。实际工作中大部分精力都用于分布式算法的完成和改进,尤其是改进方面,非常困难,需要经验丰富的数据科学家来承担,因此要求他们具备深厚的数学、统计、计算机知识,并且在优化领域有丰富阅历。
3.Data 数据架构师
普遍认为,立志成为数据架构师的程序员才算得上合格的前端开发者。优秀的数据架构师必须对行业内的主流技术框架有透彻的了解,深入掌握某一技术的核心机制起步网校,成为该领域的权威人士,并且擅长将现实事物转化为抽象模型,时刻关注技术发展的最新动态和热门趋势,善于运用高效的方法解决各类问题。他们日常的核心工作是建立数据管理系统,负责整合数据源,进行集中化处理和维护管理。具体来说,需要掌握SQL、XML、HIVE、PIG、SPARK等技术,必须对数据库体系结构有透彻的理解,并且精通数据仓库相关方案。
4.Data 数据工程师
数据工程师作为一类新出现的职业,更注重学习“战术层面”的实用数据技术,致力于让数据能够被有效利用,并且在生产环节中进行操作,涉及到的技术包括特定的编程语言、操作系统和数据库等;相比之下,数据科学家更倾向于掌握“战略层面”的数据能力,诸如数据分析、数据挖掘、统计分析以及机器学习等技能。他们日常核心职责包括运用SQL解决分析性问题,借助脚本实现数据整合,处理ETL(提取、转换、加载)流程,以及运用各类生态工具,对编程语言掌握程度要求很高,必须熟练掌握SQL、HIVE、PIG、R、SAS、SPSS、Java、Ruby、C++、Perl等多种语言。
5. 数据库管理员
数据库管理者和数据分析师的工作联系并不紧密,更像是一种IT岗位,其任务主要是维护数据以及保障数据维护的相关设备,目标是让数据库能被所有相关使用者正确且安全地使用,为此可能会运用到SQL,以及Hive和Pig这类相关查询工具。日常工作重点在于改进数据仓库,负责数据的读取和写入工作,并实施管理。
第二类:以数据为驱动的商业分析类
1. 商业分析师
商业分析师和数据科学家虽然都是处理数据的行家,但职责分工差异显著。商业分析师必须精通特定行业,具备敏锐的商业洞察力,善于从行业数据中提炼有价值的资讯,用以分析过往、当前及未来的业务表现。他们需要找到最优的分析方法,向商业客户呈现并阐明解决方案。
通常先与客户交流,明确客户面临的状况和期望,接着界定业务挑战,并采集基础资料,然后借助预测、指导及说明性分析手段,对资料进行探究、阐释和图形化呈现,使其转化为有价值的成果供客户参考。在此阶段持续与客户协商具体要求,不断改进模型,最终借助数据模型深入剖析,融合各类信息,形成最优处理方案。
2.Data and 数据产品经理
管理团队中的分析师和数据科学家,不仅需要掌握SQL、R、SAS、Java等基础编程语言,还要具备数据挖掘、数据建模等方面的专业技能数据分析课程,同时,必须对产品有深入的认识,能够熟练运用数据可视化工具,并且拥有良好的人际交流技巧。他们核心任务涵盖建立数据体系,开展研究,模拟应用情形,验证并应用研究结论,并且要就结论中的数据合理性提出改进要求,回应其他团队的疑问,优化产品功能,吸引并维持用户,提升经营收益。
第三类:统计学家
统计学家顾名思义,必须精通统计学原理与实践,掌握分布式运算技术,熟悉数据库管理,运用云端资源,擅长数据探查与机器智能分析等,在编程语言上要求熟练运用R语言,SAS软件,SPSS系统,平台,Stata工具,Perl编程,Hive平台,Pig工具,Spark框架,以及SQL语言