当今世界,高科技的迅猛发展,我们每个人每天衣食住行都在产生大量的数据,导致全球产生的数据每年呈指数级增长。数据增长到底有多快?IDC联合EMC每年都出一个数据宇宙的报告(IDC Digital Universe)。根据显示,到2020年,当年产生的数据预计将是4万exabytes,是2009年产生数据的50倍!(注:1 Exabyte = 1,000,000,000,000,000,000 Bytes)
产生的数据、存储的数据既然有这么多,那我们能够不仅仅是存储数据,而是利用这些数据发现商业价值吗?答案当然是肯定的。不过要实现从大数据里发掘商业价值,需要借助一个新兴职业——数据科学家。
一个数据科学家应该具有如下五个特质与技能:
- 定量分析技能——例如数学和统计技能
- 技术才能——例如软件工程、机器学习和编程能力
- 善于怀疑——每个数据科学家必须善于用批判的眼光来审视自己的工作,而不是采用片面的求同方式。如果坚信自己或者别人是对的,一定要有全面的客观依据来支持。反之亦然。
- 好奇与创新——数据科学家必须对数据充满激情,并找到创新的方式来解决问题和描述信息。例如对于不同的客户群,要能够运用灵活的、创新的方法,正确的为客户提出最适合的解决方案。
- 沟通与合作——即使具有很强的定量和工程技能也是不够的。一个数据科学项目的成败取决于团队协作。数据科学家不是关在一个屋子里独自工作的。即便大部分数据科学家都是内向的,但是他们会走出自己的圈子,与客户、项目发起人、项目干系人、其它项目相关同僚合作,并能够采用清晰的方式表达出项目中的商业价值。
除去上述5个特点之外,数据科学家还会非常熟练的运用下列技能:
- 数据获取——熟练编写代码以从传统和非传统的数据源获取数据(例如:编写代码从微博抓取并清理非结构化数据。)
- 数据管理——提取、转换、加载(ETL)、查询、维护从数据库、key-value存储(例如CouchDB和MongoDB),和Hadoop里的数据
- 数据可视化——运用静态的数据可视化工具或是交互性的数据可视化平台(例如R、Python、D3.js、Tableau、Processing和Gephi)以发现并确认数据的模式
- 数据分析——灵活运用多领域的简单和复杂的技术。这些领域包括数学统计、机器学习、数据挖掘、自然语言处理等等。
- 故事讲述——用讲述故事的方式形象地为各种背景的听众展示总结的关键发现。
根据麦肯锡全球研究所在2011年所著关于大数据的报告,到2018年光在美国就会缺乏140000到190000名数据科学家,同时还缺乏150万商业智能分析师和业务决策经理。著名期刊《哈佛商业评论》(Harvard Business Review)在2012年10月期里,用大幅面的的封面文章,阐述了。数据科学家的争夺已日趋白热化。
那作为你,已经准备加入这个变革,成为一个炙手可热的数据科学家吗?