原文:
www.kdnuggets.com/2014/05/guide-to-data-science-cheat-sheets.html
近年来,随着数据科学家的需求和热度持续增长,人们渴望了解如何加入、学习、进步并在这个看似有利可图的职业中蓬勃发展。作为一个从事分析写作并偶尔教授这门课程的人,我经常被问到——我如何成为一名数据科学家?
我回答的复杂性增加了,因为数据科学似乎是一个多学科领域,而统计学、计算机科学和管理学的大学部门在处理数据时方式各异。
但抛开营销创造的术语不谈,数据科学家只是一个能够用几种语言(主要是 R、Python 和 SQL)编写代码进行数据查询、操作、聚合和可视化的人,并运用足够的统计知识为业务提供可操作的见解,以便做出决策。
由于这种数据科学家的实际定义得到“数据科学家”工作网站上附带词汇的支持,因此,这里有一些学习数据科学主要语言——Python、R 和 SQL 的工具。备忘单或参考卡片是一个主要用于帮助你更快学习该语言语法的命令汇编。
包括 SQL 可能会让一些人感到惊讶(这不是 NoSQL 时代吗?),但这是有逻辑原因的。PIG 和 Hive 查询语言与 SQL——原始的结构化查询语言密切相关。此外,R 中的sqldf包(以及 Pythonic 数据科学家较少使用的python-sql或python-sqlparse库)或甚至旧语言 SAS 中的 Proc SQL 命令,也可以完成数据科学家预期完成的大部分任务(至少在数据清洗方面)。
对于 Python 而言,这是一个相当部分的列表,因为 Python 是数据科学家工具包中的通用语言,可以用于许多方面。但对于数据科学家而言,numpy、scipy、pandas和scikit-learn的包似乎是最相关的。
所有成千上万的 R 包对有志于数据科学的人都有用吗?不一定。
因此,我们为你选择了合适的备忘单。请注意,这是一个经过筛选的列表。如果在数据科学领域中可以做出任何假设,那就是零假设是数据科学家足够聪明,可以根据数据及其背景做出自己的决策。三份打印件就足以加快有志数据科学家的学习之旅。
请在下方评论中添加额外的备忘单。
Python 的备忘单
-
Python www.astro.up.pt/~sousasag/Python_For_Astronomers/Python_qr.pdf
-
NumPy, SciPy 和 Pandas s3.amazonaws.com/quandl-static-content/Documents/Quandl+-+Pandas,+SciPy,+NumPy+Cheat+Sheet.pdf
R 的备忘单
-
回归分析的 R 函数 cran.r-project.org/doc/contrib/Ricci-refcard-regression.pdf
-
数据挖掘 cran.r-project.org/doc/contrib/YanchangZhao-refcard-data-mining.pdf
-
Quandl s3.amazonaws.com/quandl-static-content/Documents/Quandl+-+R+Cheat+Sheet.pdf
R、Python(和 Matlab)之间的交叉参考
SQL 备忘单
-
SQL 连接 www.codeproject.com/Articles/33052/Visual-Representation-of-SQL-Joins
-
SQL 和 Hive hortonworks.com/wp-content/uploads/downloads/2013/08/Hortonworks.CheatSheet.SQLtoHive.pdf
附加内容
Ajay Ohri 是一位受欢迎的作者和 博客 写手,专注于分析和数据挖掘,并且是R for Business Analytics一书的作者(Springer, 2012)。