原文:
www.kdnuggets.com/2017/07/machine-learning-big-data-explained.html
大数据不再是流行词汇或前沿概念;它只是存在。大数据不易或不精确地定义,但通常一旦看到它就容易识别。
虽然成功的机器学习应用不能仅仅依赖于将不断增加的大量数据“塞入”算法中并寄希望于最好,但利用大量数据进行机器学习任务的能力如今已成为从业者必须具备的技能。
尽管机器学习的大部分内容无论数据量多少都适用,但有些方面则是大数据建模的专属领域,或者比小数据量时更为适用。数据科学家Rubens Zimbres在下面的原始图形中概述了将机器学习应用于大数据的过程。
以下是 Zimbres 本人对图像的简短描述:
最重要的是,当数据科学家的需求导致数据架构需要更改时,因为这是大数据项目失败的部分,即橙色方块。当算法计算成本高昂或基础设施尚未为机器学习算法做好准备时。例如,最近巴西的大型银行正在招聘大型机专家来处理这个问题。
这张图片实际上是我为了理解整个数据科学过程而制作的思维导图。
Zimbres 的流程包括描述性、预测性和规定性分析以及模拟。重要的是,机器学习过程明确标记为递归的,这一点对于建模大量数据尤为真实。Zimbres 还详细说明了机器学习任务各个阶段的记录数量。对于数据科学的新手来说,机器学习过程的子任务以及相关算法的展示尤为重要。
尽管 Zimbres 本人表示该过程图有一些小错误(特别是“组提取”部分中应将支持向量机替换为 k 均值聚类),总体上它代表了一个相关的高层次路线图。特别是,对于数据科学的新手来说,这将非常有用。
相关:
-
特征选择的实际重要性
-
回归分析真的属于机器学习吗?
-
大数据、圣经密码与本费罗尼
1. 谷歌网络安全证书 - 快速开启网络安全职业生涯。
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你的组织 IT 部门