作者提供的图片
1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持您的组织的 IT
如果你是数据科学的 aspirant,你无疑会有以下问题:
如果我数学基础很薄弱,是否可以成为数据科学家?
数据科学中哪些基本数学技能是重要的?
有很多优秀的软件包可以用来构建预测模型或生成数据可视化。一些最常用的描述性和预测性分析软件包包括:
-
Ggplot2
-
Matplotlib
-
Seaborn
-
Scikit-learn
-
Caret
-
TensorFlow
-
PyTorch
-
Keras
多亏了这些软件包,任何人都可以建立模型或生成数据可视化。然而,要对模型进行微调以生成可靠且性能最佳的模型,扎实的数学背景知识是必不可少的。构建模型是一回事,而解释模型并得出有意义的结论以用于数据驱动决策则是另一回事。在使用这些软件包之前,了解每个软件包的数学基础是很重要的,这样你就不会仅仅把这些软件包当作黑箱工具使用。
假设我们要建立一个多重回归模型。在此之前,我们需要问自己以下问题:
我的数据集有多大?
我的特征变量和目标变量是什么?
哪些预测特征与目标变量的相关性最大?
哪些特征是重要的?
我应该对特征进行缩放吗?
我的数据集应该如何划分为训练集和测试集?
主成分分析(PCA)是什么?
我应该使用 PCA 来去除冗余特征吗?
我该如何评估我的模型?我应该使用 R2 分数、MSE 还是 MAE?
我该如何提高模型的预测能力?
我应该使用正则化回归模型吗?
回归系数是什么?
截距是什么?
我应该使用非参数回归模型,例如 KNeighbors 回归或支持向量回归吗?
我的模型中的超参数是什么?如何对其进行微调以获得最佳性能的模型?
如果没有扎实的数学背景,你将无法解决上述问题。关键是,在数据科学和机器学习中,数学技能与编程技能同样重要。因此,作为数据科学的追求者,你必须投入时间学习数据科学和机器学习的理论和数学基础。你构建可靠且高效模型的能力,取决于你的数学技能水平。要了解数学技能在构建机器学习回归模型中的应用,请参见这篇文章:机器学习过程教程。
现在让我们讨论数据科学和机器学习中所需的一些基本数学技能。
统计与概率用于特征可视化、数据预处理、特征变换、数据填补、降维、特征工程、模型评估等。
下面是你需要熟悉的主题:
均值、中位数、众数、标准差/方差、相关系数和协方差矩阵、概率分布(二项分布、泊松分布、正态分布)、p 值、贝叶斯定理(精确度、召回率、正预测值、负预测值、混淆矩阵、ROC 曲线)、中心极限定理、R_2 评分、均方误差(MSE)、A/B 测试、蒙特卡洛模拟
大多数机器学习模型是用具有多个特征或预测变量的数据集构建的。因此,熟悉多变量微积分对于构建机器学习模型至关重要。
下面是你需要熟悉的主题:
多个变量的函数;导数和梯度;阶跃函数、Sigmoid 函数、Logit 函数、ReLU(修正线性单元)函数;成本函数;函数的绘制;函数的最小值和最大值
线性代数是机器学习中最重要的数学技能。数据集被表示为矩阵。线性代数用于数据预处理、数据转换、降维和模型评估。
下面是你需要熟悉的主题:
向量;向量的范数;矩阵;矩阵的转置;矩阵的逆;矩阵的行列式;矩阵的迹;点积;特征值;特征向量
大多数机器学习算法通过最小化目标函数来进行预测建模,从而学习必须应用于测试数据的权重,以获得预测标签。
下面是你需要熟悉的主题:
成本函数/目标函数;似然函数;误差函数;梯度下降算法及其变种(例如随机梯度下降算法)
总结来说,我们讨论了数据科学和机器学习中所需的基本数学和理论技能。有几个免费的在线课程可以教你在数据科学和机器学习中所需的数学技能。作为数据科学的追求者,重要的是要记住数据科学的理论基础对于构建高效可靠的模型至关重要。因此,你应该投入足够的时间来研究每种机器学习算法背后的数学理论。
本杰明·奥比·塔约博士 是中欧大学的物理学教授,同时也是数据科学教育者和作家,研究领域包括数据科学、机器学习、人工智能、Python 和 R、预测分析、材料科学以及生物物理学。
原文。经许可转载。