在数据科学领域我需要多少数学知识?

avatar 六月 8, 202022:20:39来源:Benjamin Obi Tayo 评论 642 views

一、引言

如果您是数据科学的追求者,那么毫无疑问,您存在以下问题:
我可以成为拥有很少或没有数学背景的数据科学家吗?
对数据科学而言哪些基本数学技能很重要?
有很多好的软件包可用于构建预测模型或用于生成数据可视化。用于描述性和预测性分析的一些最常见的软件包包括:

  • Matplotlib
  • Seaborn
  • Scikit-learn
  • Caret
  • TensorFlow
  • PyTorch
  • Keras

由于有了这些软件包,任何人都可以构建模型或产生数据可视化。但是,扎实的数学背景知识对于微调模型以生成具有最佳性能的可靠模型至关重要。建立模型是一回事,解释模型并得出可用于数据驱动的决策的有意义的结论是另一回事。重要的是,在使用这些软件包之前,您必须了解每个软件包的数学基础,这样才能避免将这些软件包仅用作黑盒工具。

二、案例研究:建立多元回归模型

假设我们将要建立一个多元回归模型。在此之前,我们需要问自己以下问题:

我的数据集有多大?
我的特征变量和目标变量是什么?
哪些预测变量特征与目标变量关联最紧密?
哪些功能很重要?
我应该扩展我的功能吗?
我的数据集应如何划分为训练和测试集?
什么是主成分分析(PCA)?
我应该使用PCA删除冗余功能吗?
如何评估我的模型?我应该使用R2分数,MSE还是MAE?
如何提高模型的预测能力?
我应该使用正则回归模型吗?
回归系数是多少?
什么是截距?
我应该使用非参数回归模型,例如KNeighbors回归还是支持向量回归?
我的模型中有哪些超参数,如何对其进行微调以获得性能最佳的模型?

没有良好的数学背景,您将无法解决上面提出的问题。最重要的是,在数据科学和机器学习中,数学技能与编程技能同等重要。因此,作为有志于数据科学的人,您必须花时间研究数据科学和机器学习的理论和数学基础。您能否构建可应用于实际问题的可靠而有效的模型,取决于您的数学技能如何。要了解如何在构建机器学习回归模型中应用数学技能,请参阅本文:机器学习过程教程。
现在,让我们讨论数据科学和机器学习所需的一些基本数学技能。

三、数据科学和机器学习的基本数学技能

1.统计和概率

统计和概率用于特征的可视化,数据预处理,特征转换,数据归因,降维,特征工程,模型评估等。
以下是您需要熟悉的主题:均值,中位数,众数,标准差/方差,相关系数和协方差矩阵,概率分布(二项式,泊松,法线),p值,贝叶斯定理(精度,召回率,正预测值,负预测值,混淆矩阵,ROC曲线),中心极限定理,R_2得分,均方误差(MSE),A / B测试,蒙特卡洛模拟

2.多变量微积分

大多数机器学习模型都是使用具有多个特征或预测变量的数据集构建的。因此,熟悉多变量演算对于建立机器学习模型非常重要。
这是您需要熟悉的主题:几个变量的函数;导数和梯度;阶跃函数,Sigmoid函数,Logit函数,ReLU(Rectified Linear Unit)功能;成本函数;功能图;函数的最小值和最大值

3.线性代数

线性代数是机器学习中最重要的数学技能。数据集表示为矩阵。线性代数用于数据预处理,数据转换,降维和模型评估。
这是您需要熟悉的主题:向量;向量的范数;矩阵转置矩阵矩阵的逆;矩阵的行列式;矩阵的痕迹;点积;特征值;特征向量

4.优化方法

大多数机器学习算法通过最小化目标函数来执行预测建模,从而学习必须应用于测试数据的权重才能获得预测标签。
这是您需要熟悉的主题:成本函数/目标函数;似然函数;错误功能;梯度下降算法及其变体(例如,随机梯度下降算法)

四、总结与结论

总而言之,我们讨论了数据科学和机器学习所需的基本数学和理论技能。 有几本免费的在线课程将教您数据科学和机器学习所需的必要数学技能。 作为对数据科学有抱负的人,请务必牢记数据科学的理论基础对于构建高效且可靠的模型至关重要。 因此,您应该投入足够的时间来研究每种机器学习算法背后的数学理论。

五、参考资料

绝对初学者的线性回归基础。
具有R代码实现的主成分分析数学。
机器学习过程教程。

原文见:Benjamin Obi Tayo Ph.D.

weinxin
我的微信公众号
分享科研软件、科研方法,为你的科研助力。
avatar

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: