如何学习数据科学所需的数学-程序员充电站

原文：towardsdatascience.com/how-to-learn-the-math-needed-for-data-science-86c6643b0c59

成为数据科学家不仅仅是使用即插即用的机器学习包。首先，你必须理解算法实际上在做什么，并知道何时以及为什么使用它。学习算法是如何工作的过程就是通过研究其背后的数学。

要成为一名高水平的数据科学家，你必须对基础数学有很高的掌握。这就是残酷的现实。然而，所需的数学并不需要博士学位甚至硕士学位。其中大部分在高中后几年和许多本科课程的前几年就已经涵盖了。

因此，在这篇文章中，我想详细说明数据科学实际需要的数学知识，以及你应该学习的内容，以及有用的资源。

cdn.embedly.com/widgets/media.html?src=https%3A%2F%2Fwww.youtube.com%2Fembed%2FfIzYsrR-5Bs%3Fstart%3D10&display_name=YouTube&url=https%3A%2F%2Fwww.youtube.com%2Fwatch%3Fv%3DfIzYsrR-5Bs&image=http%3A%2F%2Fi.ytimg.com%2Fvi%2FfIzYsrR-5Bs%2Fhqdefault.jpg&key=a19fcc184b9711e1b4764040d3dc5c07&type=text%2Fhtml&schema=youtube

你实际需要什么

现在，数据科学是一个庞大的领域，这个职位本身仍然没有明确的定义。不同公司的数据科学家往往有略微不同的角色，因此每个职位所需的数学知识最终会有所不同。

然而，在我看来，有一些基本主题，所有数据科学家都应该了解，并且很可能会覆盖大多数职位描述和你在面试中可能被问到的问题。

重要的是要提到，这些内容更适合入门和初级水平，而不是那些想要成为 OpenAI、Microsoft 或 Tesla 的机器学习研究者的人。那是一个不同的问题，我对此没有经验可谈，并且围绕的是走研究路线而不是行业路线。

通常，你应该学习的数学分为三个类别：

概率与统计
微积分
线性代数

这些领域单独来看都非常庞大，人们将他们整个职业生涯都投入到对这些领域的研究和探索中。目标是掌握数据科学职业生涯中可能遇到的一些典型问题的广泛知识，以及大多数面试问题，而不是学习每一件事！

总之，让我们深入探讨这些主题，并讨论你应该了解的内容。在每个部分，我将分为“要学习的内容”和“如何学习”，这样你可以为你的数据科学路线图制定一个清晰的计划！

注意：根据你作为数据科学家工作的领域，你可能会遇到其他数学领域。

概率与统计学

要学习的内容

在我看来，概率和统计学可能是数据科学家需要精通的最重要领域。你将真正地在工作中每天使用它，而微积分和线性代数则相对较少使用。

实际上，大多数机器学习都起源于统计学习理论。

就像其他一切一样，概率和统计学是一个庞大的领域，有很多活跃的研究。然而，我们只需要了解几个领域的基础知识。

描述性统计– 这对一般分析很有用。例如，均值、中位数、标准差、分位数、相关性和基本的可视化图表，如直方图、条形图、折线图、饼图和小提琴图。
概率分布– 在构建模型或向利益相关者传达结果时，你需要了解二项分布、泊松分布、正态分布和伽马分布等分布，以便对数据进行准确的假设。
概率论– 许多机器学习算法基于统计学习，这来自于对概率如何工作的理解。最重要的概念是最大似然估计、中心极限定理和贝叶斯统计。最大似然估计用于推导出所有常见的损失函数，如最小二乘法和对数损失。
假设检验与置信区间– A/B 测试无处不在，它们只是统计假设检验。数据专业人士经常使用的几种测试是 Z 检验、T 检验和卡方检验***，，尽管根据你所处的行业，可能会有其他测试出现。*** 与此相关的一个概念是置信区间。
建模与推断– 许多机器学习算法都是一些百年前统计模型的翻版。你应该了解的主要有两个：线性回归和广义线性模型。

当然，在这些子领域中有更多需要探索的领域，而我列出你应学习的每一个可能的主题将会非常详尽。维基百科有一个关于统计学及其各个子领域整体概述的极好页面。

统计学概览 – 维基百科

如何学习

对了，现在让我们来谈谈如何学习上述内容，因为我能理解它可能看起来相当令人畏惧。

无耻地说，我写过很多关于概率分布、假设检验、贝叶斯统计和回归分析的文章，这些文章将为你提供这些主题的极好概述。每篇文章通常阅读时间不超过 10 分钟。

概率分布
贝叶斯统计
统计检验
通用统计学

如果你喜欢通过教科书学习，那么以下由彼得·布鲁斯、安德鲁·布鲁斯和彼得·盖德克合著的《数据科学家实用统计学》*可能是实践者赞誉最多的书籍，因为它特别为数据科学家设计，而不仅仅是一本普通的统计学教科书。

数据科学家实用统计学

最后，如果你想以视频格式学习，那么 freeCodeCamp 有很多资源，但我推荐以下视频用于统计学。

cdn.embedly.com/widgets/media.html?src=https%3A%2F%2Fwww.youtube.com%2Fembed%2Fxxpc-HPKN28%3Fstart%3D9180%26feature%3Doembed%26start%3D9180&display_name=YouTube&url=https%3A%2F%2Fwww.youtube.com%2Fwatch%3Fv%3Dxxpc-HPKN28&image=https%3A%2F%2Fi.ytimg.com%2Fvi%2Fxxpc-HPKN28%2Fhqdefault.jpg&key=a19fcc184b9711e1b4764040d3dc5c07&type=text%2Fhtml&schema=youtube

微积分

要学习的内容

微积分是机器学习算法实际上“学习”的核心。它们的“学习”是通过优化来完成的，而优化是通过微积分的基本原理来实现的。

微积分有两个主要领域：微分和积分，但让我们进一步分解它们。

微分

你应该学习的内容领域：

什么是导数，它测量的是什么？极限和无穷是理解这个概念需要掌握的。
学习常见函数（正弦、余弦、指数、正切等）的导数以及如何推导它们。
什么是拐点，以及极大值和极小值如何与它们相关？这些都是梯度下降的主要直觉。
链式法则和乘积法则是神经网络背后的反向传播算法的基础。
理解偏导数及其在多元微积分中的应用。这是梯度下降背后的生命线，它为大量算法提供动力。
凸函数和非凸函数之间的区别。这很重要，因为它告诉你是否可以找到最佳解，这对于你正在解决优化问题尤其有用。
雅可比矩阵和海森矩阵，在深度学习中非常有用。
泰勒级数和展开。许多算法使用近似函数。

积分

诚然，积分在数据科学中的应用较少，但它仍然很重要，因为它与微分是相反的：

什么是积分，它做了什么？
常见函数（正弦、余弦、指数、自然对数）的积分规则
分部积分和代换。
用于面积和体积计算的积分。
傅里叶级数及其应用。这对于时间序列分析建模季节性非常有用。

如何学习

以下教科书，机器学习的数学，由马克·彼得·迪森罗思编写，涵盖了上述所有内容以及更多。你可能不需要学习这本书中的所有内容，其中一些主题可能有些高级，但如果你这样做，你的微积分知识将非常出色。

机器学习的数学

如果你喜欢视频格式，freeCodeCamp 也有一个关于微积分的优秀课程。

cdn.embedly.com/widgets/media.html?src=https%3A%2F%2Fwww.youtube.com%2Fembed%2FHfACrKJ_Y2w%3Fstart%3D13%26feature%3Doembed%26start%3D13&display_name=YouTube&url=https%3A%2F%2Fwww.youtube.com%2Fwatch%3Fv%3DHfACrKJ_Y2w&image=https%3A%2F%2Fi.ytimg.com%2Fvi%2FHfACrKJ_Y2w%2Fhqdefault.jpg&key=a19fcc184b9711e1b4764040d3dc5c07&type=text%2Fhtml&schema=youtube

最后，你可以使用像 Brilliant.org 和 Khan Academy 这样的在线学习平台来学习微积分以及统计学和线性代数。

Brilliant | 互动学习
微分学 | 可汗学院

线性代数

要学习什么

线性代数是处理向量、矩阵及其在线性空间中变换的数学领域。

矩阵是许多机器学习算法的骨架。例如，TensorFlow 中的张量基本上是一个来自线性代数的多维矩阵！

向量– 什么是向量？如何计算向量的模、方向和分量？这些问题你应该知道答案。它还与微积分相交形成向量微积分！词嵌入是机器学习中使用向量的一个例子。
矩阵– 理解矩阵是什么以及它们的应用。例如，具有n个特征和m行的数据集可以是一个nxm矩阵。另一个例子是神经网络中的权重和偏差被存储为矩阵。
矩阵运算与变换– 迹、逆矩阵、转置和点积是数据科学中使用的矩阵变换。例如，找到矩阵的特征值和特征向量是主成分分析（PCA）的基础。
线性方程组– 在我们有许多约束条件和需要考虑的不同因素的情况下，优化问题中经常出现。你应该学习像消元法、行简化和克莱姆法则等技术。

就像统计学和微积分一样，线性代数是一个庞大的领域，人们致力于研究它并进行研究。上述列表对于数据科学的入门级职位已经足够，坦白说，在大多数情况下，对于中级和高级职位也是如此。

如何学习

一堂出色的 Coursera 课程，涵盖了数据科学和机器学习中你需要了解的几乎所有关于线性代数的内容。

机器学习和数据科学中的线性代数

就像往常一样，freeCodeCamp 有一个出色的视频课程涵盖了上述所有内容。

cdn.embedly.com/widgets/media.html?src=https%3A%2F%2Fwww.youtube.com%2Fembed%2FJnTa9XtvmfI%3Ffeature%3Doembed&display_name=YouTube&url=https%3A%2F%2Fwww.youtube.com%2Fwatch%3Fv%3DJnTa9XtvmfI&image=https%3A%2F%2Fi.ytimg.com%2Fvi%2FJnTa9XtvmfI%2Fhqdefault.jpg&key=a19fcc184b9711e1b4764040d3dc5c07&type=text%2Fhtml&schema=youtube

再次强调，机器学习的数学教科书有一个关于线性代数的优秀部分，包括练习题。

机器学习的数学

摘要及进一步思考

数学是成为一名数据科学家的重要组成部分，你必须掌握基础知识。我知道这可能很可怕，但所需水平并不特别高，所以我相信大多数人只要有足够的时间和努力，就能学会它。这三个基石是统计学、微积分和线性代数。对这些三个领域的良好了解将为你成为一名优秀的数据科学家打下坚实的基础。你不需要了解这些领域的所有内容，只需了解我在本文中列出的核心概念！