极限、导数与微分

如果说线性代数是机器学习的"数据语言"，它告诉计算机如何表示和组织数据，那么微积分（Calculus）就是机器学习的"优化行为"，它告诉计算机如何从数据中学习和改进。从深度学习的梯度下降到物理引擎的运动模拟，微积分在现代计算技术中无处不在，是连接传统软件开发与人工智能领域的关键桥梁。

从实践问题到数学理论

微积分的诞生是数学史上最激动人心的篇章之一。17 世纪，科学革命的浪潮席卷欧洲，物理学、天文学的发展提出了大量关于运动和变化的问题，譬如行星如何绕太阳运动？炮弹的轨迹是什么曲线？变速运动的物体在某一时刻的速度如何定义？这些问题困扰着当时最杰出的科学家，因为传统的数学工具只能处理"静态"的量，无法精确描述"动态"的变化。

1660 年代，英国科学家牛顿（Isaac Newton）在研究物体运动和行星轨道时，发展出了一套称为流数术（Method of Fluxions）的数学方法。他用这个方法成功地计算出了变速运动的瞬时速度、曲线的切线斜率，以及行星轨道的曲率。几乎与此同时，德国数学家莱布尼茨（Gottfried Leibniz）也在研究曲线的切线和面积问题时，独立发展出了一套类似的符号系统和方法。

牛顿和莱布尼茨的贡献在于，他们首次将求切线（微分问题）和求面积（积分问题）这两类看似不相关的问题统一在一个框架之下，并发现了两者之间的互逆关系。这就是著名的微积分基本定理（Fundamental Theorem of Calculus）。这一定理揭示了微分和积分是一对互逆运算，就像乘法和除法、指数和对数的关系一样。

虽然微积分在诞生后迅速被应用于物理、天文、工程等领域，取得了巨大的成功，但它的理论基础却长期存在漏洞。牛顿和莱布尼茨的论述中充满了无穷小量（Infinitesimal）的概念，一个既不为零、又接近于零的量。这个概念在逻辑上是自相矛盾的，如果它不为零，就可以继续分割；如果它为零，就不能作为分母。这种模糊性引来了严厉的批评。1734 年的《分析学家》讽刺道，这些推理"既不是正确的数学，也不是可靠的逻辑"。

微积分的严格化经历了近两百年的努力。19 世纪初，法国数学家柯西（Augustin-Louis Cauchy）给出了极限的严格定义，将微积分建立在极限的概念之上，而非含糊不清的无穷小量。19 世纪末，德国数学家卡尔·魏尔斯特拉斯（Karl Weierstrass）进一步用 $\varepsilon-\delta$ 语言严格化了极限的定义，最终将微积分建立在坚实的逻辑基础之上。有趣的是，20 世纪 60 年代，美国数学家亚伯拉罕·罗宾逊（Abraham Robinson）通过非标准分析（Non-standard Analysis）重新赋予了无穷小量严格的数学意义，但这已经是另一个故事了。

机器学习中的微积分

对于习惯了面向对象编程、设计模式、微服务架构的软件开发人员来说，微积分似乎是一门有些"格格不入"的抽象学问。毕竟，在大多数软件开发工作中，我们更习惯离散的思维方式，数据是离散的（整数、字符串、布尔值），操作是离散的（赋值、条件判断、循环），状态空间是离散的（有限或可数无限的状态集合）。这反映了计算机的本质 —— 图灵机（Turing Machine）是一个离散的状态机，数字计算机用有限的比特来表示一切。然而，当软件开发进入机器学习和人工智能的领域，情况就完全不同了，机器学习的一个关键问题是优化，是从海量数据中找到最优的模型参数。这个问题是连续的、参数空间是连续的（实数域）、损失函数是连续函数，优化过程是在连续空间中寻找极值。这时候，开发机器学习的代码就需要微积分的语言来描述和求解。微积分的核心概念是变化率。导数刻画了一个量随另一个量变化的敏感程度，当输入发生微小变化时，输出会发生多大的变化？这个概念在机器学习中无处不在：

损失函数对参数的导数告诉我们如果参数稍微增大一点，损失会增大还是减小？变化多少？这指导我们如何调整参数。
激活函数的导数决定了反向传播中梯度的流动方式，影响着网络的训练效果。
学习率本质上是一个步长参数，它控制着每次参数更新的幅度，太大可能越过最优点，太小则收敛太慢。
……

理解这些概念，不仅有助于我们正确使用机器学习框架（如 PyTorch、TensorFlow），更能帮助我们诊断训练中的问题、设计更好的模型架构、选择合适的优化策略。

极限的严格定义与连续性

在正式开始接触导数之前，我们先以高中课程的直观讲解方式去理解极限（Limit）的概念。极限是微积分理论的引子，它描述了当自变量无限接近某个值时，函数值的变化趋势。考虑一个简单的函数 $f(x) = \frac{x^2 - 1}{x - 1}$ 。当 $x = 1$ 时，分母为零，函数值不存在。但是，如果我们观察 $x$ 接近 1 时的函数值的变化：

$x$	$f(x)$
0.9	1.9
0.99	1.99
0.999	1.999
1.001	2.001
1.01	2.01
1.1	2.1

可以看到，当 $x$ 从两侧趋近于 1 时， $f(x)$ 趋近于 2。这就是极限的直观含义：当 $x$ 无限接近某个值 $a$ 时，函数值 $f(x)$ 无限接近某个值 $L$ ，记作： $\lim_{x \to a} f(x) = L$ 。注意，极限关注的是 $x$ "趋近于" $a$ 的过程，而不是 $x$ 等于 $a$ 时的函数值。在上面的例子中， $f(1)$ 甚至不存在，但 $\lim_{x \to 1} f(x) = 2$ 是完全确定的。

高中课程对极限的直观理解虽然有助于建立概念，但数学需要严谨。19 世纪，德国数学家卡尔·魏尔斯特拉斯（Karl Weierstrass）给出了极限的严格定义：设函数 $f$ 在点 $a$ 的某个去心邻域（不包含点 $a$ 本身的邻域）内有定义，如果存在常数 $L$ ，对于任意给定无论多小的正数 $\varepsilon$ ，都存在正数 $\delta$ ，使得当 $0 < |x - a| < \delta$ 时，有 $|f(x) - L| < \varepsilon$ ，则称 $L$ 是函数 $f(x)$ 当 $x \to a$ 时的极限。这个今天被称作 $\varepsilon -\delta$ 语言，它利用两个不等式精确地刻画了数学上什么是"无限趋近"：

$|x - a| < \delta$ 表示 $x$ 与 $a$ 的距离小于 $\delta$ （ $x$ 足够接近 $a$ ）
$|f(x) - L| < \varepsilon$ 表示 $f(x)$ 与 $L$ 的距离小于 $\varepsilon$ （ $f(x)$ 足够接近 $L$ ）

$\varepsilon -\delta$ 语言所描述的图景是：你想让 $f(x)$ 多接近 $L$ （给定 $\varepsilon$ ），我就能找到 $x$ 足够接近 $a$ 的范围（确定 $\delta$ ），使得在这个范围内 $f(x)$ 达到你要求的接近程度。对于非数学专业的读者，理解 $\varepsilon-\delta$ 描绘的逻辑结构比记忆具体证明更重要。在实际应用中，我们主要依赖极限的直观理解和运算法则来解决问题。

是的，极限也是有运算法则的，这些法则告诉我们极限运算可以"穿透"加减乘除，分别对各部分求极限后再进行相应运算。设 $\lim_{x \to a} f(x) = A$ ， $\lim_{x \to a} g(x) = B$ ，则以下运算法则成立：

加法： $\lim_{x \to a} [f(x) + g(x)] = A + B$
减法： $\lim_{x \to a} [f(x) - g(x)] = A - B$
乘法： $\lim_{x \to a} [f(x) \cdot g(x)] = A \cdot B$
除法： $\lim_{x \to a} \frac{f(x)}{g(x)} = \frac{A}{B}$ （当 $B \neq 0$ ）

直观上，"连续"就是函数的图像可以一笔画出，不需要抬笔。但只有严格厘清何为极限后，才可能精确定义连续（Continuous）。连续是描述函数"没有断裂"的数学概念，它的数学定义为函数 $f$ 在点 $a$ 处连续，当且仅当满足以下三个条件：

$f(a)$ 有定义
$\lim_{x \to a} f(x)$ 存在
$\lim_{x \to a} f(x) = f(a)$

第三个条件将极限值与函数值统一起来："极限等于函数值"正是"连续"的真正含义。连续函数有许多良好的性质。譬如，介值定理（Intermediate Value Theorem）告诉我们：如果连续函数 $f$ 在区间 $[a, b]$ 上取值 $f(a)$ 和 $f(b)$ ，那么对介于 $f(a)$ 和 $f(b)$ 之间的任何值 $c$ ，存在 $x \in (a, b)$ 使得 $f(x) = c$ 。这个定理常用于数值计算中求方程的根（如二分法）。

导数的定义与几何意义

我们从当年牛顿考虑的物理问题出发引出导数。假设一个物体沿直线运动，其位置 $s$ 是时间 $t$ 的函数 $s = s(t)$ 。在时间段 $[t_0, t_0 + \Delta t]$ 内，物体移动的距离为 $s(t_0 + \Delta t) - s(t_0)$ ，平均速度就可以表示为：

\bar{v} = \frac{s(t_0 + \Delta t) - s(t_0)}{\Delta t}

这就是平均变化率的概念：函数值的变化量除以自变量的变化量。但是，如果要关注物体在某一时刻 $t_0$ 的瞬时速度，又该如何定义呢？直觉告诉我们，让时间间隔 $\Delta t$ 越来越小，平均速度就会越来越接近瞬时速度。当 $\Delta t$ 趋近于零时，平均速度的极限就是瞬时速度：

v(t_0) = \lim_{\Delta t \to 0} \frac{s(t_0 + \Delta t) - s(t_0)}{\Delta t}

更一般地，假设函数 $y = f(x)$ 在点 $x_0$ 的某个邻域内有定义，如果极限 $\lim_{\Delta x \to 0} \frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x}$ 存在，则称函数 $f$ 在点 $x_0$ 处可导（Differentiable），此极限值称为 $f$ 在 $x_0$ 处的导数（Derivative），记作 $f'(x_0)$ 或 $\frac{df}{dx}\bigg|_{x=x_0}$ （前者为拉格朗日记法，后者为莱布尼茨记法，两者至今都在广泛使用）。这个定义中的分式 $\frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x}$ 称为差商（Difference Quotient），它表示函数在区间 $[x_0, x_0 + \Delta x]$ 上的平均变化率。导数就是差商当 $\Delta x \to 0$ 时的极限，即瞬时变化率。导数的另一种等价定义形式是：

f'(x_0) = \lim_{x \to x_0} \frac{f(x) - f(x_0)}{x - x_0}

这两种定义是等价的，只需令 $x = x_0 + \Delta x$ 即可相互转换。

导数有非常直观的几何意义：切线的斜率。考虑函数 $y = f(x)$ 的图像，在点 $(x_0, f(x_0))$ 处画一条切线（Tangent Line）。这条切线的斜率就是 $f'(x_0)$ 。先考虑通过两个点 $(x_0, f(x_0))$ 和 $(x_0 + \Delta x, f(x_0 + \Delta x))$ 的一条割线（Secant Line）。割线的斜率为：

\text{割线斜率} = \frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x}

这正好是差商，当 $\Delta x \to 0$ 时，点 $(x_0 + \Delta x, f(x_0 + \Delta x))$ 沿曲线趋近于 $(x_0, f(x_0))$ ，观察下图，随着割线穿过的两点逐渐靠近，割线逐渐逼近切线，最终与切线重合。因此，导数 $f'(x_0)$ 就是切线的斜率。

函数的切线与割线

图：割线逐渐逼近切线的过程

常见函数的导数

掌握基本函数的导数公式是进行微分运算的基础。就像学习算术需要先背诵乘法表一样，求导时若能熟练运用基本公式，便可极大简化计算过程。本节介绍幂函数、指数函数、对数函数和三角函数的导数公式，以及函数加减乘除的求导法则。这些公式与运算法则相互配合，使我们能够处理绝大多数常见函数的求导问题。特别值得注意的是，这些公式在机器学习中频繁出现，譬如 $e^x$ 的导数等于自身的特性使其在概率分布（如 Softmax）中扮演核心角色，而 $\ln x$ 的导数则在最大似然估计中不可或缺。

幂函数
对于幂函数 $f(x) = x^n$ （ $n$ 为正整数），其导数为： $\frac{d}{dx} x^n = nx^{n-1}$ ，这个公式可以推广到任意实数 $n$ ，譬如：
- $f(x) = x^{1/2} = \sqrt{x}$ ，则 $f'(x) = \frac{1}{2}x^{-1/2} = \frac{1}{2\sqrt{x}}$
- $f(x) = x^{-1} = \frac{1}{x}$ ，则 $f'(x) = -x^{-2} = -\frac{1}{x^2}$
指数函数与对数函数
对于自然指数函数 $f(x) = e^x$ ： $\frac{d}{dx} e^x = e^x$ ，这是一个非常特殊的性质： $e^x$ 的导数等于它自己。正是这一性质使得 $e^x$ 在微分方程、概率论等领域具有核心地位。
对于一般指数函数 $f(x) = a^x$ （ $a > 0, a \neq 1$ ）： $\frac{d}{dx} a^x = a^x \ln a$
对于自然对数函数 $f(x) = \ln x$ ： $\frac{d}{dx} \ln x = \frac{1}{x}$
对于一般对数函数 $f(x) = \log_a x$ （ $a > 0, a \neq 1$ ）： $\frac{d}{dx} \log_a x = \frac{1}{x \ln a}$
三角函数
基本三角函数的导数：
函数导数
$\sin x$ $\cos x$
$\cos x$ $-\sin x$
$\tan x$ $\sec^2 x = \frac{1}{\cos^2 x}$
注意正弦和余弦的导数形成循环： $(\sin x)' = \cos x$ ， $(\cos x)' = -\sin x$ ，再求导两次又回到 $\sin x$ （相差一个负号）。这一性质在求解微分方程时非常有用。

函数	导数
$\sin x$	$\cos x$
$\cos x$	$-\sin x$
$\tan x$	$\sec^2 x = \frac{1}{\cos^2 x}$

类似于极限的运算法则，对于函数的加减乘除，也有相应的导数法则：

加法法则： $(f + g)' = f' + g'$
减法法则： $(f - g)' = f' - g'$
乘法法则（Product Rule）： $(f \cdot g)' = f' \cdot g + f \cdot g'$
除法法则（Quotient Rule）： $\left(\frac{f}{g}\right)' = \frac{f' \cdot g - f \cdot g'}{g^2}$

微分与线性近似

微分（Differential）可以理解为是导数的另一种表达形式。假设函数 $y = f(x)$ 在点 $x$ 处可导，则称 $dy = f'(x) dx$ 为函数 $y = f(x)$ 在点 $x$ 处的微分。这里 $dx$ 是自变量的增量（一个独立的量）， $dy$ 是因变量的微分。微分与导数的区别在于：导数是一个比值 $\frac{dy}{dx}$ ，而微分 $dy$ 和 $dx$ 是独立的量。假设函数在 $x$ 处的导数为 12，那它在 $x$ 处的微分 $dy = 12 \, dx$ ，这说明在 $x$ 处如果自变量有微小增量 $dx$ ，则函数值的增量约为 $12$ 倍的 $dx$ 。

微分的一个重要应用是线性近似（Linear Approximation），目的是将函数的复杂计算转化为相对简单的微分计算。当 $|\Delta x|$ 很小时，函数增量 $\Delta y = f(x + \Delta x) - f(x)$ 可以用微分 $dy = f'(x) \Delta x$ 来近似：

f(x + \Delta x) \approx f(x) + f'(x) \Delta x

这个公式在几何上表示：在点 $(x, f(x))$ 附近，用切线（直线）来近似曲线。线性近似在工程计算中非常有用。譬如，计算 $\sqrt{4.01}$ 的值，你可以假设 $f(x) = \sqrt{x}$ ，取 $x = 4$ ， $\Delta x = 0.01$ ，则有：

\sqrt{4.01} \approx \sqrt{4} + \frac{1}{2\sqrt{4}} \times 0.01 = 2 + \frac{1}{4} \times 0.01 = 2.0025

这个结果与精确值 $\sqrt{4.01} \approx 2.002498$ 误差仅约 $2 \times 10^{-6}$ 。线性近似的几何意义是在微小的尺度上，可以用一根直线段来近似模拟各种形状函数的曲线，只要尺度足够小，两者的长度是近似相等的。

高阶导数

如果函数 $f$ 的导数 $f'$ 仍然可导，我们可以对 $f'$ 再求导，得到二阶导数（Second Derivative）：

f''(x) = \frac{d}{dx}\left(\frac{df}{dx}\right) = \frac{d^2 f}{dx^2}

二阶导数具有许多有价值的物理和几何意义。譬如物理上，如果 $f(t)$ 表示位置关于时间的函数，则 $f'(t)$ 是速度，二阶导数 $f''(t)$ 代表的就是加速度。几何上，二阶导数可以反映出函数的凹凸性（Concavity）：

若 $f''(x) > 0$ ，则函数在 $x$ 处下凸（Convex，形状像碗口向上）
若 $f''(x) < 0$ ，则函数在 $x$ 处上凸（Concave，形状像碗口向下）
若 $f''(x) = 0$ ，则 $x$ 可能是拐点（Inflection Point）

在机器学习中，我们通常希望最小化的损失函数是凸函数（Convex Function），二阶导数非负，函数图像"碗口向上"，这意味着有唯一的全局最小值。判断函数的凹凸性，对于后面判断优化算法（如梯度下降）的能否稳定收敛十分重要。

继续推广，对于某些函数，我们还可以计算三阶、四阶甚至更高阶的导数。譬如：

$f(x) = e^x$ ，则 $f^{(n)}(x) = e^x$ （任意阶导数都是它自己）
$f(x) = \sin x$ ，则 $f'(x) = \cos x$ ， $f''(x) = -\sin x$ ， $f'''(x) = -\cos x$ ， $f^{(4)}(x) = \sin x$ （每四阶循环一次）

本章小结

导数是揭示了一个朴素却深刻的思想：任何连续变化的量，都可以通过它在某一点的变化趋势来刻画。从牛顿当年思考的瞬时速度问题出发，导数将平均变化率推向极限，得到了瞬时变化率的精确表达。这一从静态比值到动态极限的跨越，不仅是数学的进步，更是思维方式的转变，我们从此可以用一个数值来描述一个函数在某一点的变化倾向。几何上，导数是切线的斜率，这提供了我们用直线（线性）来理解曲线（非线性）的途径。

微分则将抽象的"变化率"转化为具体的"变化量"，让我们能够通过线性近似来简化复杂的函数计算。这一思想在机器学习中体现得尤为明显：泰勒展开将复杂函数分解为一系列多项式，梯度下降依赖一阶导数指引优化方向，而损失函数的凹凸性由二阶导数揭示，这些都是微分学在现代人工智能中的直接应用。极限、导数、微分、高阶导数这些概念层层递进，构成了理解连续变化世界的数学框架，也为下一章学习多元函数微分学奠定了坚实基础。

练习题

可导函数一定是连续函数吗？连续一定可导吗？
参考答案
如果函数 $f$ 在点 $x_0$ 处可导，则 $f$ 在 $x_0$ 处连续。
证明思路：可导意味着 $\lim_{\Delta x \to 0} \frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x}$ 存在。要证明连续，需要证明 $\lim_{\Delta x \to 0} [f(x_0 + \Delta x) - f(x_0)] = 0$ 。
$f(x_0 + \Delta x) - f(x_0) = \frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x} \cdot \Delta x$
当 $\Delta x \to 0$ 时，第一项趋近于 $f'(x_0)$ （导数存在），第二项趋近于 0，所以乘积趋近于 0。
但是，连续不一定可导。经典的反例是 $f(x) = |x|$ 在 $x = 0$ 处：函数连续，但在该点有一个"尖角"，左右导数不相等，因此不可导。
用极限的定义证明 $\lim_{x \to 2} (3x + 1) = 7$ 。
参考答案
要证明 $\lim_{x \to 2} (3x + 1) = 7$ ，需要对于任意 $\varepsilon > 0$ ，找到 $\delta > 0$ ，使得当 $0 < |x - 2| < \delta$ 时， $|(3x + 1) - 7| < \varepsilon$ 。
计算： $|(3x + 1) - 7| = |3x - 6| = 3|x - 2|$
要使 $3|x - 2| < \varepsilon$ ，只需 $|x - 2| < \frac{\varepsilon}{3}$ 。
因此，取 $\delta = \frac{\varepsilon}{3}$ ，当 $0 < |x - 2| < \delta$ 时，有 $|(3x + 1) - 7| = 3|x - 2| < 3 \cdot \frac{\varepsilon}{3} = \varepsilon$ 。
这就证明了 $\lim_{x \to 2} (3x + 1) = 7$ 。
用导数的定义求 $f(x) = x^3$ 在 $x = 1$ 处的导数。
参考答案
根据导数定义： $f'(1) = \lim_{\Delta x \to 0} \frac{f(1 + \Delta x) - f(1)}{\Delta x}$
计算：
- $f(1) = 1^3 = 1$
- $f(1 + \Delta x) = (1 + \Delta x)^3 = 1 + 3\Delta x + 3(\Delta x)^2 + (\Delta x)^3$
因此：
$f'(1) = \lim_{\Delta x \to 0} \frac{(1 + 3\Delta x + 3(\Delta x)^2 + (\Delta x)^3) - 1}{\Delta x} = \lim_{\Delta x \to 0} \frac{3\Delta x + 3(\Delta x)^2 + (\Delta x)^3}{\Delta x}$
$= \lim_{\Delta x \to 0} [3 + 3\Delta x + (\Delta x)^2] = 3$
也可以直接用幂函数导数公式验证： $f'(x) = 3x^2$ ，所以 $f'(1) = 3$ 。
求下列函数的导数：
- $f(x) = x^4 - 3x^2 + 2x - 5$
- $g(x) = e^x \sin x$
- $h(x) = \frac{\ln x}{x}$
参考答案
- 应用幂函数导数公式和加减法则：
$f'(x) = 4x^3 - 6x + 2$
- 应用乘法法则 $(f \cdot g)' = f' \cdot g + f \cdot g'$ ：
$g'(x) = \frac{d}{dx}(e^x) \cdot \sin x + e^x \cdot \frac{d}{dx}(\sin x) = e^x \sin x + e^x \cos x = e^x(\sin x + \cos x)$
- 应用除法法则 $\left(\frac{f}{g}\right)' = \frac{f' \cdot g - f \cdot g'}{g^2}$ ：
$h'(x) = \frac{\frac{1}{x} \cdot x - \ln x \cdot 1}{x^2} = \frac{1 - \ln x}{x^2}$
设 $f(x) = x^3 - 3x$ ，求：
- 函数的单调递增和递减区间
- 函数的凹凸区间和拐点
参考答案
首先求一阶导数： $f'(x) = 3x^2 - 3 = 3(x^2 - 1)$
令 $f'(x) = 0$ ，得 $x = \pm 1$ 。
- 当 $x < -1$ 或 $x > 1$ 时， $f'(x) > 0$ ，函数递增
- 当 $-1 < x < 1$ 时， $f'(x) < 0$ ，函数递减
求二阶导数： $f''(x) = 6x$
令 $f''(x) = 0$ ，得 $x = 0$ 。
- 当 $x < 0$ 时， $f''(x) < 0$ ，函数上凸
- 当 $x > 0$ 时， $f''(x) > 0$ ，函数下凸
因此， $x = 0$ 是拐点，拐点坐标为 $(0, 0)$ 。
用线性近似估算 $\sin(0.1)$ 的值（弧度制），并与精确值比较误差。
参考答案
设 $f(x) = \sin x$ ，取 $x_0 = 0$ ， $\Delta x = 0.1$ 。
线性近似公式： $f(x_0 + \Delta x) \approx f(x_0) + f'(x_0) \cdot \Delta x$
计算：
- $f(0) = \sin 0 = 0$
- $f'(x) = \cos x$ ，所以 $f'(0) = \cos 0 = 1$
因此： $\sin(0.1) \approx 0 + 1 \times 0.1 = 0.1$
精确值： $\sin(0.1) \approx 0.099833$
误差： $|0.1 - 0.099833| \approx 0.000167 \approx 1.67 \times 10^{-4}$
相对误差： $\frac{0.000167}{0.099833} \approx 0.17\%$
可见对于小角度， $\sin x \approx x$ 是一个很好的近似。