设计机器学习应用系统设计机器学习应用系统
首页
讨论区
首页
讨论区
  • 目录
  • 前言

    • 关于作者
    • 关于本文档
  • 机器学习数学基础

    • 线性代数

      • 引言:机器学习的语言
      • 向量基础
      • 矩阵基础
      • 数据处理实践
    • 微积分

      • 引言:变化与累积
      • 极限、导数与微分
      • 多元函数与复合函数求导
      • 微积分计算实践
    • 统计与概率

      • 引言:概率性思维
      • 概率基础
      • 统计推断
      • 概率统计实践
  • 经典统计学习方法

    • 线性模型

      • 线性回归
      • 逻辑回归
      • 正则化与广义线性模型
    • 贝叶斯方法

      • 朴素贝叶斯
      • 贝叶斯网络
      • EM 算法
    • 支持向量机

      • 支持向量机
      • 核技巧
    • 决策树与集成

      • 决策树
      • 随机森林
      • 提升方法
    • 无监督学习

      • 聚类
      • 降维
  • 神经网络与深度学习

    • 神经网络结构

      • 神经网络基础原理
      • 线性感知机
      • 多层感知机
      • 前向传播
      • 反向传播
      • 激活函数与损失函数
    • 优化神经网络

      • 梯度下降
      • 自适应优化器
    • 深层网络稳定性

      • 权重初始化
      • Dropout 正则化
      • 批归一化
    • 卷积神经网络

      • CNN 基础原理
      • AlexNet 与 CNN 复兴
      • VGG 与 GoogLeNet
      • ResNet 残差网络
      • 工程实训:AlexNet 图像分类实验
    • 生成式模型

      • 变分自编码器
      • 生成式对抗网络
      • 工程实训:DCGAN 图像生成实验
    • 序列模型

      • 词嵌入与表示学习
      • RNN 基础原理
      • LSTM 与 GRU 门控机制
      • Seq2Seq 序列映射
      • 工程实训:LSTM 古诗词生成实验
  • 语言模型的奇点

    • Transformer 架构

      • Transformer 基础原理
      • Transformer 演进与变体
      • 语言模型与分词
      • 工程实训:Transformer 模型训练实验
    • 预训练与微调

      • 预训练数据工程
      • 缩放定律
    • 对齐训练

    • 推理能力

    • 前沿与融合

  • AI Infra & 应用(名字待定)

  • 机器学习经典论文

  • 附录

    • 构建沙箱环境
    • 临时格式测试页面

极限、导数与微分

在介绍导数之前,我们先以高中课程的直观讲解方式去理解极限(Limit)的概念。极限是微积分理论的引子,它描述了当自变量无限接近某个值时,函数值的变化趋势。考虑一个简单的函数 f(x)=x2−1x−1f(x) = \frac{x^2 - 1}{x - 1}f(x)=x−1x2−1​。当 x=1x = 1x=1 时,分母为零,函数值不存在。但是,如果我们观察 xxx 接近 1 时的函数值的变化:

xxxf(x)f(x)f(x)
0.91.9
0.991.99
0.9991.999
1.0012.001
1.012.01
1.12.1

可以看到,当 xxx 从两侧趋近于 1 时,f(x)f(x)f(x) 趋近于 2。这就是极限的直观含义:当 xxx 无限接近某个值 aaa 时,函数值 f(x)f(x)f(x) 无限接近某个值 LLL,记作:lim⁡x→af(x)=L\lim_{x \to a} f(x) = Llimx→a​f(x)=L。注意,极限关注的是 xxx "趋近于" aaa 的过程,而不是 xxx 等于 aaa 时的函数值。在上面的例子中,f(1)f(1)f(1) 甚至不存在,但 lim⁡x→1f(x)=2\lim_{x \to 1} f(x) = 2limx→1​f(x)=2 是完全确定的。

极限的严格定义与连续性

高中课程对极限的直观理解虽然有助于建立概念,但数学需要严谨。19 世纪,德国数学家卡尔·魏尔斯特拉斯(Karl Weierstrass)给出了极限的严格定义:设函数 fff 在点 aaa 的某个去心邻域(不包含点 aaa 本身的邻域)内有定义,如果存在常数 LLL,对于任意给定无论多小的正数 ε\varepsilonε,都存在正数 δ\deltaδ,使得当 0<∣x−a∣<δ0 < |x - a| < \delta0<∣x−a∣<δ 时,有 ∣f(x)−L∣<ε|f(x) - L| < \varepsilon∣f(x)−L∣<ε,则称 LLL 是函数 f(x)f(x)f(x) 当 x→ax \to ax→a 时的极限。这个今天被称作 ε−δ\varepsilon -\deltaε−δ 语言,它利用两个不等式精确地刻画了数学上什么是"无限趋近":

  • ∣x−a∣<δ|x - a| < \delta∣x−a∣<δ 表示 xxx 与 aaa 的距离小于 δ\deltaδ(xxx 足够接近 aaa)
  • ∣f(x)−L∣<ε|f(x) - L| < \varepsilon∣f(x)−L∣<ε 表示 f(x)f(x)f(x) 与 LLL 的距离小于 ε\varepsilonε(f(x)f(x)f(x) 足够接近 LLL)

ε−δ\varepsilon -\deltaε−δ 语言所描述的图景是:你想让 f(x)f(x)f(x) 多接近 LLL(给定 ε\varepsilonε),我就能找到 xxx 足够接近 aaa 的范围(确定 δ\deltaδ),使得在这个范围内 f(x)f(x)f(x) 达到你要求的接近程度。对于非数学专业的读者,理解 ε−δ\varepsilon-\deltaε−δ 描绘的逻辑结构比记忆具体证明更重要。在实际应用中,我们主要依赖极限的直观理解和运算法则来解决问题。

是的,极限也是有运算法则的,这些法则告诉我们极限运算可以"穿透"加减乘除,分别对各部分求极限后再进行相应运算。设 lim⁡x→af(x)=A\lim_{x \to a} f(x) = Alimx→a​f(x)=A,lim⁡x→ag(x)=B\lim_{x \to a} g(x) = Blimx→a​g(x)=B,则以下运算法则成立:

  • 加法:lim⁡x→a[f(x)+g(x)]=A+B\lim_{x \to a} [f(x) + g(x)] = A + Blimx→a​[f(x)+g(x)]=A+B
  • 减法:lim⁡x→a[f(x)−g(x)]=A−B\lim_{x \to a} [f(x) - g(x)] = A - Blimx→a​[f(x)−g(x)]=A−B
  • 乘法:lim⁡x→a[f(x)⋅g(x)]=A⋅B\lim_{x \to a} [f(x) \cdot g(x)] = A \cdot Blimx→a​[f(x)⋅g(x)]=A⋅B
  • 除法:lim⁡x→af(x)g(x)=AB\lim_{x \to a} \frac{f(x)}{g(x)} = \frac{A}{B}limx→a​g(x)f(x)​=BA​(当 B≠0B \neq 0B=0)

直观上,"连续"就是函数的图像可以一笔画出,不需要抬笔。但只有严格厘清何为极限后,才可能精确定义连续(Continuous)。连续是描述函数"没有断裂"的数学概念,它的数学定义为函数 fff 在点 aaa 处连续,当且仅当满足以下三个条件:

  1. f(a)f(a)f(a) 有定义
  2. lim⁡x→af(x)\lim_{x \to a} f(x)limx→a​f(x) 存在
  3. lim⁡x→af(x)=f(a)\lim_{x \to a} f(x) = f(a)limx→a​f(x)=f(a)

第三个条件将极限值与函数值统一起来:"极限等于函数值"正是"连续"的真正含义。连续函数有许多良好的性质。譬如,介值定理(Intermediate Value Theorem)告诉我们:如果连续函数 fff 在区间 [a,b][a, b][a,b] 上取值 f(a)f(a)f(a) 和 f(b)f(b)f(b),那么对介于 f(a)f(a)f(a) 和 f(b)f(b)f(b) 之间的任何值 ccc,存在 x∈(a,b)x \in (a, b)x∈(a,b) 使得 f(x)=cf(x) = cf(x)=c。这个定理常用于数值计算中求方程的根(如二分法)。

导数的定义与几何意义

我们从当年牛顿考虑的物理问题出发引出导数。假设一个物体沿直线运动,其位置 sss 是时间 ttt 的函数 s=s(t)s = s(t)s=s(t)。在时间段 [t0,t0+Δt][t_0, t_0 + \Delta t][t0​,t0​+Δt] 内,物体移动的距离为 s(t0+Δt)−s(t0)s(t_0 + \Delta t) - s(t_0)s(t0​+Δt)−s(t0​),平均速度就可以表示为:

vˉ=s(t0+Δt)−s(t0)Δt\bar{v} = \frac{s(t_0 + \Delta t) - s(t_0)}{\Delta t}vˉ=Δts(t0​+Δt)−s(t0​)​

这就是平均变化率的概念:函数值的变化量除以自变量的变化量。但是,如果要关注物体在某一时刻 t0t_0t0​ 的瞬时速度,又该如何定义呢?直觉告诉我们,让时间间隔 Δt\Delta tΔt 越来越小,平均速度就会越来越接近瞬时速度。当 Δt\Delta tΔt 趋近于零时,平均速度的极限就是瞬时速度:

v(t0)=lim⁡Δt→0s(t0+Δt)−s(t0)Δtv(t_0) = \lim_{\Delta t \to 0} \frac{s(t_0 + \Delta t) - s(t_0)}{\Delta t}v(t0​)=Δt→0lim​Δts(t0​+Δt)−s(t0​)​

更一般地,假设函数 y=f(x)y = f(x)y=f(x) 在点 x0x_0x0​ 的某个邻域内有定义,如果极限 lim⁡Δx→0f(x0+Δx)−f(x0)Δx\lim_{\Delta x \to 0} \frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x}limΔx→0​Δxf(x0​+Δx)−f(x0​)​ 存在,则称函数 fff 在点 x0x_0x0​ 处可导(Differentiable),此极限值称为 fff 在 x0x_0x0​ 处的导数(Derivative),记作 f′(x0)f'(x_0)f′(x0​) 或 dfdx∣x=x0\frac{df}{dx}\bigg|_{x=x_0}dxdf​​x=x0​​(前者为拉格朗日记法,后者为莱布尼茨记法,两者至今都在广泛使用)。这个定义中的分式 f(x0+Δx)−f(x0)Δx\frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x}Δxf(x0​+Δx)−f(x0​)​ 称为差商(Difference Quotient),它表示函数在区间 [x0,x0+Δx][x_0, x_0 + \Delta x][x0​,x0​+Δx] 上的平均变化率。导数就是差商当 Δx→0\Delta x \to 0Δx→0 时的极限,即瞬时变化率。导数的另一种等价定义形式是:

f′(x0)=lim⁡x→x0f(x)−f(x0)x−x0f'(x_0) = \lim_{x \to x_0} \frac{f(x) - f(x_0)}{x - x_0}f′(x0​)=x→x0​lim​x−x0​f(x)−f(x0​)​

这两种定义是等价的,只需令 x=x0+Δxx = x_0 + \Delta xx=x0​+Δx 即可相互转换。

导数有非常直观的几何意义:切线的斜率。考虑函数 y=f(x)y = f(x)y=f(x) 的图像,在点 (x0,f(x0))(x_0, f(x_0))(x0​,f(x0​)) 处画一条切线(Tangent Line)。这条切线的斜率就是 f′(x0)f'(x_0)f′(x0​)。先考虑通过两个点 (x0,f(x0))(x_0, f(x_0))(x0​,f(x0​)) 和 (x0+Δx,f(x0+Δx))(x_0 + \Delta x, f(x_0 + \Delta x))(x0​+Δx,f(x0​+Δx)) 的一条割线(Secant Line)。割线的斜率为:

割线斜率=f(x0+Δx)−f(x0)Δx\text{割线斜率} = \frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x}割线斜率=Δxf(x0​+Δx)−f(x0​)​

这正好是差商,当 Δx→0\Delta x \to 0Δx→0 时,点 (x0+Δx,f(x0+Δx))(x_0 + \Delta x, f(x_0 + \Delta x))(x0​+Δx,f(x0​+Δx)) 沿曲线趋近于 (x0,f(x0))(x_0, f(x_0))(x0​,f(x0​)),观察下图,随着割线穿过的两点逐渐靠近,割线逐渐逼近切线,最终与切线重合。因此,导数 f′(x0)f'(x_0)f′(x0​) 就是切线的斜率。

函数的切线与割线

图:割线逐渐逼近切线的过程

常见函数的导数

掌握基本函数的导数公式是进行微分运算的基础。就像学习算术需要先背诵乘法表一样,求导时若能熟练运用基本公式,便可极大简化计算过程。本节介绍幂函数、指数函数、对数函数和三角函数的导数公式,以及函数加减乘除的求导法则。这些公式与运算法则相互配合,使我们能够处理绝大多数常见函数的求导问题。特别值得注意的是,这些公式在机器学习中频繁出现,譬如 exe^xex 的导数等于自身的特性使其在概率分布(如 Softmax)中扮演核心角色,而 ln⁡x\ln xlnx 的导数则在最大似然估计中不可或缺。

  • 幂函数

    对于幂函数 f(x)=xnf(x) = x^nf(x)=xn(nnn 为正整数),其导数为:ddxxn=nxn−1\frac{d}{dx} x^n = nx^{n-1}dxd​xn=nxn−1,这个公式可以推广到任意实数 nnn,例如:

    • f(x)=x1/2=xf(x) = x^{1/2} = \sqrt{x}f(x)=x1/2=x​,则 f′(x)=12x−1/2=12xf'(x) = \frac{1}{2}x^{-1/2} = \frac{1}{2\sqrt{x}}f′(x)=21​x−1/2=2x​1​
    • f(x)=x−1=1xf(x) = x^{-1} = \frac{1}{x}f(x)=x−1=x1​,则 f′(x)=−x−2=−1x2f'(x) = -x^{-2} = -\frac{1}{x^2}f′(x)=−x−2=−x21​
  • 指数函数与对数函数

    对于自然指数函数 f(x)=exf(x) = e^xf(x)=ex:ddxex=ex\frac{d}{dx} e^x = e^xdxd​ex=ex,这是一个非常特殊的性质:exe^xex 的导数等于它自己。正是这一性质使得 exe^xex 在微分方程、概率论等领域具有核心地位。

    对于一般指数函数 f(x)=axf(x) = a^xf(x)=ax(a>0,a≠1a > 0, a \neq 1a>0,a=1):ddxax=axln⁡a\frac{d}{dx} a^x = a^x \ln adxd​ax=axlna

    对于自然对数函数 f(x)=ln⁡xf(x) = \ln xf(x)=lnx:ddxln⁡x=1x\frac{d}{dx} \ln x = \frac{1}{x}dxd​lnx=x1​

    对于一般对数函数 f(x)=log⁡axf(x) = \log_a xf(x)=loga​x(a>0,a≠1a > 0, a \neq 1a>0,a=1):ddxlog⁡ax=1xln⁡a\frac{d}{dx} \log_a x = \frac{1}{x \ln a}dxd​loga​x=xlna1​

  • 三角函数

    基本三角函数的导数:

    函数导数
    sin⁡x\sin xsinxcos⁡x\cos xcosx
    cos⁡x\cos xcosx−sin⁡x-\sin x−sinx
    tan⁡x\tan xtanxsec⁡2x=1cos⁡2x\sec^2 x = \frac{1}{\cos^2 x}sec2x=cos2x1​

    注意正弦和余弦的导数形成循环:(sin⁡x)′=cos⁡x(\sin x)' = \cos x(sinx)′=cosx,(cos⁡x)′=−sin⁡x(\cos x)' = -\sin x(cosx)′=−sinx,再求导两次又回到 sin⁡x\sin xsinx(相差一个负号)。这一性质在求解微分方程时非常有用。

类似于极限的运算法则,对于函数的加减乘除,也有相应的导数法则:

  • 加法法则:(f+g)′=f′+g′(f + g)' = f' + g'(f+g)′=f′+g′

  • 减法法则:(f−g)′=f′−g′(f - g)' = f' - g'(f−g)′=f′−g′

  • 乘法法则(Product Rule):(f⋅g)′=f′⋅g+f⋅g′(f \cdot g)' = f' \cdot g + f \cdot g'(f⋅g)′=f′⋅g+f⋅g′

  • 除法法则(Quotient Rule):(fg)′=f′⋅g−f⋅g′g2\left(\frac{f}{g}\right)' = \frac{f' \cdot g - f \cdot g'}{g^2}(gf​)′=g2f′⋅g−f⋅g′​

微分与线性近似

微分(Differential)可以理解为是导数的另一种表达形式。假设函数 y=f(x)y = f(x)y=f(x) 在点 xxx 处可导,则称 dy=f′(x)dxdy = f'(x) dxdy=f′(x)dx 为函数 y=f(x)y = f(x)y=f(x) 在点 xxx 处的微分。这里 dxdxdx 是自变量的增量(一个独立的量),dydydy 是因变量的微分。微分与导数的区别在于:导数是一个比值 dydx\frac{dy}{dx}dxdy​,而微分 dydydy 和 dxdxdx 是独立的量。假设函数在 xxx 处的导数为 12,那它在 xxx 处的微分 dy=12 dxdy = 12 \, dxdy=12dx,这说明在 xxx 处如果自变量有微小增量 dxdxdx,则函数值的增量约为 121212 倍的 dxdxdx。

微分的一个重要应用是线性近似(Linear Approximation),目的是将函数的复杂计算转化为相对简单的微分计算。当 ∣Δx∣|\Delta x|∣Δx∣ 很小时,函数增量 Δy=f(x+Δx)−f(x)\Delta y = f(x + \Delta x) - f(x)Δy=f(x+Δx)−f(x) 可以用微分 dy=f′(x)Δxdy = f'(x) \Delta xdy=f′(x)Δx 来近似:

f(x+Δx)≈f(x)+f′(x)Δxf(x + \Delta x) \approx f(x) + f'(x) \Delta xf(x+Δx)≈f(x)+f′(x)Δx

这个公式在几何上表示:在点 (x,f(x))(x, f(x))(x,f(x)) 附近,用切线(直线)来近似曲线。线性近似在工程计算中非常有用。例如,计算 4.01\sqrt{4.01}4.01​ 的值,你可以假设 f(x)=xf(x) = \sqrt{x}f(x)=x​,取 x=4x = 4x=4,Δx=0.01\Delta x = 0.01Δx=0.01,则有:

4.01≈4+124×0.01=2+14×0.01=2.0025\sqrt{4.01} \approx \sqrt{4} + \frac{1}{2\sqrt{4}} \times 0.01 = 2 + \frac{1}{4} \times 0.01 = 2.00254.01​≈4​+24​1​×0.01=2+41​×0.01=2.0025

这个结果与精确值 4.01≈2.002498\sqrt{4.01} \approx 2.0024984.01​≈2.002498 误差仅约 2×10−62 \times 10^{-6}2×10−6。线性近似的几何意义是在微小的尺度上,可以用一根直线段来近似模拟各种形状函数的曲线,只要尺度足够小,两者的长度是近似相等的。

高阶导数

如果函数 fff 的导数 f′f'f′ 仍然可导,我们可以对 f′f'f′ 再求导,得到二阶导数(Second Derivative):

f′′(x)=ddx(dfdx)=d2fdx2f''(x) = \frac{d}{dx}\left(\frac{df}{dx}\right) = \frac{d^2 f}{dx^2}f′′(x)=dxd​(dxdf​)=dx2d2f​

二阶导数具有许多有价值的物理和几何意义。譬如物理上,如果 f(t)f(t)f(t) 表示位置关于时间的函数,则 f′(t)f'(t)f′(t) 是速度,二阶导数 f′′(t)f''(t)f′′(t) 代表的就是加速度。几何上,二阶导数可以反映出函数的凹凸性(Concavity):

  • 若 f′′(x)>0f''(x) > 0f′′(x)>0,则函数在 xxx 处下凸(Convex,形状像碗口向上)
  • 若 f′′(x)<0f''(x) < 0f′′(x)<0,则函数在 xxx 处上凸(Concave,形状像碗口向下)
  • 若 f′′(x)=0f''(x) = 0f′′(x)=0,则 xxx 可能是拐点(Inflection Point)

在机器学习中,我们通常希望最小化的损失函数是凸函数(Convex Function),二阶导数非负,函数图像"碗口向上",这意味着有唯一的全局最小值。判断函数的凹凸性,对于后面判断优化算法(如梯度下降)的能否稳定收敛十分重要。

继续推广,对于某些函数,我们还可以计算三阶、四阶甚至更高阶的导数。譬如:

  • f(x)=exf(x) = e^xf(x)=ex,则 f(n)(x)=exf^{(n)}(x) = e^xf(n)(x)=ex(任意阶导数都是它自己)
  • f(x)=sin⁡xf(x) = \sin xf(x)=sinx,则 f′(x)=cos⁡xf'(x) = \cos xf′(x)=cosx,f′′(x)=−sin⁡xf''(x) = -\sin xf′′(x)=−sinx,f′′′(x)=−cos⁡xf'''(x) = -\cos xf′′′(x)=−cosx,f(4)(x)=sin⁡xf^{(4)}(x) = \sin xf(4)(x)=sinx(每四阶循环一次)

本章小结

导数是揭示了一个朴素却深刻的思想:任何连续变化的量,都可以通过它在某一点的变化趋势来刻画。从牛顿当年思考的瞬时速度问题出发,导数将平均变化率推向极限,得到了瞬时变化率的精确表达。这一从静态比值到动态极限的跨越,不仅是数学的进步,更是思维方式的转变,我们从此可以用一个数值来描述一个函数在某一点的变化倾向。几何上,导数是切线的斜率,这提供了我们用直线(线性)来理解曲线(非线性)的途径。

微分则将抽象的"变化率"转化为具体的"变化量",让我们能够通过线性近似来简化复杂的函数计算。这一思想在机器学习中体现得尤为明显:泰勒展开将复杂函数分解为一系列多项式,梯度下降依赖一阶导数指引优化方向,而损失函数的凹凸性由二阶导数揭示,这些都是微分学在现代人工智能中的直接应用。极限、导数、微分、高阶导数这些概念层层递进,构成了理解连续变化世界的数学框架,也为下一章学习多元函数微分学奠定了坚实基础。

练习题

  1. 可导函数一定是连续函数吗?连续一定可导吗?

    参考答案

    如果函数 fff 在点 x0x_0x0​ 处可导,则 fff 在 x0x_0x0​ 处连续。

    证明思路:可导意味着 lim⁡Δx→0f(x0+Δx)−f(x0)Δx\lim_{\Delta x \to 0} \frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x}limΔx→0​Δxf(x0​+Δx)−f(x0​)​ 存在。要证明连续,需要证明 lim⁡Δx→0[f(x0+Δx)−f(x0)]=0\lim_{\Delta x \to 0} [f(x_0 + \Delta x) - f(x_0)] = 0limΔx→0​[f(x0​+Δx)−f(x0​)]=0。

    f(x0+Δx)−f(x0)=f(x0+Δx)−f(x0)Δx⋅Δxf(x_0 + \Delta x) - f(x_0) = \frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x} \cdot \Delta xf(x0​+Δx)−f(x0​)=Δxf(x0​+Δx)−f(x0​)​⋅Δx

    当 Δx→0\Delta x \to 0Δx→0 时,第一项趋近于 f′(x0)f'(x_0)f′(x0​)(导数存在),第二项趋近于 0,所以乘积趋近于 0。

    但是,连续不一定可导。经典的反例是 f(x)=∣x∣f(x) = |x|f(x)=∣x∣ 在 x=0x = 0x=0 处:函数连续,但在该点有一个"尖角",左右导数不相等,因此不可导。

  2. 用极限的定义证明 lim⁡x→2(3x+1)=7\lim_{x \to 2} (3x + 1) = 7limx→2​(3x+1)=7。

    参考答案

    要证明 lim⁡x→2(3x+1)=7\lim_{x \to 2} (3x + 1) = 7limx→2​(3x+1)=7,需要对于任意 ε>0\varepsilon > 0ε>0,找到 δ>0\delta > 0δ>0,使得当 0<∣x−2∣<δ0 < |x - 2| < \delta0<∣x−2∣<δ 时,∣(3x+1)−7∣<ε|(3x + 1) - 7| < \varepsilon∣(3x+1)−7∣<ε。

    计算:∣(3x+1)−7∣=∣3x−6∣=3∣x−2∣|(3x + 1) - 7| = |3x - 6| = 3|x - 2|∣(3x+1)−7∣=∣3x−6∣=3∣x−2∣

    要使 3∣x−2∣<ε3|x - 2| < \varepsilon3∣x−2∣<ε,只需 ∣x−2∣<ε3|x - 2| < \frac{\varepsilon}{3}∣x−2∣<3ε​。

    因此,取 δ=ε3\delta = \frac{\varepsilon}{3}δ=3ε​,当 0<∣x−2∣<δ0 < |x - 2| < \delta0<∣x−2∣<δ 时,有 ∣(3x+1)−7∣=3∣x−2∣<3⋅ε3=ε|(3x + 1) - 7| = 3|x - 2| < 3 \cdot \frac{\varepsilon}{3} = \varepsilon∣(3x+1)−7∣=3∣x−2∣<3⋅3ε​=ε。

    这就证明了 lim⁡x→2(3x+1)=7\lim_{x \to 2} (3x + 1) = 7limx→2​(3x+1)=7。

  3. 用导数的定义求 f(x)=x3f(x) = x^3f(x)=x3 在 x=1x = 1x=1 处的导数。

    参考答案

    根据导数定义:f′(1)=lim⁡Δx→0f(1+Δx)−f(1)Δxf'(1) = \lim_{\Delta x \to 0} \frac{f(1 + \Delta x) - f(1)}{\Delta x}f′(1)=limΔx→0​Δxf(1+Δx)−f(1)​

    计算:

    • f(1)=13=1f(1) = 1^3 = 1f(1)=13=1
    • f(1+Δx)=(1+Δx)3=1+3Δx+3(Δx)2+(Δx)3f(1 + \Delta x) = (1 + \Delta x)^3 = 1 + 3\Delta x + 3(\Delta x)^2 + (\Delta x)^3f(1+Δx)=(1+Δx)3=1+3Δx+3(Δx)2+(Δx)3

    因此:

    f′(1)=lim⁡Δx→0(1+3Δx+3(Δx)2+(Δx)3)−1Δx=lim⁡Δx→03Δx+3(Δx)2+(Δx)3Δxf'(1) = \lim_{\Delta x \to 0} \frac{(1 + 3\Delta x + 3(\Delta x)^2 + (\Delta x)^3) - 1}{\Delta x} = \lim_{\Delta x \to 0} \frac{3\Delta x + 3(\Delta x)^2 + (\Delta x)^3}{\Delta x}f′(1)=Δx→0lim​Δx(1+3Δx+3(Δx)2+(Δx)3)−1​=Δx→0lim​Δx3Δx+3(Δx)2+(Δx)3​
    =lim⁡Δx→0[3+3Δx+(Δx)2]=3= \lim_{\Delta x \to 0} [3 + 3\Delta x + (\Delta x)^2] = 3=Δx→0lim​[3+3Δx+(Δx)2]=3

    也可以直接用幂函数导数公式验证:f′(x)=3x2f'(x) = 3x^2f′(x)=3x2,所以 f′(1)=3f'(1) = 3f′(1)=3。

  4. 求下列函数的导数:

    • f(x)=x4−3x2+2x−5f(x) = x^4 - 3x^2 + 2x - 5f(x)=x4−3x2+2x−5
    • g(x)=exsin⁡xg(x) = e^x \sin xg(x)=exsinx
    • h(x)=ln⁡xxh(x) = \frac{\ln x}{x}h(x)=xlnx​
    参考答案
    • 应用幂函数导数公式和加减法则:
    f′(x)=4x3−6x+2f'(x) = 4x^3 - 6x + 2f′(x)=4x3−6x+2
    • 应用乘法法则 (f⋅g)′=f′⋅g+f⋅g′(f \cdot g)' = f' \cdot g + f \cdot g'(f⋅g)′=f′⋅g+f⋅g′:
    g′(x)=ddx(ex)⋅sin⁡x+ex⋅ddx(sin⁡x)=exsin⁡x+excos⁡x=ex(sin⁡x+cos⁡x)g'(x) = \frac{d}{dx}(e^x) \cdot \sin x + e^x \cdot \frac{d}{dx}(\sin x) = e^x \sin x + e^x \cos x = e^x(\sin x + \cos x)g′(x)=dxd​(ex)⋅sinx+ex⋅dxd​(sinx)=exsinx+excosx=ex(sinx+cosx)
    • 应用除法法则 (fg)′=f′⋅g−f⋅g′g2\left(\frac{f}{g}\right)' = \frac{f' \cdot g - f \cdot g'}{g^2}(gf​)′=g2f′⋅g−f⋅g′​:
    h′(x)=1x⋅x−ln⁡x⋅1x2=1−ln⁡xx2h'(x) = \frac{\frac{1}{x} \cdot x - \ln x \cdot 1}{x^2} = \frac{1 - \ln x}{x^2}h′(x)=x2x1​⋅x−lnx⋅1​=x21−lnx​
  5. 设 f(x)=x3−3xf(x) = x^3 - 3xf(x)=x3−3x,求:

    • 函数的单调递增和递减区间
    • 函数的凹凸区间和拐点
    参考答案

    首先求一阶导数:f′(x)=3x2−3=3(x2−1)f'(x) = 3x^2 - 3 = 3(x^2 - 1)f′(x)=3x2−3=3(x2−1)

    令 f′(x)=0f'(x) = 0f′(x)=0,得 x=±1x = \pm 1x=±1。

    • 当 x<−1x < -1x<−1 或 x>1x > 1x>1 时,f′(x)>0f'(x) > 0f′(x)>0,函数递增
    • 当 −1<x<1-1 < x < 1−1<x<1 时,f′(x)<0f'(x) < 0f′(x)<0,函数递减

    求二阶导数:f′′(x)=6xf''(x) = 6xf′′(x)=6x

    令 f′′(x)=0f''(x) = 0f′′(x)=0,得 x=0x = 0x=0。

    • 当 x<0x < 0x<0 时,f′′(x)<0f''(x) < 0f′′(x)<0,函数上凸
    • 当 x>0x > 0x>0 时,f′′(x)>0f''(x) > 0f′′(x)>0,函数下凸

    因此,x=0x = 0x=0 是拐点,拐点坐标为 (0,0)(0, 0)(0,0)。

  6. 用线性近似估算 sin⁡(0.1)\sin(0.1)sin(0.1) 的值(弧度制),并与精确值比较误差。

    参考答案

    设 f(x)=sin⁡xf(x) = \sin xf(x)=sinx,取 x0=0x_0 = 0x0​=0,Δx=0.1\Delta x = 0.1Δx=0.1。

    线性近似公式:f(x0+Δx)≈f(x0)+f′(x0)⋅Δxf(x_0 + \Delta x) \approx f(x_0) + f'(x_0) \cdot \Delta xf(x0​+Δx)≈f(x0​)+f′(x0​)⋅Δx

    计算:

    • f(0)=sin⁡0=0f(0) = \sin 0 = 0f(0)=sin0=0
    • f′(x)=cos⁡xf'(x) = \cos xf′(x)=cosx,所以 f′(0)=cos⁡0=1f'(0) = \cos 0 = 1f′(0)=cos0=1

    因此:sin⁡(0.1)≈0+1×0.1=0.1\sin(0.1) \approx 0 + 1 \times 0.1 = 0.1sin(0.1)≈0+1×0.1=0.1

    精确值:sin⁡(0.1)≈0.099833\sin(0.1) \approx 0.099833sin(0.1)≈0.099833

    误差:∣0.1−0.099833∣≈0.000167≈1.67×10−4|0.1 - 0.099833| \approx 0.000167 \approx 1.67 \times 10^{-4}∣0.1−0.099833∣≈0.000167≈1.67×10−4

    相对误差:0.0001670.099833≈0.17%\frac{0.000167}{0.099833} \approx 0.17\%0.0998330.000167​≈0.17%

    可见对于小角度,sin⁡x≈x\sin x \approx xsinx≈x 是一个很好的近似。

文章字数:4,607
更新于 2026-05-15
Star
Last Updated:
Contributors: icyfenix, Claude Opus 4.7, Claude Opus 4.6
Prev
引言:变化与累积
Next
多元函数与复合函数求导