在介绍导数之前,我们先以高中课程的直观讲解方式去理解极限 (Limit)的概念。极限是微积分理论的引子,它描述了当自变量无限接近某个值时,函数值的变化趋势。考虑一个简单的函数 f ( x ) = x 2 − 1 x − 1 f(x) = \frac{x^2 - 1}{x - 1} f ( x ) = x − 1 x 2 − 1 。当 x = 1 x = 1 x = 1 时,分母为零,函数值不存在。但是,如果我们观察 x x x 接近 1 时的函数值的变化:
x x x f ( x ) f(x) f ( x ) 0.9 1.9 0.99 1.99 0.999 1.999 1.001 2.001 1.01 2.01 1.1 2.1
可以看到,当 x x x 从两侧趋近于 1 时,f ( x ) f(x) f ( x ) 趋近于 2。这就是极限的直观含义:当 x x x 无限接近某个值 a a a 时,函数值 f ( x ) f(x) f ( x ) 无限接近某个值 L L L ,记作:lim x → a f ( x ) = L \lim_{x \to a} f(x) = L lim x → a f ( x ) = L 。注意,极限关注的是 x x x "趋近于" a a a 的过程,而不是 x x x 等于 a a a 时的函数值。在上面的例子中,f ( 1 ) f(1) f ( 1 ) 甚至不存在,但 lim x → 1 f ( x ) = 2 \lim_{x \to 1} f(x) = 2 lim x → 1 f ( x ) = 2 是完全确定的。
高中课程对极限的直观理解虽然有助于建立概念,但数学需要严谨。19 世纪,德国数学家卡尔·魏尔斯特拉斯(Karl Weierstrass)给出了极限的严格定义:设函数 f f f 在点 a a a 的某个去心邻域 (不包含点 a a a 本身的邻域)内有定义,如果存在常数 L L L ,对于任意给定无论多小的正数 ε \varepsilon ε ,都存在正数 δ \delta δ ,使得当 0 < ∣ x − a ∣ < δ 0 < |x - a| < \delta 0 < ∣ x − a ∣ < δ 时,有 ∣ f ( x ) − L ∣ < ε |f(x) - L| < \varepsilon ∣ f ( x ) − L ∣ < ε ,则称 L L L 是函数 f ( x ) f(x) f ( x ) 当 x → a x \to a x → a 时的极限。这个今天被称作 ε − δ \varepsilon -\delta ε − δ 语言,它利用两个不等式精确地刻画了数学上什么是"无限趋近":
∣ x − a ∣ < δ |x - a| < \delta ∣ x − a ∣ < δ 表示 x x x 与 a a a 的距离小于 δ \delta δ (x x x 足够接近 a a a )∣ f ( x ) − L ∣ < ε |f(x) - L| < \varepsilon ∣ f ( x ) − L ∣ < ε 表示 f ( x ) f(x) f ( x ) 与 L L L 的距离小于 ε \varepsilon ε (f ( x ) f(x) f ( x ) 足够接近 L L L )ε − δ \varepsilon -\delta ε − δ 语言所描述的图景是:你想让 f ( x ) f(x) f ( x ) 多接近 L L L (给定 ε \varepsilon ε ),我就能找到 x x x 足够接近 a a a 的范围(确定 δ \delta δ ),使得在这个范围内 f ( x ) f(x) f ( x ) 达到你要求的接近程度。对于非数学专业的读者,理解 ε − δ \varepsilon-\delta ε − δ 描绘的逻辑结构比记忆具体证明更重要。在实际应用中,我们主要依赖极限的直观理解和运算法则来解决问题。
是的,极限也是有运算法则的,这些法则告诉我们极限运算可以"穿透"加减乘除,分别对各部分求极限后再进行相应运算。设 lim x → a f ( x ) = A \lim_{x \to a} f(x) = A lim x → a f ( x ) = A ,lim x → a g ( x ) = B \lim_{x \to a} g(x) = B lim x → a g ( x ) = B ,则以下运算法则成立:
加法 :lim x → a [ f ( x ) + g ( x ) ] = A + B \lim_{x \to a} [f(x) + g(x)] = A + B lim x → a [ f ( x ) + g ( x )] = A + B 减法 :lim x → a [ f ( x ) − g ( x ) ] = A − B \lim_{x \to a} [f(x) - g(x)] = A - B lim x → a [ f ( x ) − g ( x )] = A − B 乘法 :lim x → a [ f ( x ) ⋅ g ( x ) ] = A ⋅ B \lim_{x \to a} [f(x) \cdot g(x)] = A \cdot B lim x → a [ f ( x ) ⋅ g ( x )] = A ⋅ B 除法 :lim x → a f ( x ) g ( x ) = A B \lim_{x \to a} \frac{f(x)}{g(x)} = \frac{A}{B} lim x → a g ( x ) f ( x ) = B A (当 B ≠ 0 B \neq 0 B = 0 )直观上,"连续"就是函数的图像可以一笔画出,不需要抬笔。但只有严格厘清何为极限后,才可能精确定义连续 (Continuous)。连续是描述函数"没有断裂"的数学概念,它的数学定义为函数 f f f 在点 a a a 处连续,当且仅当满足以下三个条件:
f ( a ) f(a) f ( a ) 有定义lim x → a f ( x ) \lim_{x \to a} f(x) lim x → a f ( x ) 存在lim x → a f ( x ) = f ( a ) \lim_{x \to a} f(x) = f(a) lim x → a f ( x ) = f ( a ) 第三个条件将极限值与函数值统一起来:"极限等于函数值"正是"连续"的真正含义。连续函数有许多良好的性质。譬如,介值定理 (Intermediate Value Theorem)告诉我们:如果连续函数 f f f 在区间 [ a , b ] [a, b] [ a , b ] 上取值 f ( a ) f(a) f ( a ) 和 f ( b ) f(b) f ( b ) ,那么对介于 f ( a ) f(a) f ( a ) 和 f ( b ) f(b) f ( b ) 之间的任何值 c c c ,存在 x ∈ ( a , b ) x \in (a, b) x ∈ ( a , b ) 使得 f ( x ) = c f(x) = c f ( x ) = c 。这个定理常用于数值计算中求方程的根(如二分法)。
我们从当年牛顿考虑的物理问题出发引出导数。假设一个物体沿直线运动,其位置 s s s 是时间 t t t 的函数 s = s ( t ) s = s(t) s = s ( t ) 。在时间段 [ t 0 , t 0 + Δ t ] [t_0, t_0 + \Delta t] [ t 0 , t 0 + Δ t ] 内,物体移动的距离为 s ( t 0 + Δ t ) − s ( t 0 ) s(t_0 + \Delta t) - s(t_0) s ( t 0 + Δ t ) − s ( t 0 ) ,平均速度就可以表示为:
v ˉ = s ( t 0 + Δ t ) − s ( t 0 ) Δ t \bar{v} = \frac{s(t_0 + \Delta t) - s(t_0)}{\Delta t} v ˉ = Δ t s ( t 0 + Δ t ) − s ( t 0 ) 这就是平均变化率 的概念:函数值的变化量除以自变量的变化量。但是,如果要关注物体在某一时刻 t 0 t_0 t 0 的瞬时速度 ,又该如何定义呢?直觉告诉我们,让时间间隔 Δ t \Delta t Δ t 越来越小,平均速度就会越来越接近瞬时速度。当 Δ t \Delta t Δ t 趋近于零时,平均速度的极限就是瞬时速度:
v ( t 0 ) = lim Δ t → 0 s ( t 0 + Δ t ) − s ( t 0 ) Δ t v(t_0) = \lim_{\Delta t \to 0} \frac{s(t_0 + \Delta t) - s(t_0)}{\Delta t} v ( t 0 ) = Δ t → 0 lim Δ t s ( t 0 + Δ t ) − s ( t 0 ) 更一般地,假设函数 y = f ( x ) y = f(x) y = f ( x ) 在点 x 0 x_0 x 0 的某个邻域内有定义,如果极限 lim Δ x → 0 f ( x 0 + Δ x ) − f ( x 0 ) Δ x \lim_{\Delta x \to 0} \frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x} lim Δ x → 0 Δ x f ( x 0 + Δ x ) − f ( x 0 ) 存在,则称函数 f f f 在点 x 0 x_0 x 0 处可导 (Differentiable),此极限值称为 f f f 在 x 0 x_0 x 0 处的导数 (Derivative),记作 f ′ ( x 0 ) f'(x_0) f ′ ( x 0 ) 或 d f d x ∣ x = x 0 \frac{df}{dx}\bigg|_{x=x_0} d x df x = x 0 (前者为拉格朗日记法,后者为莱布尼茨记法,两者至今都在广泛使用)。这个定义中的分式 f ( x 0 + Δ x ) − f ( x 0 ) Δ x \frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x} Δ x f ( x 0 + Δ x ) − f ( x 0 ) 称为差商 (Difference Quotient),它表示函数在区间 [ x 0 , x 0 + Δ x ] [x_0, x_0 + \Delta x] [ x 0 , x 0 + Δ x ] 上的平均变化率。导数就是差商当 Δ x → 0 \Delta x \to 0 Δ x → 0 时的极限,即瞬时变化率 。导数的另一种等价定义形式是:
f ′ ( x 0 ) = lim x → x 0 f ( x ) − f ( x 0 ) x − x 0 f'(x_0) = \lim_{x \to x_0} \frac{f(x) - f(x_0)}{x - x_0} f ′ ( x 0 ) = x → x 0 lim x − x 0 f ( x ) − f ( x 0 ) 这两种定义是等价的,只需令 x = x 0 + Δ x x = x_0 + \Delta x x = x 0 + Δ x 即可相互转换。
导数有非常直观的几何意义:切线的斜率。考虑函数 y = f ( x ) y = f(x) y = f ( x ) 的图像,在点 ( x 0 , f ( x 0 ) ) (x_0, f(x_0)) ( x 0 , f ( x 0 )) 处画一条切线 (Tangent Line)。这条切线的斜率就是 f ′ ( x 0 ) f'(x_0) f ′ ( x 0 ) 。先考虑通过两个点 ( x 0 , f ( x 0 ) ) (x_0, f(x_0)) ( x 0 , f ( x 0 )) 和 ( x 0 + Δ x , f ( x 0 + Δ x ) ) (x_0 + \Delta x, f(x_0 + \Delta x)) ( x 0 + Δ x , f ( x 0 + Δ x )) 的一条割线 (Secant Line)。割线的斜率为:
割线斜率 = f ( x 0 + Δ x ) − f ( x 0 ) Δ x \text{割线斜率} = \frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x} 割线斜率 = Δ x f ( x 0 + Δ x ) − f ( x 0 ) 这正好是差商,当 Δ x → 0 \Delta x \to 0 Δ x → 0 时,点 ( x 0 + Δ x , f ( x 0 + Δ x ) ) (x_0 + \Delta x, f(x_0 + \Delta x)) ( x 0 + Δ x , f ( x 0 + Δ x )) 沿曲线趋近于 ( x 0 , f ( x 0 ) ) (x_0, f(x_0)) ( x 0 , f ( x 0 )) ,观察下图,随着割线穿过的两点逐渐靠近,割线逐渐逼近切线,最终与切线重合。因此,导数 f ′ ( x 0 ) f'(x_0) f ′ ( x 0 ) 就是切线的斜率。
图:割线逐渐逼近切线的过程
掌握基本函数的导数公式是进行微分运算的基础。就像学习算术需要先背诵乘法表一样,求导时若能熟练运用基本公式,便可极大简化计算过程。本节介绍幂函数、指数函数、对数函数和三角函数的导数公式,以及函数加减乘除的求导法则。这些公式与运算法则相互配合,使我们能够处理绝大多数常见函数的求导问题。特别值得注意的是,这些公式在机器学习中频繁出现,譬如 e x e^x e x 的导数等于自身的特性使其在概率分布(如 Softmax)中扮演核心角色,而 ln x \ln x ln x 的导数则在最大似然估计中不可或缺。
幂函数
对于幂函数 f ( x ) = x n f(x) = x^n f ( x ) = x n (n n n 为正整数),其导数为:d d x x n = n x n − 1 \frac{d}{dx} x^n = nx^{n-1} d x d x n = n x n − 1 ,这个公式可以推广到任意实数 n n n ,例如:
f ( x ) = x 1 / 2 = x f(x) = x^{1/2} = \sqrt{x} f ( x ) = x 1/2 = x ,则 f ′ ( x ) = 1 2 x − 1 / 2 = 1 2 x f'(x) = \frac{1}{2}x^{-1/2} = \frac{1}{2\sqrt{x}} f ′ ( x ) = 2 1 x − 1/2 = 2 x 1 f ( x ) = x − 1 = 1 x f(x) = x^{-1} = \frac{1}{x} f ( x ) = x − 1 = x 1 ,则 f ′ ( x ) = − x − 2 = − 1 x 2 f'(x) = -x^{-2} = -\frac{1}{x^2} f ′ ( x ) = − x − 2 = − x 2 1 指数函数与对数函数
对于自然指数函数 f ( x ) = e x f(x) = e^x f ( x ) = e x :d d x e x = e x \frac{d}{dx} e^x = e^x d x d e x = e x ,这是一个非常特殊的性质:e x e^x e x 的导数等于它自己。正是这一性质使得 e x e^x e x 在微分方程、概率论等领域具有核心地位。
对于一般指数函数 f ( x ) = a x f(x) = a^x f ( x ) = a x (a > 0 , a ≠ 1 a > 0, a \neq 1 a > 0 , a = 1 ):d d x a x = a x ln a \frac{d}{dx} a^x = a^x \ln a d x d a x = a x ln a
对于自然对数函数 f ( x ) = ln x f(x) = \ln x f ( x ) = ln x :d d x ln x = 1 x \frac{d}{dx} \ln x = \frac{1}{x} d x d ln x = x 1
对于一般对数函数 f ( x ) = log a x f(x) = \log_a x f ( x ) = log a x (a > 0 , a ≠ 1 a > 0, a \neq 1 a > 0 , a = 1 ):d d x log a x = 1 x ln a \frac{d}{dx} \log_a x = \frac{1}{x \ln a} d x d log a x = x l n a 1
三角函数
基本三角函数的导数:
函数 导数 sin x \sin x sin x cos x \cos x cos x cos x \cos x cos x − sin x -\sin x − sin x tan x \tan x tan x sec 2 x = 1 cos 2 x \sec^2 x = \frac{1}{\cos^2 x} sec 2 x = c o s 2 x 1
注意正弦和余弦的导数形成循环:( sin x ) ′ = cos x (\sin x)' = \cos x ( sin x ) ′ = cos x ,( cos x ) ′ = − sin x (\cos x)' = -\sin x ( cos x ) ′ = − sin x ,再求导两次又回到 sin x \sin x sin x (相差一个负号)。这一性质在求解微分方程时非常有用。
类似于极限的运算法则,对于函数的加减乘除,也有相应的导数法则:
加法法则 :( f + g ) ′ = f ′ + g ′ (f + g)' = f' + g' ( f + g ) ′ = f ′ + g ′
减法法则 :( f − g ) ′ = f ′ − g ′ (f - g)' = f' - g' ( f − g ) ′ = f ′ − g ′
乘法法则 (Product Rule):( f ⋅ g ) ′ = f ′ ⋅ g + f ⋅ g ′ (f \cdot g)' = f' \cdot g + f \cdot g' ( f ⋅ g ) ′ = f ′ ⋅ g + f ⋅ g ′
除法法则 (Quotient Rule):( f g ) ′ = f ′ ⋅ g − f ⋅ g ′ g 2 \left(\frac{f}{g}\right)' = \frac{f' \cdot g - f \cdot g'}{g^2} ( g f ) ′ = g 2 f ′ ⋅ g − f ⋅ g ′
微分 (Differential)可以理解为是导数的另一种表达形式。假设函数 y = f ( x ) y = f(x) y = f ( x ) 在点 x x x 处可导,则称 d y = f ′ ( x ) d x dy = f'(x) dx d y = f ′ ( x ) d x 为函数 y = f ( x ) y = f(x) y = f ( x ) 在点 x x x 处的微分。这里 d x dx d x 是自变量的增量(一个独立的量),d y dy d y 是因变量的微分。微分与导数的区别在于:导数是一个比值 d y d x \frac{dy}{dx} d x d y ,而微分 d y dy d y 和 d x dx d x 是独立的量。假设函数在 x x x 处的导数为 12,那它在 x x x 处的微分 d y = 12 d x dy = 12 \, dx d y = 12 d x ,这说明在 x x x 处如果自变量有微小增量 d x dx d x ,则函数值的增量约为 12 12 12 倍的 d x dx d x 。
微分的一个重要应用是线性近似 (Linear Approximation),目的是将函数的复杂计算转化为相对简单的微分计算。当 ∣ Δ x ∣ |\Delta x| ∣Δ x ∣ 很小时,函数增量 Δ y = f ( x + Δ x ) − f ( x ) \Delta y = f(x + \Delta x) - f(x) Δ y = f ( x + Δ x ) − f ( x ) 可以用微分 d y = f ′ ( x ) Δ x dy = f'(x) \Delta x d y = f ′ ( x ) Δ x 来近似:
f ( x + Δ x ) ≈ f ( x ) + f ′ ( x ) Δ x f(x + \Delta x) \approx f(x) + f'(x) \Delta x f ( x + Δ x ) ≈ f ( x ) + f ′ ( x ) Δ x 这个公式在几何上表示:在点 ( x , f ( x ) ) (x, f(x)) ( x , f ( x )) 附近,用切线(直线)来近似曲线。线性近似在工程计算中非常有用。例如,计算 4.01 \sqrt{4.01} 4.01 的值,你可以假设 f ( x ) = x f(x) = \sqrt{x} f ( x ) = x ,取 x = 4 x = 4 x = 4 ,Δ x = 0.01 \Delta x = 0.01 Δ x = 0.01 ,则有:
4.01 ≈ 4 + 1 2 4 × 0.01 = 2 + 1 4 × 0.01 = 2.0025 \sqrt{4.01} \approx \sqrt{4} + \frac{1}{2\sqrt{4}} \times 0.01 = 2 + \frac{1}{4} \times 0.01 = 2.0025 4.01 ≈ 4 + 2 4 1 × 0.01 = 2 + 4 1 × 0.01 = 2.0025 这个结果与精确值 4.01 ≈ 2.002498 \sqrt{4.01} \approx 2.002498 4.01 ≈ 2.002498 误差仅约 2 × 10 − 6 2 \times 10^{-6} 2 × 1 0 − 6 。线性近似的几何意义是在微小的尺度上,可以用一根直线段来近似模拟各种形状函数的曲线,只要尺度足够小,两者的长度是近似相等的。
如果函数 f f f 的导数 f ′ f' f ′ 仍然可导,我们可以对 f ′ f' f ′ 再求导,得到二阶导数 (Second Derivative):
f ′ ′ ( x ) = d d x ( d f d x ) = d 2 f d x 2 f''(x) = \frac{d}{dx}\left(\frac{df}{dx}\right) = \frac{d^2 f}{dx^2} f ′′ ( x ) = d x d ( d x df ) = d x 2 d 2 f 二阶导数具有许多有价值的物理和几何意义。譬如物理上,如果 f ( t ) f(t) f ( t ) 表示位置关于时间的函数,则 f ′ ( t ) f'(t) f ′ ( t ) 是速度,二阶导数 f ′ ′ ( t ) f''(t) f ′′ ( t ) 代表的就是加速度。几何上,二阶导数可以反映出函数的凹凸性(Concavity):
若 f ′ ′ ( x ) > 0 f''(x) > 0 f ′′ ( x ) > 0 ,则函数在 x x x 处下凸 (Convex,形状像碗口向上) 若 f ′ ′ ( x ) < 0 f''(x) < 0 f ′′ ( x ) < 0 ,则函数在 x x x 处上凸 (Concave,形状像碗口向下) 若 f ′ ′ ( x ) = 0 f''(x) = 0 f ′′ ( x ) = 0 ,则 x x x 可能是拐点 (Inflection Point) 在机器学习中,我们通常希望最小化的损失函数是凸函数(Convex Function),二阶导数非负,函数图像"碗口向上",这意味着有唯一的全局最小值。判断函数的凹凸性,对于后面判断优化算法(如梯度下降)的能否稳定收敛十分重要。
继续推广,对于某些函数,我们还可以计算三阶、四阶甚至更高阶的导数。譬如:
f ( x ) = e x f(x) = e^x f ( x ) = e x ,则 f ( n ) ( x ) = e x f^{(n)}(x) = e^x f ( n ) ( x ) = e x (任意阶导数都是它自己)f ( x ) = sin x f(x) = \sin x f ( x ) = sin x ,则 f ′ ( x ) = cos x f'(x) = \cos x f ′ ( x ) = cos x ,f ′ ′ ( x ) = − sin x f''(x) = -\sin x f ′′ ( x ) = − sin x ,f ′ ′ ′ ( x ) = − cos x f'''(x) = -\cos x f ′′′ ( x ) = − cos x ,f ( 4 ) ( x ) = sin x f^{(4)}(x) = \sin x f ( 4 ) ( x ) = sin x (每四阶循环一次)导数是揭示了一个朴素却深刻的思想:任何连续变化的量,都可以通过它在某一点的变化趋势来刻画。从牛顿当年思考的瞬时速度问题出发,导数将平均变化率推向极限,得到了瞬时变化率的精确表达。这一从静态比值到动态极限的跨越,不仅是数学的进步,更是思维方式的转变,我们从此可以用一个数值来描述一个函数在某一点的变化倾向。几何上,导数是切线的斜率,这提供了我们用直线(线性)来理解曲线(非线性)的途径。
微分则将抽象的"变化率"转化为具体的"变化量",让我们能够通过线性近似来简化复杂的函数计算。这一思想在机器学习中体现得尤为明显:泰勒展开将复杂函数分解为一系列多项式,梯度下降依赖一阶导数指引优化方向,而损失函数的凹凸性由二阶导数揭示,这些都是微分学在现代人工智能中的直接应用。极限、导数、微分、高阶导数这些概念层层递进,构成了理解连续变化世界的数学框架,也为下一章学习多元函数微分学奠定了坚实基础。
可导函数一定是连续函数吗?连续一定可导吗?
参考答案 如果函数 f f f 在点 x 0 x_0 x 0 处可导,则 f f f 在 x 0 x_0 x 0 处连续。
证明思路 :可导意味着 lim Δ x → 0 f ( x 0 + Δ x ) − f ( x 0 ) Δ x \lim_{\Delta x \to 0} \frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x} lim Δ x → 0 Δ x f ( x 0 + Δ x ) − f ( x 0 ) 存在。要证明连续,需要证明 lim Δ x → 0 [ f ( x 0 + Δ x ) − f ( x 0 ) ] = 0 \lim_{\Delta x \to 0} [f(x_0 + \Delta x) - f(x_0)] = 0 lim Δ x → 0 [ f ( x 0 + Δ x ) − f ( x 0 )] = 0 。
f ( x 0 + Δ x ) − f ( x 0 ) = f ( x 0 + Δ x ) − f ( x 0 ) Δ x ⋅ Δ x f(x_0 + \Delta x) - f(x_0) = \frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x} \cdot \Delta x f ( x 0 + Δ x ) − f ( x 0 ) = Δ x f ( x 0 + Δ x ) − f ( x 0 ) ⋅ Δ x 当 Δ x → 0 \Delta x \to 0 Δ x → 0 时,第一项趋近于 f ′ ( x 0 ) f'(x_0) f ′ ( x 0 ) (导数存在),第二项趋近于 0,所以乘积趋近于 0。
但是,连续不一定可导 。经典的反例是 f ( x ) = ∣ x ∣ f(x) = |x| f ( x ) = ∣ x ∣ 在 x = 0 x = 0 x = 0 处:函数连续,但在该点有一个"尖角",左右导数不相等,因此不可导。
用极限的定义证明 lim x → 2 ( 3 x + 1 ) = 7 \lim_{x \to 2} (3x + 1) = 7 lim x → 2 ( 3 x + 1 ) = 7 。
参考答案 要证明 lim x → 2 ( 3 x + 1 ) = 7 \lim_{x \to 2} (3x + 1) = 7 lim x → 2 ( 3 x + 1 ) = 7 ,需要对于任意 ε > 0 \varepsilon > 0 ε > 0 ,找到 δ > 0 \delta > 0 δ > 0 ,使得当 0 < ∣ x − 2 ∣ < δ 0 < |x - 2| < \delta 0 < ∣ x − 2∣ < δ 时,∣ ( 3 x + 1 ) − 7 ∣ < ε |(3x + 1) - 7| < \varepsilon ∣ ( 3 x + 1 ) − 7∣ < ε 。
计算:∣ ( 3 x + 1 ) − 7 ∣ = ∣ 3 x − 6 ∣ = 3 ∣ x − 2 ∣ |(3x + 1) - 7| = |3x - 6| = 3|x - 2| ∣ ( 3 x + 1 ) − 7∣ = ∣3 x − 6∣ = 3∣ x − 2∣
要使 3 ∣ x − 2 ∣ < ε 3|x - 2| < \varepsilon 3∣ x − 2∣ < ε ,只需 ∣ x − 2 ∣ < ε 3 |x - 2| < \frac{\varepsilon}{3} ∣ x − 2∣ < 3 ε 。
因此,取 δ = ε 3 \delta = \frac{\varepsilon}{3} δ = 3 ε ,当 0 < ∣ x − 2 ∣ < δ 0 < |x - 2| < \delta 0 < ∣ x − 2∣ < δ 时,有 ∣ ( 3 x + 1 ) − 7 ∣ = 3 ∣ x − 2 ∣ < 3 ⋅ ε 3 = ε |(3x + 1) - 7| = 3|x - 2| < 3 \cdot \frac{\varepsilon}{3} = \varepsilon ∣ ( 3 x + 1 ) − 7∣ = 3∣ x − 2∣ < 3 ⋅ 3 ε = ε 。
这就证明了 lim x → 2 ( 3 x + 1 ) = 7 \lim_{x \to 2} (3x + 1) = 7 lim x → 2 ( 3 x + 1 ) = 7 。
用导数的定义求 f ( x ) = x 3 f(x) = x^3 f ( x ) = x 3 在 x = 1 x = 1 x = 1 处的导数。
参考答案 根据导数定义:f ′ ( 1 ) = lim Δ x → 0 f ( 1 + Δ x ) − f ( 1 ) Δ x f'(1) = \lim_{\Delta x \to 0} \frac{f(1 + \Delta x) - f(1)}{\Delta x} f ′ ( 1 ) = lim Δ x → 0 Δ x f ( 1 + Δ x ) − f ( 1 )
计算:
f ( 1 ) = 1 3 = 1 f(1) = 1^3 = 1 f ( 1 ) = 1 3 = 1 f ( 1 + Δ x ) = ( 1 + Δ x ) 3 = 1 + 3 Δ x + 3 ( Δ x ) 2 + ( Δ x ) 3 f(1 + \Delta x) = (1 + \Delta x)^3 = 1 + 3\Delta x + 3(\Delta x)^2 + (\Delta x)^3 f ( 1 + Δ x ) = ( 1 + Δ x ) 3 = 1 + 3Δ x + 3 ( Δ x ) 2 + ( Δ x ) 3 因此:
f ′ ( 1 ) = lim Δ x → 0 ( 1 + 3 Δ x + 3 ( Δ x ) 2 + ( Δ x ) 3 ) − 1 Δ x = lim Δ x → 0 3 Δ x + 3 ( Δ x ) 2 + ( Δ x ) 3 Δ x f'(1) = \lim_{\Delta x \to 0} \frac{(1 + 3\Delta x + 3(\Delta x)^2 + (\Delta x)^3) - 1}{\Delta x} = \lim_{\Delta x \to 0} \frac{3\Delta x + 3(\Delta x)^2 + (\Delta x)^3}{\Delta x} f ′ ( 1 ) = Δ x → 0 lim Δ x ( 1 + 3Δ x + 3 ( Δ x ) 2 + ( Δ x ) 3 ) − 1 = Δ x → 0 lim Δ x 3Δ x + 3 ( Δ x ) 2 + ( Δ x ) 3 = lim Δ x → 0 [ 3 + 3 Δ x + ( Δ x ) 2 ] = 3 = \lim_{\Delta x \to 0} [3 + 3\Delta x + (\Delta x)^2] = 3 = Δ x → 0 lim [ 3 + 3Δ x + ( Δ x ) 2 ] = 3 也可以直接用幂函数导数公式验证:f ′ ( x ) = 3 x 2 f'(x) = 3x^2 f ′ ( x ) = 3 x 2 ,所以 f ′ ( 1 ) = 3 f'(1) = 3 f ′ ( 1 ) = 3 。
求下列函数的导数:
f ( x ) = x 4 − 3 x 2 + 2 x − 5 f(x) = x^4 - 3x^2 + 2x - 5 f ( x ) = x 4 − 3 x 2 + 2 x − 5 g ( x ) = e x sin x g(x) = e^x \sin x g ( x ) = e x sin x h ( x ) = ln x x h(x) = \frac{\ln x}{x} h ( x ) = x l n x 参考答案 f ′ ( x ) = 4 x 3 − 6 x + 2 f'(x) = 4x^3 - 6x + 2 f ′ ( x ) = 4 x 3 − 6 x + 2 应用乘法法则 ( f ⋅ g ) ′ = f ′ ⋅ g + f ⋅ g ′ (f \cdot g)' = f' \cdot g + f \cdot g' ( f ⋅ g ) ′ = f ′ ⋅ g + f ⋅ g ′ : g ′ ( x ) = d d x ( e x ) ⋅ sin x + e x ⋅ d d x ( sin x ) = e x sin x + e x cos x = e x ( sin x + cos x ) g'(x) = \frac{d}{dx}(e^x) \cdot \sin x + e^x \cdot \frac{d}{dx}(\sin x) = e^x \sin x + e^x \cos x = e^x(\sin x + \cos x) g ′ ( x ) = d x d ( e x ) ⋅ sin x + e x ⋅ d x d ( sin x ) = e x sin x + e x cos x = e x ( sin x + cos x ) 应用除法法则 ( f g ) ′ = f ′ ⋅ g − f ⋅ g ′ g 2 \left(\frac{f}{g}\right)' = \frac{f' \cdot g - f \cdot g'}{g^2} ( g f ) ′ = g 2 f ′ ⋅ g − f ⋅ g ′ : h ′ ( x ) = 1 x ⋅ x − ln x ⋅ 1 x 2 = 1 − ln x x 2 h'(x) = \frac{\frac{1}{x} \cdot x - \ln x \cdot 1}{x^2} = \frac{1 - \ln x}{x^2} h ′ ( x ) = x 2 x 1 ⋅ x − ln x ⋅ 1 = x 2 1 − ln x 设 f ( x ) = x 3 − 3 x f(x) = x^3 - 3x f ( x ) = x 3 − 3 x ,求:
参考答案 首先求一阶导数:f ′ ( x ) = 3 x 2 − 3 = 3 ( x 2 − 1 ) f'(x) = 3x^2 - 3 = 3(x^2 - 1) f ′ ( x ) = 3 x 2 − 3 = 3 ( x 2 − 1 )
令 f ′ ( x ) = 0 f'(x) = 0 f ′ ( x ) = 0 ,得 x = ± 1 x = \pm 1 x = ± 1 。
当 x < − 1 x < -1 x < − 1 或 x > 1 x > 1 x > 1 时,f ′ ( x ) > 0 f'(x) > 0 f ′ ( x ) > 0 ,函数递增 当 − 1 < x < 1 -1 < x < 1 − 1 < x < 1 时,f ′ ( x ) < 0 f'(x) < 0 f ′ ( x ) < 0 ,函数递减 求二阶导数:f ′ ′ ( x ) = 6 x f''(x) = 6x f ′′ ( x ) = 6 x
令 f ′ ′ ( x ) = 0 f''(x) = 0 f ′′ ( x ) = 0 ,得 x = 0 x = 0 x = 0 。
当 x < 0 x < 0 x < 0 时,f ′ ′ ( x ) < 0 f''(x) < 0 f ′′ ( x ) < 0 ,函数上凸 当 x > 0 x > 0 x > 0 时,f ′ ′ ( x ) > 0 f''(x) > 0 f ′′ ( x ) > 0 ,函数下凸 因此,x = 0 x = 0 x = 0 是拐点,拐点坐标为 ( 0 , 0 ) (0, 0) ( 0 , 0 ) 。
用线性近似估算 sin ( 0.1 ) \sin(0.1) sin ( 0.1 ) 的值(弧度制),并与精确值比较误差。
参考答案 设 f ( x ) = sin x f(x) = \sin x f ( x ) = sin x ,取 x 0 = 0 x_0 = 0 x 0 = 0 ,Δ x = 0.1 \Delta x = 0.1 Δ x = 0.1 。
线性近似公式:f ( x 0 + Δ x ) ≈ f ( x 0 ) + f ′ ( x 0 ) ⋅ Δ x f(x_0 + \Delta x) \approx f(x_0) + f'(x_0) \cdot \Delta x f ( x 0 + Δ x ) ≈ f ( x 0 ) + f ′ ( x 0 ) ⋅ Δ x
计算:
f ( 0 ) = sin 0 = 0 f(0) = \sin 0 = 0 f ( 0 ) = sin 0 = 0 f ′ ( x ) = cos x f'(x) = \cos x f ′ ( x ) = cos x ,所以 f ′ ( 0 ) = cos 0 = 1 f'(0) = \cos 0 = 1 f ′ ( 0 ) = cos 0 = 1 因此:sin ( 0.1 ) ≈ 0 + 1 × 0.1 = 0.1 \sin(0.1) \approx 0 + 1 \times 0.1 = 0.1 sin ( 0.1 ) ≈ 0 + 1 × 0.1 = 0.1
精确值:sin ( 0.1 ) ≈ 0.099833 \sin(0.1) \approx 0.099833 sin ( 0.1 ) ≈ 0.099833
误差:∣ 0.1 − 0.099833 ∣ ≈ 0.000167 ≈ 1.67 × 10 − 4 |0.1 - 0.099833| \approx 0.000167 \approx 1.67 \times 10^{-4} ∣0.1 − 0.099833∣ ≈ 0.000167 ≈ 1.67 × 1 0 − 4
相对误差:0.000167 0.099833 ≈ 0.17 % \frac{0.000167}{0.099833} \approx 0.17\% 0.099833 0.000167 ≈ 0.17%
可见对于小角度,sin x ≈ x \sin x \approx x sin x ≈ x 是一个很好的近似。