《自然极值》系列——8.极值分析
By 苏剑林 | 2010-12-26 | 45754位读者 |本篇文章是《自然极值》系列最后一篇文章,估计也是2010年最后一篇文章了。在这个美好的2010年,想必大家一定收获匪浅,BoJone也在2010年成长了很多。在2010年的尾声,BoJone和科学空间都祝大家在新的一年里更加开心快乐,在科学的道路上更快速地前行。
在本文,BoJone将与大家讨论求极值的最基本原理。这一探讨思路受到了天才的费恩曼所著《费恩曼物理讲义》的启迪。我们分别对函数求极值(求导)和泛函数极值(变分)进行一些简略的分析。
一、函数求极值
对于一个函数$y=f(x)$,设想它在$x=x_0$处取到最大值,那么显然对于很小的增量$\Delta x$,有
$$f(x_0+\Delta x) \leq f(x_0)\tag{3}$$根据泰勒级数,我们有
$f(x_0+\Delta x)=f(x_0)+f'(x_0)\Delta x$————(4)
这里我们略去了二次以及更高次方的项,因为中值定理告诉我们,剩下来的项之和仍然只是一个二次项(二阶无穷小),也就是说,它无法“撼动$f'(x_0)\Delta x$的地位”。于是将(4)代入(3)有
$$f'(x_0)\Delta x \leq 0$$
要注意的是,$f'(x_0)$是一个定值,而$\Delta x$是一个可正可负的变量,于是我们就得到
$$f'(x_0) \leq 0,f'(x_0) \geq 0$$
从而有$f'(x_0)=0$。
我们还可以把上面的名词“最小值”换成“最大值”,把$\leq$和$\geq$互换,同样可以进行类似的讨论,结果是一样的。于是我们得出:$f'(x)=0$是函数$f(x)$的极大(小)值的必要条件。
二、泛函数求极值
关于最速降线和悬链线问题的讨论,我们最终都归结为这样的一个问题:
求一过$(x_1,y_1),(x_2,y_2)$的函数$y=f(x)$,满足积分$\int_{x_1}^{x_2} F(x,y,\dot{y})dx$为极大(小)值。
设函数$y=y(x)$是所求函数,那么对于y的一个很小的增值函数$\varepsilon=\varepsilon(x)$,其中$\varepsilon(x_1)=\varepsilon(x_2)=0$,那么$y=y(x)+\varepsilon(x)$同样是一个过$(x_1,y_1),(x_2,y_2)$的函数。那么
$$\int_{x_1}^{x_2} F(x,y+\varepsilon,\dot{y}+\dot{\varepsilon})dx \leq \int_{x_1}^{x_2} F(x,y,\dot{y})dx\tag{5}$$
利用多元泰勒级数对$F(x,y+\varepsilon,\dot{y}+\dot{\varepsilon})$进行展开,得
$$F(x,y+\varepsilon,\dot{y}+\dot{\varepsilon})=F(x,y,\dot{y})+\frac{\partial F}{\partial y}\varepsilon+\frac{\partial F}{\partial \dot{y}}\dot{\varepsilon}$$
这里我们同样略去了二次及更高次方的项。代入(5)式得到
$$\int_{x_1}^{x_2}(\frac{\partial F}{\partial y}\varepsilon+\frac{\partial F}{\partial \dot{y}} \dot{\varepsilon})dx \leq 0\tag{6}$$
这里有一个对$\int(\frac{\partial F}{\partial \dot{y}} \dot{\varepsilon})dx$处理的技巧,利用的是《数学分析》中的“分步积分法”,即
$$\int(\frac{\partial F}{\partial \dot{y}} \dot{\varepsilon})dx=\int(\frac{\partial F}{\partial \dot{y}}d\varepsilon)=\frac{\partial F}{\partial \dot{y}}\varepsilon-\int[\frac{d(\frac{\partial F}{\partial \dot{y}})}{dx}\varepsilon] dx$$
代入(6)式得到
$$(\frac{\partial F}{\partial \dot{y}}\varepsilon)|_{x_1}^{x_2}+\int_{x_1}^{x_2}[\frac{\partial F}{\partial y}-\frac{d(\frac{\partial F}{\partial \dot{y}})}{dx}]\varepsilon dx \leq 0$$
由于$\varepsilon(x_1)=\varepsilon(x_2)=0$,所以$(\frac{\partial F}{\partial \dot{y}}\varepsilon)|_{x_1}^{x_2}=0$,同样$\varepsilon$可正可负,因而必定有
$$\int_{x_1}^{x_2}[\frac{\partial F}{\partial y}-\frac{d(\frac{\partial F}{\partial \dot{y}})}{dx}]\varepsilon dx =0$$
这个式子必须对于所有的$\varepsilon=\varepsilon(x)$都成立,因而括号内的值只能为0,于是
$$\frac{\partial F}{\partial y}-\frac{d(\frac{\partial F}{\partial \dot{y}})}{dx}=0\tag{7}$$
把极大值和极小值互换,把$\leq$和$\geq$互换,同样可以进行类似的讨论,结果也是一样的。于是我们得出:(7)式是积分$\int_{x_1}^{x_2} F(x,y,\dot{y})dx$为极值的必要条件。
(7)式就是著名的(二维形式)欧拉-拉格朗日方程 (Euler-Lagrange equation) 。
利用类似的思路,还可以把方程扩展到更多维度,以及更高的阶(比如F中含有$\ddot{y}$项等)。大家不难发现,里边是思路是一致的:假设极值→设置增量→一阶展开→与原值比较→分析化简→得出等式→解出等式。尽管其中的处理过程有所差别,但是原理并没有变化。因此,可以认为,这是处理极值问题的最根本思路。
由于本文属于思路引导而非专业教程,所以该问题讨论至此已经算是完毕。具体内容大家可以查阅维基百科里边的相关内容。
《自然极值》告一段落了,2010年也将告一段落了,尽管还有很多的不舍和遗憾,我们还是在2010收获了很多,成长了很多。愿我们都带着最美好的希望,迎接即将到来的2011,在阳光的沐浴和风雨的洗礼中,慢慢成长,渐渐前行,体味科学,领略真理!在科学的道路上,愿继续与众多的科学爱好者共同前行!
《自然极值》系列终。
转载到请包括本文地址:https://kexue.fm/archives/1134
更详细的转载事宜请参考:《科学空间FAQ》
如果您还有什么疑惑或建议,欢迎在下方评论区继续讨论。
如果您觉得本文还不错,欢迎分享/打赏本文。打赏并非要从中获得收益,而是希望知道科学空间获得了多少读者的真心关注。当然,如果你无视它,也不会影响你的阅读。再次表示欢迎和感谢!
如果您需要引用本文,请参考:
苏剑林. (Dec. 26, 2010). 《《自然极值》系列——8.极值分析 》[Blog post]. Retrieved from https://kexue.fm/archives/1134
@online{kexuefm-1134,
title={《自然极值》系列——8.极值分析},
author={苏剑林},
year={2010},
month={Dec},
url={\url{https://kexue.fm/archives/1134}},
}
December 26th, 2010
佩服佩服
你论文发表了没啊
December 27th, 2010
偏导数的看的不怎么懂
December 30th, 2010
兄弟我也想换Typecho程序,我一直用geekg风格,但是我找不到Typecho的geekg风格,能给我份么?我的信箱admin@2552.me
先谢谢兄弟了!
January 2nd, 2011
又看了一遍发现有点懂了。不过我想知道,这方法是不是你自己想出来的。我看别的书的方法不是这样。
自己总结的,但是肯定不是首创。欧拉-拉格朗日方程的推导受到了《费恩曼物理讲义》的启示。
也许不是推导的方法不同,而是讲述的过程不同。我只是高中生,站在个人的角度来讲这个问题,认识不深,应该比不上专家的专业了。
October 25th, 2018
剑林哥~整个系列都看完了, 见解很独特!~
设置增量这一点我记住了~但感觉维基百科的记号更好懂.
\hat{y}的记号看不太清
April 7th, 2021
最近刚好在看一些最小作用量原理的资料,楼主写的很好,我想补充几点:
1. (7)式最早由Euler提出,不过他用的方法是把几何和分析结合起来,他把导数变成了差商,积分变成了有限和,所用的方法不具有通用性。后来Lagrange用纯分析的方法得到了(7)式,它论文中的推导和楼主的过程差不多,可能Feynman讲了这方面的内容,实际上这完全是Lagrange的工作。证明大概是这样的:
$ 令J= \int_{x_1}^{x_2}f(x,y, y')dx $
$\Delta J= \int_{x_1}^{x_2} |f(x,y+ \delta y, y'+\delta y')- f(x,y, y')|dx $, $\delta 表示y(x)的变分$
Taylor展开得到一次变分项 $\delta J=\int_{x_1}^{x_2} (f_y \delta y +f_{y'} \delta y')dx$
Lagrange说$\delta y'=\delta \frac{dy}{dx}=\frac{d \delta y}{dx}$
即d 和 $\delta$ 可以交换,后来Euler对此作出了解释(这里就是你的思想,把$\delta y$看作是x的函数)
现在一次变分可以写成$\int_{x_1}^{x_2}(f_y \delta y +f_{y'} \frac{d \delta y}{dx})dx$,同样第二项用分部积分得到最后的结果。
2. 你在推出(7)的时候说$\epsilon$前面的系数必须为0,所用的推理方法我很怀疑正确性。因为在Lagrange得到这个结果之后的100年里,人们一直直观地相信或者错误地证明过系数为0,甚至Cauchy的证明也不是充分的。我也没看过最后正确的证明,不知道你这样证是否是合适的。
3. 必要条件(7)最好展开一下$F_{y'}-F_{y'x}-F_{y'y}y'-F_{y'y'}y''=0$, 这样更加直观。非数学专业的可能会以为第二项就只有一项。
参考:古今数学思想 莫里斯 $\cdot $克莱因 第二册 24章
谢谢,受教了