26 Dec

《自然极值》系列——8.极值分析

By 苏剑林 | 2010-12-26 | 50173位读者 |

《非线性泛函分析及其应用,第3卷,变分法及最优化》

本篇文章是《自然极值》系列最后一篇文章，估计也是2010年最后一篇文章了。在这个美好的2010年，想必大家一定收获匪浅，BoJone也在2010年成长了很多。在2010年的尾声，BoJone和科学空间都祝大家在新的一年里更加开心快乐，在科学的道路上更快速地前行。

在本文，BoJone将与大家讨论求极值的最基本原理。这一探讨思路受到了天才的费恩曼所著《费恩曼物理讲义》的启迪。我们分别对函数求极值（求导）和泛函数极值（变分）进行一些简略的分析。

一、函数求极值

对于一个函数$y=f(x)$，设想它在$x=x_0$处取到最大值，那么显然对于很小的增量$\Delta x$，有
$$f(x_0+\Delta x) \leq f(x_0)\tag{3}$$根据泰勒级数，我们有
$f(x_0+\Delta x)=f(x_0)+f'(x_0)\Delta x$————(4)
这里我们略去了二次以及更高次方的项，因为中值定理告诉我们，剩下来的项之和仍然只是一个二次项（二阶无穷小），也就是说，它无法“撼动$f'(x_0)\Delta x$的地位”。于是将(4)代入(3)有
$$f'(x_0)\Delta x \leq 0$$
要注意的是，$f'(x_0)$是一个定值，而$\Delta x$是一个可正可负的变量，于是我们就得到
$$f'(x_0) \leq 0,f'(x_0) \geq 0$$
从而有$f'(x_0)=0$。

我们还可以把上面的名词“最小值”换成“最大值”，把$\leq$和$\geq$互换，同样可以进行类似的讨论，结果是一样的。于是我们得出：$f'(x)=0$是函数$f(x)$的极大（小）值的必要条件。

二、泛函数求极值

关于最速降线和悬链线问题的讨论，我们最终都归结为这样的一个问题：

求一过$(x_1,y_1),(x_2,y_2)$的函数$y=f(x)$，满足积分$\int_{x_1}^{x_2} F(x,y,\dot{y})dx$为极大（小）值。

设函数$y=y(x)$是所求函数，那么对于y的一个很小的增值函数$\varepsilon=\varepsilon(x)$，其中$\varepsilon(x_1)=\varepsilon(x_2)=0$，那么$y=y(x)+\varepsilon(x)$同样是一个过$(x_1,y_1),(x_2,y_2)$的函数。那么

$$\int_{x_1}^{x_2} F(x,y+\varepsilon,\dot{y}+\dot{\varepsilon})dx \leq \int_{x_1}^{x_2} F(x,y,\dot{y})dx\tag{5}$$
利用多元泰勒级数对$F(x,y+\varepsilon,\dot{y}+\dot{\varepsilon})$进行展开，得
$$F(x,y+\varepsilon,\dot{y}+\dot{\varepsilon})=F(x,y,\dot{y})+\frac{\partial F}{\partial y}\varepsilon+\frac{\partial F}{\partial \dot{y}}\dot{\varepsilon}$$

这里我们同样略去了二次及更高次方的项。代入(5)式得到
$$\int_{x_1}^{x_2}(\frac{\partial F}{\partial y}\varepsilon+\frac{\partial F}{\partial \dot{y}} \dot{\varepsilon})dx \leq 0\tag{6}$$
这里有一个对$\int(\frac{\partial F}{\partial \dot{y}} \dot{\varepsilon})dx$处理的技巧，利用的是《数学分析》中的“分步积分法”，即
$$\int(\frac{\partial F}{\partial \dot{y}} \dot{\varepsilon})dx=\int(\frac{\partial F}{\partial \dot{y}}d\varepsilon)=\frac{\partial F}{\partial \dot{y}}\varepsilon-\int[\frac{d(\frac{\partial F}{\partial \dot{y}})}{dx}\varepsilon] dx$$

代入(6)式得到

$$(\frac{\partial F}{\partial \dot{y}}\varepsilon)|_{x_1}^{x_2}+\int_{x_1}^{x_2}[\frac{\partial F}{\partial y}-\frac{d(\frac{\partial F}{\partial \dot{y}})}{dx}]\varepsilon dx \leq 0$$

由于$\varepsilon(x_1)=\varepsilon(x_2)=0$，所以$(\frac{\partial F}{\partial \dot{y}}\varepsilon)|_{x_1}^{x_2}=0$，同样$\varepsilon$可正可负，因而必定有
$$\int_{x_1}^{x_2}[\frac{\partial F}{\partial y}-\frac{d(\frac{\partial F}{\partial \dot{y}})}{dx}]\varepsilon dx =0$$

这个式子必须对于所有的$\varepsilon=\varepsilon(x)$都成立，因而括号内的值只能为0，于是
$$\frac{\partial F}{\partial y}-\frac{d(\frac{\partial F}{\partial \dot{y}})}{dx}=0\tag{7}$$
把极大值和极小值互换，把$\leq$和$\geq$互换，同样可以进行类似的讨论，结果也是一样的。于是我们得出：(7)式是积分$\int_{x_1}^{x_2} F(x,y,\dot{y})dx$为极值的必要条件。

(7)式就是著名的（二维形式）欧拉-拉格朗日方程 (Euler-Lagrange equation) 。

利用类似的思路，还可以把方程扩展到更多维度，以及更高的阶（比如F中含有$\ddot{y}$项等）。大家不难发现，里边是思路是一致的：假设极值→设置增量→一阶展开→与原值比较→分析化简→得出等式→解出等式。尽管其中的处理过程有所差别，但是原理并没有变化。因此，可以认为，这是处理极值问题的最根本思路。

由于本文属于思路引导而非专业教程，所以该问题讨论至此已经算是完毕。具体内容大家可以查阅维基百科里边的相关内容。

变分：
http://zh.wikipedia.org/zh/%E5%8F%98%E5%88%86%E6%B3%95
欧拉－拉格朗日方程：
http://zh.wikipedia.org/zh-sg/%E6%AD%90%E6%8B%89%EF%BC%8D%E6%8B%89%E6%A0%BC%E6%9C%97%E6%97%A5%E6%96%B9%E7%A8%8B

《自然极值》告一段落了，2010年也将告一段落了，尽管还有很多的不舍和遗憾，我们还是在2010收获了很多，成长了很多。愿我们都带着最美好的希望，迎接即将到来的2011，在阳光的沐浴和风雨的洗礼中，慢慢成长，渐渐前行，体味科学，领略真理！在科学的道路上，愿继续与众多的科学爱好者共同前行！

《自然极值》系列终。

转载到请包括本文地址：https://kexue.fm/archives/1134

更详细的转载事宜请参考：《科学空间FAQ》

如果您还有什么疑惑或建议，欢迎在下方评论区继续讨论。

如果您觉得本文还不错，欢迎分享/打赏本文。打赏并非要从中获得收益，而是希望知道科学空间获得了多少读者的真心关注。当然，如果你无视它，也不会影响你的阅读。再次表示欢迎和感谢！

如果您需要引用本文，请参考：

苏剑林. (Dec. 26, 2010). 《《自然极值》系列——8.极值分析》[Blog post]. Retrieved from https://kexue.fm/archives/1134

@online{kexuefm-1134,
        title={《自然极值》系列——8.极值分析},
        author={苏剑林},
        year={2010},
        month={Dec},
        url={\url{https://kexue.fm/archives/1134}},
}

分类：数学研究标签：2010, 极值, 分析, 变分, 2011 8 评论

< 《自然极值》系列——7.悬链线问题 | 你好，2011！ >

你也许还对下面的内容感兴趣

发表你的看法

zzm

December 26th, 2010

佩服佩服
你论文发表了没啊

回复评论

zzm

December 27th, 2010

偏导数的看的不怎么懂

回复评论

kayes

December 30th, 2010

兄弟我也想换Typecho程序，我一直用geekg风格，但是我找不到Typecho的geekg风格，能给我份么？我的信箱admin@2552.me
先谢谢兄弟了！

回复评论

zzm

January 2nd, 2011

又看了一遍发现有点懂了。不过我想知道，这方法是不是你自己想出来的。我看别的书的方法不是这样。

回复评论

苏剑林发表于 January 2nd, 2011

自己总结的，但是肯定不是首创。欧拉-拉格朗日方程的推导受到了《费恩曼物理讲义》的启示。
也许不是推导的方法不同，而是讲述的过程不同。我只是高中生，站在个人的角度来讲这个问题，认识不深，应该比不上专家的专业了。

回复评论

RamonYeung

October 25th, 2018

剑林哥~整个系列都看完了, 见解很独特!~

设置增量这一点我记住了~但感觉维基百科的记号更好懂.

\hat{y}的记号看不太清

回复评论

kongmuqiuren

April 7th, 2021

最近刚好在看一些最小作用量原理的资料，楼主写的很好，我想补充几点：
1. （7）式最早由Euler提出，不过他用的方法是把几何和分析结合起来，他把导数变成了差商，积分变成了有限和，所用的方法不具有通用性。后来Lagrange用纯分析的方法得到了（7）式，它论文中的推导和楼主的过程差不多，可能Feynman讲了这方面的内容，实际上这完全是Lagrange的工作。证明大概是这样的：
$ 令J= \int_{x_1}^{x_2}f(x,y, y')dx $
$\Delta J= \int_{x_1}^{x_2} |f(x,y+ \delta y, y'+\delta y')- f(x,y, y')|dx $, $\delta 表示y(x)的变分$
Taylor展开得到一次变分项 $\delta J=\int_{x_1}^{x_2} (f_y \delta y +f_{y'} \delta y')dx$
Lagrange说$\delta y'=\delta \frac{dy}{dx}=\frac{d \delta y}{dx}$
即d 和 $\delta$ 可以交换，后来Euler对此作出了解释(这里就是你的思想，把$\delta y$看作是x的函数)
现在一次变分可以写成$\int_{x_1}^{x_2}(f_y \delta y +f_{y'} \frac{d \delta y}{dx})dx$,同样第二项用分部积分得到最后的结果。
2. 你在推出(7)的时候说$\epsilon$前面的系数必须为0,所用的推理方法我很怀疑正确性。因为在Lagrange得到这个结果之后的100年里，人们一直直观地相信或者错误地证明过系数为0，甚至Cauchy的证明也不是充分的。我也没看过最后正确的证明，不知道你这样证是否是合适的。
3. 必要条件（7）最好展开一下$F_{y'}-F_{y'x}-F_{y'y}y'-F_{y'y'}y''=0$, 这样更加直观。非数学专业的可能会以为第二项就只有一项。

参考：古今数学思想莫里斯 $\cdot $克莱因第二册 24章

回复评论

苏剑林发表于 April 8th, 2021

谢谢，受教了

回复评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前32岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

《自然极值》系列——8.极值分析

你也许还对下面的内容感兴趣

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接