漫谈神经网络价值函数

说到神经网络的价值函数，或者是损失函数，也可以叫目标函数，随意啦，就不得不提反向传播，提到反向传播，就不得不提链式求导，梯度下降，提到梯度下降，那我就不得不抛出了上面的图片。

简单描述一下这个寻优过程，初始化一个随机值，沿着梯度的反方向以一定的步子（不要太大）不停的迭代，就能寻找到一个比较不错的局部最小值，是不是很简单？你要问我什么是梯度下降，以及梯度下降与牛顿法的区别，以及为什么是局部最小，我不告诉你，我可以透露一点，多看几眼泰勒展开式。

说了半天，并没有点题，价值函数到底是什么？上面讲到了反向传播，那么这里就讲讲正向传播了，回到神经网络建模过程，回想一下那个过程，你先建了个输入层，再紧接着连上一层接一层的隐藏层，最后一层为输出层，到了这里，你有了一个推理模型，行话叫Inference,哈哈。接着往下走，你的目的是训练模型，你手上有大把数据，以及每一个数据样本对应的标签，显然你要将数据丢进输入层，那么标签怎么办，监督学习，顾名思义，就是用标签监督你的输出层数据，你要让你的输出层数据和标签尽可能长得像，用数学一点的语言讲，就是让输出和标签的范数尽可能小，ok,还是有点绕，不急，总结一下，简单点，标签与输出的范数就是价值函数，对，就是那个范数，范数不懂，这里也不讲，反向传播干的事就是利用梯度下降法，去寻找那个局部最小值。你要问我价值函数到底长成什么样子，它就是上图的样子，只不过比它复杂得多，上图是三维的，它可能是上亿维的，是的，它的维数就是它的参数的数量，它的参数就是所有的隐藏层的参数，它的系数，是常数，就是你的样本数据和标签，它们都是已知的，都是常数，没错吧，到这里有没有一个巨长的函数出现在你的脑海里，回想一下它的变量，系数都是啥，想起来了吗？

到这里，我自认为我讲清楚了神经网络的价值函数，到这里就该结束了，看看我的题目，大大的漫谈两个字提醒着我，我还有话要讲，既然是漫谈，接下来的内容就可能是胡扯了。

先下个定义，不知道为啥老想着下定义。任务的数学描述：每个任务都是在改变场景中某些物体的状态，用流态（fluent)来代表一种可以改变的状态。

价值，价值观，价值函数，听起来应该有点近表亲的意思，可以探讨一下。

天下熙熙，皆为利来，天下攘攘，皆为利往，人的每一次选择，每一个行为都是利益驱使的，话有点不大好听，但我是这样理解的，把驱动我们的利益看作价值函数，我们的目标是利益最大化，就是找到这个价值函数的最大值。把利益最大化看作一个任务，你在这个过程中的行为，就是在改变你和周围环境的状态，一步一步地，流态一步一步地改变，一步一步地达到一个准平衡态，直到它平衡，是不是特像梯度下降迭代的那个过程，只不过这里可能使梯度上升哦，毕竟，人往高处走。没错，还有水往低处流。一下高处走，一下低处流，要怎么理解，没错，我是学物理的，如果你也学物理，你一定能知道我接下来说的是什么？

保守力场都具有势能函数，人往高处走，水往低处流，本质一样，人和水都按照着各自的势能函数在流动，只不过他两的势能函数不一样而已啦。我们知道势能函数沿着与力相反的方向下降，力是什么，力不就是势能关于距离的一阶微分吗？这不就是梯度下降吗？最后谈谈价值观吧，同为人类，驱动人的势能函数因每个人的价值观不同而产生差异，那这里还有提价值函数的必要吗？有的，虽然价值观因人而异，但毕竟还是用通用的，叫常识也好，或者老美口中的普世价值也罢了，都是一个意思，有了这些东西，在一个多人的环境中，就有了竞争合作，就会形成社会规范，伦理道德。这些伦理，社会规范就是人群在竞争和合作中，收到外部物理环境的限制下，达成的暂时的准平衡态。请注意这里的限制，准平衡态，数学语言描述一下，边界条件的存在，形成的是一种具有概率意味的规则，因为边界条件随时可能变化，（如新的技术发明，像互联网，人工智能）或是政策改变（如改革开放），要注意因地制宜。终于讲完了，长舒了一口气，可能我也不知道我在讲什么。

写在最后，深度学习，怎么理解”学习“二字，我们知道深度学习是数据驱动型的算法，学习有两种方式，归纳与演绎，我认为一个深度学习模型就是这两种学习方法的结合，正向传播就是一个归纳过程，反向传播就是一个演绎过程，好像这个理解有点鸡贼，放在哪里都可以，哈哈。

还是要展望一下的，毕竟深度学习这么火，需要大数据驱动，大数据小任务范式，计算密集型，这是它的几个标签。虽然不得不承认它的过人之处，但还是要知道它的局限性，它离通用人工智能差得应该还很远，虽然我也不知道他离得多远，今天有个消息，百度徐伟出走，搞通用人工智能去了。数据驱动型算法就像是鹦鹉学舌吧，上限肉眼可见。但目前来说，它最厉害！任务驱动，知识图谱，可以了解一下。

参考资料：浅谈人工智能：现状、任务、构架与统一

stoner