鸟语天空
动态规划
post by:追风剑情 2015-11-9 20:00

      动态规划(dynamic programming)是解决多阶段决策问题常用的最优化理论。动态规划方法的原理就是把多阶段决策过程转化为一系列的单阶段决策问题,利用各个阶段之间的递推关系逐个确定每个阶段的最优化决策,最终堆叠出多阶段决策的最优化决策结果。

      动态规划法通过将问题细分为一系列子问题,从而隐含地探查了所有可行解的空间,于是我们可以从某种程度上把动态规划看作接近暴力搜索边缘的危险操作。

      动态规划对子问题的处理方式使得它可以遍历问题可行解的指数规模的集合,甚至可以在没有明确地检查所有解的情况下就做到这一点。可以认为这是因为动态规划拥有比穷举更高效的剪枝判断,这是一种对重叠子问题(子问题包含子问题)处理的内在机制。

      动态规划适合求解多阶段(状态转换)决策问题的最优解,也可用于含有线性或非线性递推关系的最优解问题,但是这些问题都必须满足最优化原理和子问题的话“无后向性”。

最优化原理: 最优化原理其实就是问题的最优子结构的性质,如果一个问题的最优子结构是不论过去状态和决策如何,对前面的决策所形成的状态而言,其后的决策必须构成最优策略。也就是说,不管之前决策是否是最优决策,都必须保证从现在开始的决策是在之前决策基础上的最优决策,则这样的最优子结构就符合最优化原理。

无后向性(无后效性):所谓“无后向性”,就是当各个阶段的子问题确定以后,对于某个特定阶段的子问题来说,它之前的各个阶段的子问题的决策只影响该阶段的决策,对该阶段之后的决策不产生影响,也就是说,每个阶段的决策仅受之前决策的影响,但是不影响之后各阶段的决策。

动态规划的基本思想

      和分治法一样,动态规划解决复杂问题的思路也是对问题进行分解,通过求解小规模的子问题再反推出原问题的结果。但是动态规划分解子问题不是简单地按照“大事化小”的方式进行的,而是沿着决策的阶段划分子问题,决策的阶段可以随时间划分,也可以随着问题的演化状态划分。分治法要求子问题是互相独立的,以便分别求解并最终合并出原始问题的解,但是动态规划法的子问题不是互相独立的,子问题之间通常是有包含关系,甚至两个子问题可以包含相同的子子问题。比如,子问题A的解可能由子问题C的解递推得到,同时,子问题B的解也可能由子问题C的解递推得到。对于这种情况,动态规划法对子问题C只求解一次,然后将其保存在一张表中(此表也称为备忘录),避免每次遇到这种情况都重复计算子问题C的解。除此之外,动态规划法的子问题还要满足“无后向性”要求。

      动态规划法不像贪婪法或分治法那样有固定的算法实现模式,作为解决多阶段决策最优化问题的一种思想,它没有具体的实现模式,可以用带备忘录的递归方法实现,也可以根据堆叠子问题之间的递推公式用递推的方法实现。但是从算法设计的角度分析,使用动态规划法一般需要四个步骤,分别是定义最优子问题、定义状态、定义决策和状态转换方程以及确定边界条件,这四个问题解决了,算法也就确定了。

定义最优子问题

      定义最优子问题,也就是确定问题的优化目标以及如何决策最优解,并对决策过程分阶段。所谓阶段,可以理解为一个问题从开始到解决需要经过的环节,这些环节前后关联。划分阶段没有固定的方法,根据问题的结构,可以按照时间顺序划分阶段,也可以按照问题的演化状态划分阶段。阶段划分以后,对问题的求解就变成对各个阶段分别进行最优化决策,问题的解就变成按照阶段顺序依次选择的一个决策序列。

定义状态

      状态既是决策的对象,也是决策的结果,对于每个阶段来说,对起始状态施加决策,使得状态发生改变,得到决策的结果状态。初始状态经过每一个阶段的决策(状态改变)之后,最终得到的状态就是问题的解。当然,不是所有的决策序列施加于初始状态后都可以得到最优解,只有一个决策序列能得到最优解。状态的定义是建立在子问题定义的基础上的,因此状态必须满足“无后向性”要求。必要时,可以增加状态的维度,引入更多的约束条件,使得状态定义满足“无后向性”要求。

定义决策和状态转换方程

      定义决策和状态转换方程。决策就是能使状态发生转变的选择动作,如果选择动作有多个,则决策就是取其中能使得阶段结果最优的那一个。状态转换方程是描述状态转换关系的一系列等式,也就是从n-1阶段到n阶段演化规律。状态转换取决于子问题的堆叠方式,如果状态定义得不合适,就会导致子问题之间没有重叠,也就不存在状态转换关系了。没有状态转换关系,动态规划也就没有意义了,实际算法就退化为像分治法那样的朴素递归搜索算法。

定义边界条件

      对于递归加备忘录方式(记忆搜索)实现的动态规划方法,边界条件实际上就是递归终结条件,无需额外的计算。对于使用递推关系直接实现的动态规划方法,需要确定状态转换方程的递推式的初始条件和边界条件,否则无法开始递推计算。


动态规划法的例子:字符串的编辑距离

我们把两个字符串的相似度定义为:将一个字符串转换成另外一个字符串时需要付出的代价。转换可以采用插入、删除和替换三种编辑方式,因此转换的代价就是对字符串的编辑次数。字符串转换的方法不唯一,以字符串“SNOWY”和“SUNNY”为例,下面是两种将“SNOWY”转换成“SUNNY”的方法。

转换方法1:

S-NOWY

SUNN-Y

转换代价Cost=3 (插入U、替换O、删除W)

转换方法2:

-SNOW-Y

SUN--NY

转换代价Cost=5 (插入S、替换S、删除O、删除W、插入N)

不同的转换方法需要的编辑次数也不一样,最少的那个编辑次数就是字符串的编辑距离(edit distance)。

作为对比,首先给出一个朴素的递归算法,递归算法一如既往地简优雅:


using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;

namespace StringEditorDistance
{
    class Program
    {
        static string source = "SNOWY";
        static string target = "SUNNY";

        static void Main(string[] args)
        {
            int distance = EditDistance(source, target);
            Console.WriteLine("编辑距离为: {0}", distance);
            Console.Read();
        }

        static int EditDistance(string src, string dest)
        {
            if (src.Length == 0 || dest.Length == 0)
                return Math.Abs(src.Length - dest.Length);

            if (src[0] == dest[0])
                return EditDistance(src.Substring(1), dest.Substring(1));

            int edIns = EditDistance(src, dest.Substring(1)) + 1;//source 插入字符
            int edDel = EditDistance(src.Substring(1), dest) + 1;//source 删除字符
            int edRep = EditDistance(src.Substring(1), dest.Substring(1)) + 1;//source 替换字符

            return Math.Min(Math.Min(edIns, edDel), edRep);
        }
    }
}


运行效果

ddddd.png

评论:
发表评论:
昵称

邮件地址 (选填)

个人主页 (选填)

内容