Compiler Princlple Study Node

编译原理预习

为了~~暑假好好学习~~选昱姐的课不会挂的太惨，提前过一遍昱姐的 ppt，和《编译器设计》（第二版）的书籍。内容会交叉进行。

为了形式化识别器，引入有限自动机（FA）。有限自动机是一个五元组 $ (S, \Sigma, \delta, s_0, S_A) $：

$ S $ 是识别器有限状态集，以及一个错误状态 $s_e$。
$ \Sigma $ 是识别器用的有限字母表。
$ \delta(s,c) $ 是识别器的转移函数，对每个 $ s \in S , c \in \Sigma $ 对应一个状态。一般也这么表示：$ s_i \xrightarrow{c}{\delta (s_i, c)} $。
$ s_0 $ 是指定的起始状态。
$ S_A \in S $ 是接受状态的集合，表示为双层圆圈。

复杂性：

RE 描述了一个定义在某个字母表 $ \Sigma $ 上的字符串集合。一个 RE 由三个基本操作构成：

用上面定义和数理逻辑的东西，可以定义全体 RE 在给定字母表 $ \Sigma $ 上构成的集合。

任何可以利用 RE 定义的语言（即，对于给定语言，可以找出一个 RE 使得语言的所有可能字串都恰好是 RE 可表示的字串）组成的语言集合称为正则语言。

RE 的闭包性质：$ RE op RE $ 的结果仍然是 RE（这里 op 指的是前面那些操作）

JauntyLiu 想出的简单算法：

（这里需要 RE 的分层性质，仿照数理逻辑即可给出）

4 的构造显然。

下面讨论 1,2,3 的构造。假设 q,r 均有了对应的 FA。

对于 1，FA 构造如下（比较显然）：

取 q 的所有 accept state （$ S_A $），分别「接上」r 的 i nitial state （$ S_0 $）就好了
- 严谨证明的话，可以写成 FA 的语言

对于 2，FA 构造有些难度。我们需要知道「匹配到什么程度才能把 q 和 r 分开」。比如 $ abc $ 和 $ abd $，就要匹配到第三个才知道到底选 q 还是选 r。

书上的做法：RE ==(Thompson)==> NFA ==(子集构造伐)==> DFA ==(Hopcraft)==> 最小 DFA

子集构造法：用 $ \epsilon -closure $ 找状态的等价集合（「配置」），然后遍历。因为总配置数是有限的，所以一定可以停止。

Hopcraft 算法：先分类，然后迭代，找出类中不等价的元素，切分。重复，知道遍历所有类均找不出不等价的元素，这样就构造了一组等价类（状态）。