来源：2020-09-03 16:37:00 热度：

如何打破疫情防控「生命-经济-隐私」三重困境？清华、麦吉尔研究者提出「双目标强化学习流行病控制元」

AI中国网 https://www.cnaiplus.com

针对压制疫情、保护经济、保护隐私的三难困境，清华大学和麦吉尔大学的研究者提出了「双目标强化学习流行病控制元」（DURLECA），利用图神经网络（GNN）和强化学习（RL）动态控制城市内部不同社区间的交通流量。DURLECA 能在不需要隐私数据的情况下，定位、控制、减少高风险移动，从而在最大化保留经济活动的同时有效控制疫情。论文已发表在 KDD’20 针对 COVID-19 的专题征稿中。

论文地址：http://arxiv.org/abs/2008.01257

代码地址：https://github.com/anyleopeace/DURLECA

基于北京真实数据的实验表明，即使在疫情发生 20 天后才进行干预，DURLECA 在防控中依然能够保留 76% 的城市交通，同时将医院负载峰值控制在 1.4 每千人以下，这远低于大多数国家地区的医疗保健能力上限_{[病床密度统计：美国 2.9‰，中国 4.2‰，日本 13.4‰。数据来源：https://www.indexmundi.com/g/r.aspx?v=2227&l=zh]}。

同时，没有一个城市社区会遭受长期封锁。这能满足绝大多数的经济需求。和 DURLECA 相比，专家策略要么会因为太保守而过于抑制交通，要么会因为太宽松而导致疫情大爆发。

视频地址（英文）：https://www.bilibili.com/video/BV1wV411S7sm/

视频地址（中文）：https://www.bilibili.com/video/BV1Ja4y177Kr/

研究背景：疫情防控「生命 - 经济 - 隐私」三重困境

疫情防控的关键在于通过限制感染人群的移动和其与其他人群的接触，切断病毒的传播途径。然而，现实防控中往往存在一个生命 - 经济 - 隐私的三重困境。

大部分地区采取的封城、解禁策略，要么会因为过于严苛损害城市经济，要么会因过于宽松无法成功控制疫情。部分地区利用个人数据，追踪并隔离确诊病例的密切接触者；这种策略在疫情初期虽然有效，但也引起了人们对侵犯隐私的担忧；此外，很多地区已经进入了疫情的社区传播阶段，存在大量的无症状感染者，因此将无法追踪所有的接触者，从而无法控制住疫情传播。

社会迫切需要一种能够解决「生命 - 经济 - 隐私」三重困境的防疫政策，在不侵犯隐私的前提下，压制疫情并尽量多地保留经济活动。

研究者分析认为，这样的防疫政策是存在的。疫情中，真正的感染人群只占总人口的一小部分，因此只需要在不利用隐私数据的情况下，定位并限制高风险人群及其移动，就能在只限制一小部分人群的情况下，保留大部分人群的正常经济活动需求。

问题建模：在无症状患者不可见的情况下，定位并控制城市社区间的高风险交通流量

1. 交通控制策略建模

为了达成上述策略目标，研究者在当前地区「红绿码」的基础上，提出了一种新的抗疫策略——为每一对城市社区之间的交通分配「配额」。该配额用于决定批准社区间多少百分比的交通需求，其不再依赖于个人数据，而是根据每个社区自身疫情统计数据以及对社区间的交通统计数据得出。通过对高风险的交通流量分配较低的「配额」，对低风险的交通流量分配较多的「配额」，该策略能有效地降低疫情传播并保留尽量多的经济活动。

2. 疫情建模

为了在更严格、更具有现实意义的情境下解决问题，研究者基于传统流行病模型 SIR 模型提出了 SIHR 模型进行疫情模拟。在 SIHR 模型中，施策者需要在看不见无症状感染者的情况下做出决策。

3. 对解决「生命 - 经济」困境的建模

在上述的交通建模和疫情建模基础上，研究者将保护经济、拯救生命定义了一个多目标的顺序控制问题（sequential control problem）：

公式（10）代表对交通和疫情的建模，公式（11）代表对将保护经济、压制疫情的双目标建模。具体优化目标将在后文定义。

策略搜索：DURLECA

然而，求解上述多目标的顺序控制问题非常困难，存在三方面挑战：

1）大量、复杂、时变的现代交通使我们很难定位真正高风险的移动

2）首先，优化目标需要反应现实世界的 constraint：有限的医疗资源与人们对交通封锁有限的忍耐。其次，优化目标需要可解释，这样政府才便于因地适宜地使用它。最后，优化目标要能够高效地引导训练。

3）多目标优化容易陷入局部最优。

这个问题在疫情控制中尤为明显，因为疫情中的感染人数存在指数增长的特性，在探索策略空间时，对当前策略的微小的扰动都可能带来未来感染人数急剧增加。因此，策略搜索会有极大的 incentive 去规避任何可能导致疫情增长的因素，从而抑制了对策略空间的探索，极易导致搜索陷入局部最优（常常是过于保守的封城策略）。

为了解决上述挑战，并求得最优疫情控制策略，研究者提出了一个以图神经网络为基础的强化学习控制元，并命名为 DUal-objective Reinforcement-Learning Epidemic Control Agent (DURLECA)。在每一个 time step，GNN 根据统计到的地区间交通流量（OD 数据）和疫情统计数据，估计交通流中的疫情风险；基于 DDPG 的 RL Agent 在估计风险的基础上做出决策，为每一对城市地区间的交通流量分配「配额」。

针对第一个挑战：提出 Flow-GNN 用于描述疾病传播动态

研究者选用 GNN 去估算交通流中的疫情风险，因为城市内交通可以被看做一张图上的流。然而，已有的 GNN 结构并不是针对疾病传播设计的，无法捕捉交通中的疾病传播信息。因此，论文作者提出了一个新的 GNN 结构用于描述疾病传播动态：

具体说来，Flow-GNN 的每一层 layer 都描述了一个 time step 中不同健康状态的人群的移动、新感染的发生。

针对第二个挑战：精心设计目标函数，指数惩罚医院负载量与社区封锁时长

为了在目标函数中反应现实中有限的医疗资源与人们对交通封锁有限的忍耐，研究者设计目标函数指数增长地惩罚医院的负荷量和每个城市社区的封锁时间。因此，无论是医院负荷超过医疗系统负载能力，还是城市任一社区被封锁过长时间，都会导致目标函数收到很大惩罚。

针对第三个挑战：结合专家知识，引导 Agent 高效探索策略空间

研究者设计了两个 RL 的探索策略来提升探索的效率并解决局部最优的问题：

1）在 RL 训练前期，结合伪专家策略做决策

论文作者根据当前的封城策略设计了伪专家策略，训练初期，RL agent 将有一定几率直接采用伪专家策略进行分配「配额」，这能让训练初期的 Agent 高效地向好的策略方向探索。

2）利用专家知识，在策略空间中划去极端区，禁止 agent 探索

为了避免过多遭遇极端差的情况（例如疫情大爆发）而被迫采用过于保守的策略，论文作者规定 RL Agent 在遇到极端差情况时会受到极大的惩罚，并将提前终止整个 episode。这能让 RL Agent 提高探索效率并避免陷入局部最优。

实验结果

研究者在采集自北京的真实 OD 数据上进行了测试，并根据当前现实世界的专家策略设计了 baseline 与 DUELCA 进行对比。DURLECA 给出了非常复杂但是有效的抗疫策略，下图呈现了 DURLECA 控制下每个社区的交通流量变化：

即使在疫情发生 20 天后才进行干预，DURLECA 在防控中依然能够保留 76% 的城市交通，同时将医院负载峰值控制在 1.4 每千人以下，这远低于大多数国家地区的医疗保健能力上限。同时，没有一个城市局部社区会遭受长期封锁。这能满足绝大多数的经济需求。和 DURLECA 相比，专家策略要么会因为太保守而过于抑制交通，要么会因为太宽松而导致疫情大爆发。