Agent论文阅读：NormEnforcement with a Soft Touch: Faster Emergence, Happier Agents

摘要（ABSTRACT）

在多智能体系统（multiagent system, MAS）中，智能体之间的交互可通过社会规范（social norms）进行调节。通常，社会规范并非预设的规则（hardcoded rules），而是从智能体的交互中自发形成（emerge）。具体而言，社会中的智能体如何对彼此的行为作出反应，并如何回应他人的反馈，将决定哪些规范最终在社会中形成。

社会规范定义了群体可接受的集体行为，并约束智能体的行为。规范的形成可能是自上而下（top-down）的（如法律规范 [42]），也可能是自下而上（bottom-up）的（如智能体通过互相学习可接受的行为来形成规范 [40]）。本研究关注的是在允许顶层规范存在的情况下，如何自下而上地促进规范的形成。当社会中绝大多数智能体在相似环境下选择相同行为时，该行为即可被视为规范的形成 [33, 40]。

智能体对其他智能体的行为作出反应，可能表现为对满意或不满意行为的社交沟通（social communication）。理解这些沟通方式是一种社会智能（social intelligence）：这些沟通方式能推动智能体朝某些行为方向发展，进而使这些行为成为社会规范。尽管已有研究表明制裁（sanctioning）有助于规范的形成，我们认为更广义的社会智能可能在促进多智能体系统中的**合作（cooperation）**方面更为有效。

为此，我们提出 Nest 框架，该框架通过比以往研究更丰富的社交沟通方式建模社会智能，并增强对这些沟通方式的理解。为了评估 Nest，我们在模拟疫情环境中进行实验，并与基线模型进行对比。实验中，我们结合了三种社会沟通方式：

制裁（Sanction）
直接告知（Tell）
暗示（Hint）

实验结果表明：

由 Nest 代理组成的社会能够更快形成规范。
Nest 代理能够有效避免负面影响（如被制裁或目标偏离），并获得更高的个体满意度。
尽管 Nest 代理所需的信息量与基线代理相当，但它们的社会合作效果更好。

这些结果表明，通过更广泛的社会智能沟通方式，可以比单纯依赖制裁更高效地促进规范形成，并提高智能体的社会适应性。

翻译

为了回答 RQsocial-communication（关于社会沟通的研究问题），我们定义了**规范性信息（normative information）**的两种表达方式：

显式规范性信息（explicit normative message） [6]
隐式暗示（implicit hint） 作为信息传递方式

研究贡献（Contributions）

我们提出 Nest（Norm Enforcement with a Soft Touch，即“柔性规范执行”），这是一个既能容纳自上而下（top-down）强制规范，也能促进规范自下而上（bottom-up）形成的框架。Nest 结合了三种社会沟通方式传递的规范性信息，这些信息能够促进社会学习（social learning）。

我们通过模拟疫情场景对 Nest 进行了实验评估，并考察了三种不同的社会沟通类型：

制裁（Sanction）
直接告知（Tell）或直接信息传递（Direct Messaging）
暗示（Hint）

实验结果表明：

引入 暗示（hint） 和 直接告知（tell） 的规范性信息能够加速社会规范的形成（norm emergence）。
这种方式有效避免了负面后果，如受到制裁（sanction）或目标偏离（deviation from goals）。
在整个社会中，智能体的总体满意度更高。
尤其是在低疫苗接种率的社会中，智能体逐渐学会自我隔离是一种值得称赞的行为，并发现短期妥协可以避免长期严重处罚。

论文结构（Organization）

第 2 节 介绍 Nest 的核心概念，并描述智能体的决策过程。
第 3 节 详细描述用于评估 Nest 的疫情模拟实验。
第 4 节 展示实验结果。
第 5 节 讨论相关研究工作。
第 6 节 总结研究发现，并讨论本研究的局限性、有效性威胁（threats to validity）及未来研究方向。

2 NEST

Nest 智能体在选择行动时，会综合考虑自身目标、环境规范以及社会沟通方式 [3, 28, 40, 44]。

Nest 智能体能够从观察中学习。例如：

在示例 2 中，当 Becka 收到 Charlie 的信息后，她学会了如果不进行自我隔离，可能会被举报给当地政府。
在示例 3 中，Becka 可能误解了 David 的冷漠，错误地认为他是在针对自己。

在决策过程中，Nest 智能体会激活与自身相关的规范 [8]，然后使用规范推理（normative reasoning） 机制评估遵守或违反规范的可能后果。当智能体执行某个行动后，会检查该行动是否符合或违反了规范。如果规范被遵守或违反，则会触发相应的社会沟通（social communication）。

2.1 关键概念（Key Concepts）

以下是 Nest 体系中的核心概念：

目标（Goal）

目标是智能体希望实现的世界状态。
目标的最终结果是二元的（已达成 / 未达成）。

规范（Norm）

规范描述了**一个智能体（主体）与另一个智能体（客体）**之间的约束关系。
规范可能要求智能体付出努力来遵守，或者限制其自由。
本研究考虑两种规范类型：
1. 承诺（Commitment）：如果规范的后果成立（consequent holds），则承诺规范被满足，否则被违反。
2. 禁止（Prohibition）：如果规范的后果成立，则禁止规范被违反；如果后果从未成立，则禁止规范被满足 [10]。
规范包含两个组成部分：
- 前提（Antecedent）：触发该规范的条件。
- 后果（Consequent）：满足或违反规范的条件。

制裁（Sanction）

制裁是一个智能体对另一个智能体的正面、负面或中性反应，通常是对规范遵守或违反的回应。
现实世界中的制裁可能是微妙的，例如情绪表达 [35]。

直接告知（Tell）

Tell（直接信息传递） 明确描述行为的因果关系，包括：
- 该行为是否符合规范
- 可能带来的奖励或惩罚
例如，在示例 2 中，Charlie 告诉 Becka 违反规范的后果。

暗示（Hint）

Hint（暗示） 是间接的线索，用于引导另一个智能体的行为。
暗示需要接收者自行推理其真正含义。
在 Nest 框架中，暗示被建模为规范遵守或违反时触发的微妙社会沟通方式。

奖励塑形（Reward Shaping）

奖励塑形 指的是额外的奖励（除了环境提供的奖励之外）[27]，用于：
- 鼓励智能体朝向某个目标行动
- 促进智能体在特定状态下选择某些行动
在本研究中，我们将Tell 和 Hint 视为对软性制裁（soft sanctions）的建议，即：
- Tell 和 Hint 可被推断为正面或负面的奖励，用于鼓励或阻止某些行为。

2.2 决策过程（Decision-Making）

智能体的行为包括：

选择行动以最大化自身收益（Payoff）
参与社会沟通（Social Communication）

行动选择（Action Selection）

智能体选择一个能够满足其目标并最大化收益的行动。
例如，在第 1 节的示例中，Becka 是否前往咖啡馆的决策取决于她的目标和对规范的理解。

社会沟通（Social Communication）

智能体观察其他智能体的行为，如果该行为与规范冲突，则通过以下方式进行沟通：
1. 制裁（Sanction）：如在示例 1，Alice 依据健康指南对 Becka 进行了负面制裁。
2. 直接告知（Tell）：如在示例 2，Charlie 直接向 Becka 传递信息。
3. 暗示（Hint）：如在示例 3，David 对 Becka 表现冷淡，暗示他的不满。

奖励塑形（Reward Shaping）

Tell 和 Hint 可以作为行为预测性建议，告诉智能体特定行动可能导致的后果。
奖励塑形的公式如下： r′=r+Fr' = r + Fr′=r+F 其中：
- rrr：原始奖励函数
- FFF：塑形奖励函数
消息（Tell）或暗示（Hint）可以调整奖励函数：
- Φ\PhiΦ：潜在函数（potential function），用于提供关于状态的提示。
- κ\kappaκ：基于知识或信息计算奖励的概率。

3 模拟实验（SIMULATION）

我们通过模拟疫情场景来评估 Nest，在该场景中，智能体的行为会影响疫情的传播。
本研究使用 Mesa [29]（一个基于 Python 的模拟框架）构建实验环境。
本研究的重点不是模拟疫情传播的真实过程，而是研究社会沟通如何影响规范的形成。
模拟环境中的智能体采用强化学习（Reinforcement Learning） 来学习目标与规范行为之间的关系。

3.1 疫情场景（Pandemic Scenario）

在模拟环境中，每个智能体可以在 四个地点 之间移动：

家庭（Home）（每个智能体独有）
公园（Park）
咖啡馆（Cafe）
疫苗接种诊所（Clinic）

智能体的目标

智能体的目标可能包括：

休息（Rest）
远足（Hike）
购物（Shop）
接种疫苗（Be Vaccinated）

智能体可以从以下行动中进行选择：

待在家（stay_home）
去公园（visit_park）
去咖啡馆（visit_cafe）
去诊所（visit_clinic）

智能体的互动方式

每两个智能体在相同地点相遇时，以相等的概率进行互动。
智能体能够理解彼此的社会沟通方式，且所有沟通都是真实且诚实的。

决策过程

在每个时间步，智能体会观察环境并根据以下因素移动：
- 死亡（Death）
- 目标满足程度（Goal Satisfaction）
- 制裁（Sanctions）
- 直接信息传递（Messages）
- 暗示（Hints）
- 规范是否被遵守或违反（Norm Compliance/Violation）
所有智能体完成移动后，它们会评估彼此的行为，并进行相应的社会沟通。
其他在相同地点的智能体可以看到这些沟通，并通过观察学习新的社会规范。

3.2 疾病模型（Disease Model）

本研究采用简化版的 SEIR 模型（易感-暴露-感染-恢复，Susceptible-Exposed-Infected-Recovered） [7,50]，并结合了疫苗的有效性。

疾病传播过程

初始状态：所有智能体初始状态为健康（Healthy）。
感染机制：当一个健康智能体接触到感染者（Infected），它将进入无症状阶段（Asymptomatic）。
症状进展：
- 无症状（Asymptomatic） → 轻症（Mild） → 重症（Critical） → 死亡（Deceased）
- 疫苗可以降低感染风险，并减少病情进展至重症或死亡的概率。
康复方式：在家隔离是主要的康复手段。

概率设定

感染概率：80%（基于 Poletti 等人的研究 [37]）。
疫苗有效性：50%（用于模拟更具传染性的病毒变种，加快模拟过程）。
症状进展概率（见 图 1）：
- 每个感染者都有机会使病情进一步发展，或进入康复状态。

居家隔离 vs. 强制隔离

居家隔离（Isolation）：自愿待在家中，有助于恢复。
强制隔离（Quarantine）：因违反规范而被强制隔离。

制裁机制

对轻症患者的负面制裁概率：50%
对重症但未隔离患者的负面制裁概率：80%

部分可观察性（Partial Observability）

例如，一个健康的智能体如果因意外导致眼睛流泪，可能被误认为是轻症患者（Mild）。
表 1 展示了不同健康状态的观察误差率。

3.3 社会规范（Social Norms）

我们在模拟环境中初始化了一条社会规范：

健康智能体禁止感染智能体停留在公共场所。

规范定义

python

复制编辑

1 norm type = {Prohibition}, # 规范类型：禁止（Prohibition） 2 subject = {Infected_Agent}, # 规范主体：感染智能体 3 object = {Healthy_Agent}, # 规范客体：健康智能体 4 antecedent = {obs_health=[MILD, CRITICAL]}, # 触发条件：观察到轻症或重症 5 consequent = {loc=[PARK, CAFE, CLINIC]} # 违反条件：感染者仍在公共场所

如果前提和后果都成立，则该禁止规范被违反，并对违规者施加制裁（Sanction）。

制裁以负面奖励（negative reward）表示，智能体会因此进入不利状态。
当智能体收到来自他人的规范信息（表明该行为是被禁止的），它会将该制裁视为潜在的惩罚（Potential Reward Φ）。

3.4 规范性信息沟通（Normative Information Communication）

我们将规范性信息形式化为条件表达式，表明当前提满足时，后果将会发生：

python

复制编辑

1 sender = {Observer_Agent}, # 发送者：观察者智能体 2 receiver = {Actor_Agent}, # 接收者：执行行动的智能体 3 info type = {MESSAGE}, # 信息类型：直接信息（Message） 4 antecedent = {obs_health=CRITICAL, loc=CAFE}, # 触发条件：观察到重症患者在咖啡馆 5 consequent = {PUNISHMENT} # 结果：惩罚（Punishment）

3.5 社会类型（Types of Societies）

我们定义了五种社会类型，分别采用不同的社会沟通方式：

社会类型	沟通方式
Baseline 1: Primitive 社会	无社会沟通，智能体仅根据自身目标行事。
Baseline 2: Penalty 社会	违规者将受到负面制裁（如强制隔离）。
Baseline 3: Emote 社会	智能体会通过情绪表达（如愧疚或高兴）来沟通。
Baseline 4: Tell 社会	使用直接信息（Tell）进行规范沟通。
Nest: Hint 社会	使用制裁+暗示（Hint）进行规范沟通。

3.6 评估指标（Metrics）

我们使用以下六个指标评估 Nest：

指标	定义
MHealthy	健康智能体的比例
MInfected	感染智能体的比例
MDeceased	死亡智能体的比例
MInfections	平均感染次数
MVaccinated	接种疫苗的智能体比例
MHome	选择居家隔离的感染者比例
MQuarantine	被强制隔离的感染者数量
MGoal	智能体目标满足程度

3.7 假设（Hypotheses）

本研究验证以下假设：

H₁: 采用暗示（Hint）的社会能更好地控制疫情传播。
H₂: 采用暗示（Hint）的社会能提高智能体的自愿隔离率。
H₃: Nest 社会中的智能体目标满足度更高。

我们使用 独立样本 t 检验 和 Glass’ Δ 进行统计检验，并采用 Cohen’s 规则 解释效应大小。

4 实验结果（EXPERIMENTAL RESULTS）

本节讨论 RQsocial-communication（社会沟通研究问题）的实验结果。
表 4 总结了模拟实验的结果及其统计分析，并报告了各假设在收敛时的指标。

4.1 疾病控制（HDiseasecontrol）

为了评估 HDiseasecontrol，我们测量了以下指标：

健康智能体比例（MHealthy）
感染智能体比例（MInfected）（包括无症状感染者（Asymptomatic）、轻症患者（Mild） 和 重症患者（Critical））
死亡智能体比例（MDeceased）
平均感染次数（MInfections）
疫苗接种率（MVaccinated）

实验初始时，每个社会的感染率为 30%。

实验结果

Nest 社会的感染率最低（0.22），远低于：
- Primitive 社会（13.29）
- Penalty 社会（2.65）
- Emote 社会（3.78）
- Tell 社会（2.96）
- 影响大小：
  - 对 Primitive 社会的影响很大
  - 对 Penalty 和 Tell 社会的影响较小
  - 对 Emote 社会的影响可以忽略
Nest 社会的健康智能体比例最高（97.54），高于：
- Primitive 社会（46.31）
- Penalty 社会（77.60）
- Emote 社会（67.11）
- Tell 社会（76.27）
- 影响大小：较大
Nest 社会的死亡率最低（2.08），远低于：
- Primitive 社会（41.01）
- Penalty 社会（19.75）
- Emote 社会（29.10）
- Tell 社会（20.78）
- 影响大小：较大
Nest 社会的平均感染次数最低（2.07），远低于：
- Primitive 社会（48.31）
- Penalty 社会（13.83）
- Emote 社会（19.09）
- Tell 社会（15.16）
- 影响大小：较大
Nest 社会的疫苗接种率最高（93.57），高于：
- Primitive 社会（82.41）
- Penalty 社会（36.72）
- Emote 社会（32.69）
- Tell 社会（35.33）
- 影响大小：较大

疫苗规范的形成

在 Nest 社会中，疫苗接种率超过 90%，表明在没有自上而下的强制接种要求的情况下，疫苗接种仍然作为一种社会规范自然形成。

4.2 隔离行为（HIsolation）

为了评估 HIsolation，我们测量了以下指标：

MHome：感染智能体自愿待在家的比例
MQuarantine：被强制隔离的感染智能体数量
MInfected：感染智能体的比例

实验结果

Nest 社会的感染者自愿居家隔离的概率最高（0.99），高于：
- Primitive 社会（0.61）
- Penalty 社会（0.96）
- Emote 社会（0.95）
- Tell 社会（0.95）
- 影响大小：对 Primitive 社会的影响较大，对其他社会影响较小
Nest 社会的强制隔离率最低（0.00），低于：
- Penalty 社会（0.03）
- Emote 社会（0.02）
- Tell 社会（0.02）
- 影响大小：较小

自我隔离规范的形成

在 Nest、Penalty、Emote 和 Tell 社会中，超过 90% 的智能体采用了自我隔离行为，表明自愿隔离已成为社会规范。但 Primitive 社会未能形成该规范。

4.3 目标满足度（HGoal）

为了评估 HGoal，我们测量了智能体的目标满足度（MGoal）。

实验结果

Nest 社会的目标满足度最高（0.31），高于：
- Primitive 社会（0.19）
- Penalty 社会（0.26）
- Emote 社会（0.23）
- Tell 社会（0.26）
- 影响大小：对 Emote 社会影响较小，对其他社会影响较大

结论

Nest 社会中的智能体能够更有效地平衡个人目标与社会规范。

5 相关研究（RELATED WORK）

本研究与社会规范及其形成相关的研究密切相关。

现有研究与 Nest 的对比

Andrighetto 等人 [6] 发现：语言沟通（特别是正面规范信息）与负面制裁结合，可以促进更高、更稳定的合作。
Kalia 等人 [23] 发现：情绪（Emotions）影响规范的满足程度。
- Nest 中的 Hint 也可以理解为情绪表达，但它不仅作为一种制裁方式，还提供了社会规范信息。
Bourgais 等人 [9] 设计了一种智能体架构，结合认知、个性、规范和社会关系，用于模拟人类行为。
Argente 等人 [8] 提出了规范-情感智能体架构（Normative Emotional Agent Architecture），结合 BDI（信念-愿望-意图）框架。
Tzeng 等人 [46] 结合了规范模型、BDI 模型和情绪，用于智能体决策。

Nest 的独特贡献

Nest 允许智能体通过多种社会沟通方式学习规范，而不仅仅依赖于制裁。
Nest 通过社会沟通（Sanctions, Tell, Hint）促进规范的形成，并提高智能体的社会适应性。

6 讨论（DISCUSSION）

新冠疫情（COVID-19）期间及其后，大量研究探讨了干预措施（interventions） 对疫情传播的影响。然而，较少有研究关注政策违规（policy violations），尽管它们是疫情扩散的主要推动因素。

在 Nest 框架中建模社会沟通，使得我们能够更真实地模拟个体的决策过程，例如：

服从（Obedience）
违反干预措施（Noncompliance）

本研究提出了一种结合社会沟通模型的方法，用于促进社会规范的形成（norm emergence）。
本研究的创新之处在于，它系统性地整合了三种主要的社会沟通方式：

制裁（Sanctions）
直接告知（Tells）
暗示（Hints）

在 Nest 框架中，Tell 和 Hint 提供的规范性信息能够促进间接社会学习，这种方式更接近现实世界中的人类行为模式。

6.1 研究发现总结（Summary of Findings）

主要结论

通过暗示（Hints）进行沟通的智能体，能够更快地趋同于社会规范（norm convergence），相比之下，仅依赖强制性制裁（Sanctions）或显式的批准/不批准信息（Explicit Communication of Approval/Disapproval） 的智能体，规范收敛速度较慢。
考虑 Hint 的社会，在遵守最终规范方面比不考虑 Hint 的社会更稳健。
在实验中，Nest 和 Emote 社会比其他社会更快达到 90% 规范形成阈值（norm emergence threshold），且它们对已形成规范的遵守率也高于 Primitive、Penalty 和 Tell 社会。
Emote 社会在所有指标上未必优于 Penalty 和 Tell，但当 Emote 被增强为 Nest 后，整体表现显著提升。

在疫情模拟环境下，Nest 的具体优势

Nest 社会比其他社会更能控制疫情传播。
Nest 和 Emote 社会中的智能体更快学习到“自我隔离规范（self-isolation norm）”，并在感染后更愿意主动隔离。
Nest 社会中的智能体目标满足度（goal satisfaction）高于其他社会。

最终影响

Nest 智能体能够更有效地规避感染风险。
Nest 智能体的整体满意度（satisfaction）高于基线智能体（baseline agents）。

6.2 研究局限性与有效性威胁（Limitations and Threats to Validity）

我们识别了 三个潜在的有效性威胁，并采取相应措施进行缓解。

1. 人类观察能力有限，可能会欺骗或隐瞒信息

现实世界中，人类可能会隐瞒自身状况或误导他人。
缓解措施：
- 在模拟实验中，我们做出简化假设，即所有智能体都能准确推断他人的社会沟通方式，且所有沟通都是诚实的。

2. 模拟实验基于预设的收益（payoffs）和概率（probabilities）

获取精准的疾病传播概率需要大量时间和精力。
缓解措施：
- 我们采用已有文献中的数据，确保模拟实验的合理性。

3. 社会沟通中的制裁强度与概率可能有所变化

不同社会沟通方式（Sanctions, Tells, Hints） 在现实中可能具有不同的影响力。
缓解措施：
- 我们在实验中设置了多种社会沟通模式，以评估不同沟通方式的效果，确保研究结果的广泛适用性。

6.3 未来研究方向（Future Directions）

随着 AI（人工智能） 深入融入日常生活，如何将人类伦理（human ethics）融入 AI 变得尤为关键 [11, 26, 43, 49]。
由于人类的行为受价值观（values）驱动，研究人类价值观有助于：

更深入地理解人类决策过程
设计能够基于人类价值观进行推理的智能体 [5, 25, 34]

1. 将价值观嵌入自主智能体（Embedding Values into Autonomous Agents）

Montes 和 Sierra [31] 研究了基于价值观推广（value promotion）的规范合成（norm synthesis），但未来可以探索：

如何开发能够基于价值观做出决策的智能体？

2. 研究情绪与生理反应对智能体行为的影响

未来研究可以探讨情绪强度（Emotion Strength）和生理唤醒（Physical Arousal） 如何影响智能体的决策过程 [13]。

3. 在 Nest 框架中引入不同类型的个性（Personality Types）

未来可以研究不同个性类型（Personality Types） 如何影响 Nest 智能体之间的交互 [47]。

4. 研究不同价值观如何影响人类交互，以支持高异质性社会（High-Heterogeneity Societies）

在未来研究中，我们可以分析不同价值观如何影响人际互动，并探讨如何支持高度异质化（high heterogeneity）的社会。