Bootstrap

Agent论文阅读:NormEnforcement with a Soft Touch: Faster Emergence, Happier Agents

摘要(ABSTRACT)

在多智能体系统(multiagent system, MAS)中,智能体之间的交互可通过社会规范(social norms)进行调节。通常,社会规范并非预设的规则(hardcoded rules),而是从智能体的交互自发形成(emerge)。具体而言,社会中的智能体如何对彼此的行为作出反应,并如何回应他人的反馈,将决定哪些规范最终在社会中形成

社会规范定义了群体可接受的集体行为,并约束智能体的行为。规范的形成可能是自上而下(top-down)的(如法律规范 [42]),也可能是自下而上(bottom-up)的(如智能体通过互相学习可接受的行为来形成规范 [40])。本研究关注的是在允许顶层规范存在的情况下,如何自下而上地促进规范的形成。当社会中绝大多数智能体在相似环境下选择相同行为时,该行为即可被视为规范的形成 [33, 40]。

智能体对其他智能体的行为作出反应,可能表现为对满意或不满意行为的社交沟通(social communication)。理解这些沟通方式是一种社会智能(social intelligence):这些沟通方式能推动智能体朝某些行为方向发展,进而使这些行为成为社会规范。尽管已有研究表明制裁(sanctioning)有助于规范的形成,我们认为更广义的社会智能可能在促进多智能体系统中的**合作(cooperation)**方面更为有效。

为此,我们提出 Nest 框架,该框架通过比以往研究更丰富的社交沟通方式建模社会智能,并增强对这些沟通方式的理解。为了评估 Nest,我们在模拟疫情环境中进行实验,并与基线模型进行对比。实验中,我们结合了三种社会沟通方式

  1. 制裁(Sanction)
  2. 直接告知(Tell)
  3. 暗示(Hint)

实验结果表明:

  • 由 Nest 代理组成的社会能够更快形成规范
  • Nest 代理能够有效避免负面影响(如被制裁或目标偏离),并获得更高的个体满意度
  • 尽管 Nest 代理所需的信息量与基线代理相当,但它们的社会合作效果更好

这些结果表明,通过更广泛的社会智能沟通方式,可以比单纯依赖制裁更高效地促进规范形成,并提高智能体的社会适应性

翻译

为了回答 RQsocial-communication(关于社会沟通的研究问题),我们定义了**规范性信息(normative information)**的两种表达方式:

  1. 显式规范性信息(explicit normative message) [6]
  2. 隐式暗示(implicit hint) 作为信息传递方式

研究贡献(Contributions)

我们提出 Nest(Norm Enforcement with a Soft Touch,即“柔性规范执行”),这是一个既能容纳自上而下(top-down)强制规范,也能促进规范自下而上(bottom-up)形成的框架。Nest 结合了三种社会沟通方式传递的规范性信息,这些信息能够促进社会学习(social learning)

我们通过模拟疫情场景对 Nest 进行了实验评估,并考察了三种不同的社会沟通类型

  • 制裁(Sanction)
  • 直接告知(Tell)或直接信息传递(Direct Messaging)
  • 暗示(Hint)

实验结果表明

  • 引入 暗示(hint)直接告知(tell) 的规范性信息能够加速社会规范的形成(norm emergence)
  • 这种方式有效避免了负面后果,如受到制裁(sanction)或目标偏离(deviation from goals)
  • 在整个社会中,智能体的总体满意度更高
  • 尤其是在低疫苗接种率的社会中,智能体逐渐学会自我隔离是一种值得称赞的行为,并发现短期妥协可以避免长期严重处罚

论文结构(Organization)

  • 第 2 节 介绍 Nest 的核心概念,并描述智能体的决策过程。
  • 第 3 节 详细描述用于评估 Nest 的疫情模拟实验
  • 第 4 节 展示实验结果。
  • 第 5 节 讨论相关研究工作。
  • 第 6 节 总结研究发现,并讨论本研究的局限性、有效性威胁(threats to validity)及未来研究方向

2 NEST

Nest 智能体在选择行动时,会综合考虑自身目标、环境规范以及社会沟通方式 [3, 28, 40, 44]。

Nest 智能体能够从观察中学习。例如:

  • 示例 2 中,当 Becka 收到 Charlie 的信息后,她学会了如果不进行自我隔离,可能会被举报给当地政府
  • 示例 3 中,Becka 可能误解了 David 的冷漠,错误地认为他是在针对自己。

决策过程中,Nest 智能体会激活与自身相关的规范 [8],然后使用规范推理(normative reasoning) 机制评估遵守或违反规范的可能后果。当智能体执行某个行动后,会检查该行动是否符合或违反了规范。如果规范被遵守或违反,则会触发相应的社会沟通(social communication)


2.1 关键概念(Key Concepts)

以下是 Nest 体系中的核心概念:

目标(Goal)

  • 目标是智能体希望实现的世界状态
  • 目标的最终结果是二元的(已达成 / 未达成)。

规范(Norm)

  • 规范描述了**一个智能体(主体)另一个智能体(客体)**之间的约束关系。
  • 规范可能要求智能体付出努力来遵守,或者限制其自由
  • 本研究考虑两种规范类型
    1. 承诺(Commitment):如果规范的后果成立(consequent holds),则承诺规范被满足,否则被违反。
    2. 禁止(Prohibition):如果规范的后果成立,则禁止规范被违反;如果后果从未成立,则禁止规范被满足 [10]。
  • 规范包含两个组成部分:
    • 前提(Antecedent):触发该规范的条件。
    • 后果(Consequent):满足或违反规范的条件。

制裁(Sanction)

  • 制裁是一个智能体对另一个智能体的正面、负面或中性反应,通常是对规范遵守或违反的回应。
  • 现实世界中的制裁可能是微妙的,例如情绪表达 [35]。

直接告知(Tell)

  • Tell(直接信息传递) 明确描述行为的因果关系,包括:
    • 该行为是否符合规范
    • 可能带来的奖励或惩罚
  • 例如,在示例 2 中,Charlie 告诉 Becka 违反规范的后果。

暗示(Hint)

  • Hint(暗示)间接的线索,用于引导另一个智能体的行为
  • 暗示需要接收者自行推理其真正含义
  • Nest 框架中,暗示被建模为规范遵守或违反时触发的微妙社会沟通方式

奖励塑形(Reward Shaping)

  • 奖励塑形 指的是额外的奖励(除了环境提供的奖励之外)[27],用于:
    • 鼓励智能体朝向某个目标行动
    • 促进智能体在特定状态下选择某些行动
  • 在本研究中,我们将Tell 和 Hint 视为对软性制裁(soft sanctions)的建议,即:
    • Tell 和 Hint 可被推断为正面或负面的奖励,用于鼓励或阻止某些行为

2.2 决策过程(Decision-Making)

智能体的行为包括:

  1. 选择行动以最大化自身收益(Payoff)
  2. 参与社会沟通(Social Communication)

行动选择(Action Selection)

  • 智能体选择一个能够满足其目标并最大化收益的行动
  • 例如,在第 1 节的示例中,Becka 是否前往咖啡馆的决策取决于她的目标和对规范的理解

社会沟通(Social Communication)

  • 智能体观察其他智能体的行为,如果该行为与规范冲突,则通过以下方式进行沟通
    1. 制裁(Sanction):如在示例 1,Alice 依据健康指南对 Becka 进行了负面制裁
    2. 直接告知(Tell):如在示例 2,Charlie 直接向 Becka 传递信息。
    3. 暗示(Hint):如在示例 3,David 对 Becka 表现冷淡,暗示他的不满。

奖励塑形(Reward Shaping)

  • Tell 和 Hint 可以作为行为预测性建议,告诉智能体特定行动可能导致的后果
  • 奖励塑形的公式如下: r′=r+Fr' = r + Fr′=r+F 其中:
    • rrr:原始奖励函数
    • FFF:塑形奖励函数
  • 消息(Tell)或暗示(Hint)可以调整奖励函数
    • Φ\PhiΦ:潜在函数(potential function),用于提供关于状态的提示。
    • κ\kappaκ:基于知识或信息计算奖励的概率。

3 模拟实验(SIMULATION)

我们通过模拟疫情场景来评估 Nest,在该场景中,智能体的行为会影响疫情的传播
本研究使用 Mesa [29](一个基于 Python 的模拟框架)构建实验环境。
本研究的重点不是模拟疫情传播的真实过程,而是研究社会沟通如何影响规范的形成
模拟环境中的智能体采用强化学习(Reinforcement Learning) 来学习目标与规范行为之间的关系

3.1 疫情场景(Pandemic Scenario)

在模拟环境中,每个智能体可以在 四个地点 之间移动:

  1. 家庭(Home)(每个智能体独有)
  2. 公园(Park)
  3. 咖啡馆(Cafe)
  4. 疫苗接种诊所(Clinic)

智能体的目标

智能体的目标可能包括:

  • 休息(Rest)
  • 远足(Hike)
  • 购物(Shop)
  • 接种疫苗(Be Vaccinated)

智能体可以从以下行动中进行选择:

  • 待在家(stay_home)
  • 去公园(visit_park)
  • 去咖啡馆(visit_cafe)
  • 去诊所(visit_clinic)

智能体的互动方式

  • 每两个智能体在相同地点相遇时,以相等的概率进行互动
  • 智能体能够理解彼此的社会沟通方式,且所有沟通都是真实且诚实的

决策过程

  • 在每个时间步,智能体会观察环境并根据以下因素移动
    • 死亡(Death)
    • 目标满足程度(Goal Satisfaction)
    • 制裁(Sanctions)
    • 直接信息传递(Messages)
    • 暗示(Hints)
    • 规范是否被遵守或违反(Norm Compliance/Violation)
  • 所有智能体完成移动后,它们会评估彼此的行为,并进行相应的社会沟通
  • 其他在相同地点的智能体可以看到这些沟通,并通过观察学习新的社会规范。

3.2 疾病模型(Disease Model)

本研究采用简化版的 SEIR 模型(易感-暴露-感染-恢复,Susceptible-Exposed-Infected-Recovered) [7,50],并结合了疫苗的有效性

疾病传播过程

  1. 初始状态:所有智能体初始状态为健康(Healthy)
  2. 感染机制:当一个健康智能体接触到感染者(Infected),它将进入无症状阶段(Asymptomatic)
  3. 症状进展
    • 无症状(Asymptomatic)轻症(Mild)重症(Critical)死亡(Deceased)
    • 疫苗可以降低感染风险,并减少病情进展至重症或死亡的概率
  4. 康复方式:在家隔离是主要的康复手段。

概率设定

  • 感染概率:80%(基于 Poletti 等人的研究 [37])。
  • 疫苗有效性:50%(用于模拟更具传染性的病毒变种,加快模拟过程)。
  • 症状进展概率(见 图 1):
    • 每个感染者都有机会使病情进一步发展,或进入康复状态

居家隔离 vs. 强制隔离

  • 居家隔离(Isolation)自愿待在家中,有助于恢复。
  • 强制隔离(Quarantine)因违反规范而被强制隔离

制裁机制

  • 对轻症患者的负面制裁概率:50%
  • 对重症但未隔离患者的负面制裁概率:80%

部分可观察性(Partial Observability)

  • 例如,一个健康的智能体如果因意外导致眼睛流泪,可能被误认为是轻症患者(Mild)。
  • 表 1 展示了不同健康状态的观察误差率。

3.3 社会规范(Social Norms)

我们在模拟环境中初始化了一条社会规范:

健康智能体禁止感染智能体停留在公共场所。

规范定义

 

python

复制编辑

1 norm type = {Prohibition}, # 规范类型:禁止(Prohibition) 2 subject = {Infected_Agent}, # 规范主体:感染智能体 3 object = {Healthy_Agent}, # 规范客体:健康智能体 4 antecedent = {obs_health=[MILD, CRITICAL]}, # 触发条件:观察到轻症或重症 5 consequent = {loc=[PARK, CAFE, CLINIC]} # 违反条件:感染者仍在公共场所

如果前提和后果都成立,则该禁止规范被违反,并对违规者施加制裁(Sanction)

  • 制裁以负面奖励(negative reward)表示,智能体会因此进入不利状态
  • 当智能体收到来自他人的规范信息(表明该行为是被禁止的),它会将该制裁视为潜在的惩罚(Potential Reward Φ)

3.4 规范性信息沟通(Normative Information Communication)

我们将规范性信息形式化为条件表达式,表明当前提满足时,后果将会发生

 

python

复制编辑

1 sender = {Observer_Agent}, # 发送者:观察者智能体 2 receiver = {Actor_Agent}, # 接收者:执行行动的智能体 3 info type = {MESSAGE}, # 信息类型:直接信息(Message) 4 antecedent = {obs_health=CRITICAL, loc=CAFE}, # 触发条件:观察到重症患者在咖啡馆 5 consequent = {PUNISHMENT} # 结果:惩罚(Punishment)


3.5 社会类型(Types of Societies)

我们定义了五种社会类型,分别采用不同的社会沟通方式:

社会类型沟通方式
Baseline 1: Primitive 社会无社会沟通,智能体仅根据自身目标行事。
Baseline 2: Penalty 社会违规者将受到负面制裁(如强制隔离)。
Baseline 3: Emote 社会智能体会通过情绪表达(如愧疚或高兴)来沟通。
Baseline 4: Tell 社会使用直接信息(Tell)进行规范沟通
Nest: Hint 社会使用制裁+暗示(Hint) 进行规范沟通。

3.6 评估指标(Metrics)

我们使用以下六个指标评估 Nest:

指标定义
MHealthy健康智能体的比例
MInfected感染智能体的比例
MDeceased死亡智能体的比例
MInfections平均感染次数
MVaccinated接种疫苗的智能体比例
MHome选择居家隔离的感染者比例
MQuarantine被强制隔离的感染者数量
MGoal智能体目标满足程度

3.7 假设(Hypotheses)

本研究验证以下假设:

  1. H₁: 采用暗示(Hint)的社会能更好地控制疫情传播。
  2. H₂: 采用暗示(Hint)的社会能提高智能体的自愿隔离率。
  3. H₃: Nest 社会中的智能体目标满足度更高。

我们使用 独立样本 t 检验Glass’ Δ 进行统计检验,并采用 Cohen’s 规则 解释效应大小。

4 实验结果(EXPERIMENTAL RESULTS)

本节讨论 RQsocial-communication(社会沟通研究问题)的实验结果。
表 4 总结了模拟实验的结果及其统计分析,并报告了各假设在收敛时的指标


4.1 疾病控制(HDiseasecontrol)

为了评估 HDiseasecontrol,我们测量了以下指标:

  • 健康智能体比例(MHealthy)
  • 感染智能体比例(MInfected)(包括无症状感染者(Asymptomatic)轻症患者(Mild)重症患者(Critical)
  • 死亡智能体比例(MDeceased)
  • 平均感染次数(MInfections)
  • 疫苗接种率(MVaccinated)

实验初始时,每个社会的感染率为 30%

实验结果

  1. Nest 社会的感染率最低(0.22),远低于:

    • Primitive 社会(13.29)
    • Penalty 社会(2.65)
    • Emote 社会(3.78)
    • Tell 社会(2.96)
    • 影响大小
      • 对 Primitive 社会的影响很大
      • 对 Penalty 和 Tell 社会的影响较小
      • 对 Emote 社会的影响可以忽略
  2. Nest 社会的健康智能体比例最高(97.54),高于:

    • Primitive 社会(46.31)
    • Penalty 社会(77.60)
    • Emote 社会(67.11)
    • Tell 社会(76.27)
    • 影响大小:较大
  3. Nest 社会的死亡率最低(2.08),远低于:

    • Primitive 社会(41.01)
    • Penalty 社会(19.75)
    • Emote 社会(29.10)
    • Tell 社会(20.78)
    • 影响大小:较大
  4. Nest 社会的平均感染次数最低(2.07),远低于:

    • Primitive 社会(48.31)
    • Penalty 社会(13.83)
    • Emote 社会(19.09)
    • Tell 社会(15.16)
    • 影响大小:较大
  5. Nest 社会的疫苗接种率最高(93.57),高于:

    • Primitive 社会(82.41)
    • Penalty 社会(36.72)
    • Emote 社会(32.69)
    • Tell 社会(35.33)
    • 影响大小:较大

疫苗规范的形成

  • Nest 社会中,疫苗接种率超过 90%,表明在没有自上而下的强制接种要求的情况下,疫苗接种仍然作为一种社会规范自然形成

4.2 隔离行为(HIsolation)

为了评估 HIsolation,我们测量了以下指标:

  • MHome:感染智能体自愿待在家的比例
  • MQuarantine:被强制隔离的感染智能体数量
  • MInfected:感染智能体的比例

实验结果

  1. Nest 社会的感染者自愿居家隔离的概率最高(0.99),高于:

    • Primitive 社会(0.61)
    • Penalty 社会(0.96)
    • Emote 社会(0.95)
    • Tell 社会(0.95)
    • 影响大小:对 Primitive 社会的影响较大,对其他社会影响较小
  2. Nest 社会的强制隔离率最低(0.00),低于:

    • Penalty 社会(0.03)
    • Emote 社会(0.02)
    • Tell 社会(0.02)
    • 影响大小:较小

自我隔离规范的形成

Nest、Penalty、Emote 和 Tell 社会中,超过 90% 的智能体采用了自我隔离行为,表明自愿隔离已成为社会规范。但 Primitive 社会未能形成该规范


4.3 目标满足度(HGoal)

为了评估 HGoal,我们测量了智能体的目标满足度(MGoal)

实验结果

  1. Nest 社会的目标满足度最高(0.31),高于:
    • Primitive 社会(0.19)
    • Penalty 社会(0.26)
    • Emote 社会(0.23)
    • Tell 社会(0.26)
    • 影响大小:对 Emote 社会影响较小,对其他社会影响较大

结论

  • Nest 社会中的智能体能够更有效地平衡个人目标与社会规范

5 相关研究(RELATED WORK)

本研究与社会规范及其形成相关的研究密切相关。

现有研究与 Nest 的对比

  • Andrighetto 等人 [6] 发现:语言沟通(特别是正面规范信息)与负面制裁结合,可以促进更高、更稳定的合作
  • Kalia 等人 [23] 发现:情绪(Emotions)影响规范的满足程度
    • Nest 中的 Hint 也可以理解为情绪表达,但它不仅作为一种制裁方式,还提供了社会规范信息
  • Bourgais 等人 [9] 设计了一种智能体架构,结合认知、个性、规范和社会关系,用于模拟人类行为。
  • Argente 等人 [8] 提出了规范-情感智能体架构(Normative Emotional Agent Architecture),结合 BDI(信念-愿望-意图)框架。
  • Tzeng 等人 [46] 结合了规范模型、BDI 模型和情绪,用于智能体决策。

Nest 的独特贡献

  • Nest 允许智能体通过多种社会沟通方式学习规范,而不仅仅依赖于制裁
  • Nest 通过社会沟通(Sanctions, Tell, Hint)促进规范的形成,并提高智能体的社会适应性

6 讨论(DISCUSSION)

新冠疫情(COVID-19)期间及其后,大量研究探讨了干预措施(interventions) 对疫情传播的影响。然而,较少有研究关注政策违规(policy violations),尽管它们是疫情扩散的主要推动因素

Nest 框架中建模社会沟通,使得我们能够更真实地模拟个体的决策过程,例如:

  • 服从(Obedience)
  • 违反干预措施(Noncompliance)

本研究提出了一种结合社会沟通模型的方法,用于促进社会规范的形成(norm emergence)
本研究的创新之处在于,它系统性地整合了三种主要的社会沟通方式

  1. 制裁(Sanctions)
  2. 直接告知(Tells)
  3. 暗示(Hints)

Nest 框架中,Tell 和 Hint 提供的规范性信息能够促进间接社会学习,这种方式更接近现实世界中的人类行为模式。


6.1 研究发现总结(Summary of Findings)

主要结论

  • 通过暗示(Hints)进行沟通的智能体,能够更快地趋同于社会规范(norm convergence),相比之下,仅依赖强制性制裁(Sanctions)或显式的批准/不批准信息(Explicit Communication of Approval/Disapproval) 的智能体,规范收敛速度较慢。
  • 考虑 Hint 的社会,在遵守最终规范方面比不考虑 Hint 的社会更稳健
  • 在实验中,Nest 和 Emote 社会比其他社会更快达到 90% 规范形成阈值(norm emergence threshold),且它们对已形成规范的遵守率也高于 Primitive、Penalty 和 Tell 社会
  • Emote 社会在所有指标上未必优于 Penalty 和 Tell,但当 Emote 被增强为 Nest 后,整体表现显著提升

在疫情模拟环境下,Nest 的具体优势

  1. Nest 社会比其他社会更能控制疫情传播
  2. Nest 和 Emote 社会中的智能体更快学习到“自我隔离规范(self-isolation norm)”,并在感染后更愿意主动隔离
  3. Nest 社会中的智能体目标满足度(goal satisfaction)高于其他社会

最终影响

  • Nest 智能体能够更有效地规避感染风险
  • Nest 智能体的整体满意度(satisfaction)高于基线智能体(baseline agents)

6.2 研究局限性与有效性威胁(Limitations and Threats to Validity)

我们识别了 三个潜在的有效性威胁,并采取相应措施进行缓解。

1. 人类观察能力有限,可能会欺骗或隐瞒信息

  • 现实世界中,人类可能会隐瞒自身状况误导他人
  • 缓解措施
    • 在模拟实验中,我们做出简化假设,即所有智能体都能准确推断他人的社会沟通方式,且所有沟通都是诚实的

2. 模拟实验基于预设的收益(payoffs)和概率(probabilities)

  • 获取精准的疾病传播概率需要大量时间和精力。
  • 缓解措施
    • 我们采用已有文献中的数据,确保模拟实验的合理性。

3. 社会沟通中的制裁强度与概率可能有所变化

  • 不同社会沟通方式(Sanctions, Tells, Hints) 在现实中可能具有不同的影响力。
  • 缓解措施
    • 我们在实验中设置了多种社会沟通模式,以评估不同沟通方式的效果,确保研究结果的广泛适用性。

6.3 未来研究方向(Future Directions)

随着 AI(人工智能) 深入融入日常生活,如何将人类伦理(human ethics)融入 AI 变得尤为关键 [11, 26, 43, 49]。
由于人类的行为受价值观(values)驱动,研究人类价值观有助于:

  • 更深入地理解人类决策过程
  • 设计能够基于人类价值观进行推理的智能体 [5, 25, 34]

1. 将价值观嵌入自主智能体(Embedding Values into Autonomous Agents)

  • Montes 和 Sierra [31] 研究了基于价值观推广(value promotion)的规范合成(norm synthesis),但未来可以探索:

    如何开发能够基于价值观做出决策的智能体?

2. 研究情绪与生理反应对智能体行为的影响

  • 未来研究可以探讨情绪强度(Emotion Strength)和生理唤醒(Physical Arousal) 如何影响智能体的决策过程 [13]。

3. 在 Nest 框架中引入不同类型的个性(Personality Types)

  • 未来可以研究不同个性类型(Personality Types) 如何影响 Nest 智能体之间的交互 [47]。

4. 研究不同价值观如何影响人类交互,以支持高异质性社会(High-Heterogeneity Societies)

  • 在未来研究中,我们可以分析不同价值观如何影响人际互动,并探讨如何支持高度异质化(high heterogeneity)的社会
;