摘要(ABSTRACT)
在多智能体系统(multiagent system, MAS)中,智能体之间的交互可通过社会规范(social norms)进行调节。通常,社会规范并非预设的规则(hardcoded rules),而是从智能体的交互中自发形成(emerge)。具体而言,社会中的智能体如何对彼此的行为作出反应,并如何回应他人的反馈,将决定哪些规范最终在社会中形成。
社会规范定义了群体可接受的集体行为,并约束智能体的行为。规范的形成可能是自上而下(top-down)的(如法律规范 [42]),也可能是自下而上(bottom-up)的(如智能体通过互相学习可接受的行为来形成规范 [40])。本研究关注的是在允许顶层规范存在的情况下,如何自下而上地促进规范的形成。当社会中绝大多数智能体在相似环境下选择相同行为时,该行为即可被视为规范的形成 [33, 40]。
智能体对其他智能体的行为作出反应,可能表现为对满意或不满意行为的社交沟通(social communication)。理解这些沟通方式是一种社会智能(social intelligence):这些沟通方式能推动智能体朝某些行为方向发展,进而使这些行为成为社会规范。尽管已有研究表明制裁(sanctioning)有助于规范的形成,我们认为更广义的社会智能可能在促进多智能体系统中的**合作(cooperation)**方面更为有效。
为此,我们提出 Nest 框架,该框架通过比以往研究更丰富的社交沟通方式建模社会智能,并增强对这些沟通方式的理解。为了评估 Nest,我们在模拟疫情环境中进行实验,并与基线模型进行对比。实验中,我们结合了三种社会沟通方式:
- 制裁(Sanction)
- 直接告知(Tell)
- 暗示(Hint)
实验结果表明:
- 由 Nest 代理组成的社会能够更快形成规范。
- Nest 代理能够有效避免负面影响(如被制裁或目标偏离),并获得更高的个体满意度。
- 尽管 Nest 代理所需的信息量与基线代理相当,但它们的社会合作效果更好。
这些结果表明,通过更广泛的社会智能沟通方式,可以比单纯依赖制裁更高效地促进规范形成,并提高智能体的社会适应性。
翻译
为了回答 RQsocial-communication(关于社会沟通的研究问题),我们定义了**规范性信息(normative information)**的两种表达方式:
- 显式规范性信息(explicit normative message) [6]
- 隐式暗示(implicit hint) 作为信息传递方式
研究贡献(Contributions)
我们提出 Nest(Norm Enforcement with a Soft Touch,即“柔性规范执行”),这是一个既能容纳自上而下(top-down)强制规范,也能促进规范自下而上(bottom-up)形成的框架。Nest 结合了三种社会沟通方式传递的规范性信息,这些信息能够促进社会学习(social learning)。
我们通过模拟疫情场景对 Nest 进行了实验评估,并考察了三种不同的社会沟通类型:
- 制裁(Sanction)
- 直接告知(Tell)或直接信息传递(Direct Messaging)
- 暗示(Hint)
实验结果表明:
- 引入 暗示(hint) 和 直接告知(tell) 的规范性信息能够加速社会规范的形成(norm emergence)。
- 这种方式有效避免了负面后果,如受到制裁(sanction)或目标偏离(deviation from goals)。
- 在整个社会中,智能体的总体满意度更高。
- 尤其是在低疫苗接种率的社会中,智能体逐渐学会自我隔离是一种值得称赞的行为,并发现短期妥协可以避免长期严重处罚。
论文结构(Organization)
- 第 2 节 介绍 Nest 的核心概念,并描述智能体的决策过程。
- 第 3 节 详细描述用于评估 Nest 的疫情模拟实验。
- 第 4 节 展示实验结果。
- 第 5 节 讨论相关研究工作。
- 第 6 节 总结研究发现,并讨论本研究的局限性、有效性威胁(threats to validity)及未来研究方向。
2 NEST
Nest 智能体在选择行动时,会综合考虑自身目标、环境规范以及社会沟通方式 [3, 28, 40, 44]。
Nest 智能体能够从观察中学习。例如:
- 在示例 2 中,当 Becka 收到 Charlie 的信息后,她学会了如果不进行自我隔离,可能会被举报给当地政府。
- 在示例 3 中,Becka 可能误解了 David 的冷漠,错误地认为他是在针对自己。
在决策过程中,Nest 智能体会激活与自身相关的规范 [8],然后使用规范推理(normative reasoning) 机制评估遵守或违反规范的可能后果。当智能体执行某个行动后,会检查该行动是否符合或违反了规范。如果规范被遵守或违反,则会触发相应的社会沟通(social communication)。
2.1 关键概念(Key Concepts)
以下是 Nest 体系中的核心概念:
目标(Goal)
- 目标是智能体希望实现的世界状态。
- 目标的最终结果是二元的(已达成 / 未达成)。
规范(Norm)
- 规范描述了**一个智能体(主体)与另一个智能体(客体)**之间的约束关系。
- 规范可能要求智能体付出努力来遵守,或者限制其自由。
- 本研究考虑两种规范类型:
- 承诺(Commitment):如果规范的后果成立(consequent holds),则承诺规范被满足,否则被违反。
- 禁止(Prohibition):如果规范的后果成立,则禁止规范被违反;如果后果从未成立,则禁止规范被满足 [10]。
- 规范包含两个组成部分:
- 前提(Antecedent):触发该规范的条件。
- 后果(Consequent):满足或违反规范的条件。
制裁(Sanction)
- 制裁是一个智能体对另一个智能体的正面、负面或中性反应,通常是对规范遵守或违反的回应。
- 现实世界中的制裁可能是微妙的,例如情绪表达 [35]。
直接告知(Tell)
- Tell(直接信息传递) 明确描述行为的因果关系,包括:
- 该行为是否符合规范
- 可能带来的奖励或惩罚
- 例如,在示例 2 中,Charlie 告诉 Becka 违反规范的后果。
暗示(Hint)
- Hint(暗示) 是间接的线索,用于引导另一个智能体的行为。
- 暗示需要接收者自行推理其真正含义。
- 在 Nest 框架中,暗示被建模为规范遵守或违反时触发的微妙社会沟通方式。
奖励塑形(Reward Shaping)
- 奖励塑形 指的是额外的奖励(除了环境提供的奖励之外)[27],用于:
- 鼓励智能体朝向某个目标行动
- 促进智能体在特定状态下选择某些行动
- 在本研究中,我们将Tell 和 Hint 视为对软性制裁(soft sanctions)的建议,即:
- Tell 和 Hint 可被推断为正面或负面的奖励,用于鼓励或阻止某些行为。
2.2 决策过程(Decision-Making)
智能体的行为包括:
- 选择行动以最大化自身收益(Payoff)
- 参与社会沟通(Social Communication)
行动选择(Action Selection)
- 智能体选择一个能够满足其目标并最大化收益的行动。
- 例如,在第 1 节的示例中,Becka 是否前往咖啡馆的决策取决于她的目标和对规范的理解。
社会沟通(Social Communication)
- 智能体观察其他智能体的行为,如果该行为与规范冲突,则通过以下方式进行沟通:
- 制裁(Sanction):如在示例 1,Alice 依据健康指南对 Becka 进行了负面制裁。
- 直接告知(Tell):如在示例 2,Charlie 直接向 Becka 传递信息。
- 暗示(Hint):如在示例 3,David 对 Becka 表现冷淡,暗示他的不满。
奖励塑形(Reward Shaping)
- Tell 和 Hint 可以作为行为预测性建议,告诉智能体特定行动可能导致的后果。
- 奖励塑形的公式如下: r′=r+Fr' = r + Fr′=r+F 其中:
- rrr:原始奖励函数
- FFF:塑形奖励函数
- 消息(Tell)或暗示(Hint)可以调整奖励函数:
- Φ\PhiΦ:潜在函数(potential function),用于提供关于状态的提示。
- κ\kappaκ:基于知识或信息计算奖励的概率。
3 模拟实验(SIMULATION)
我们通过模拟疫情场景来评估 Nest,在该场景中,智能体的行为会影响疫情的传播。
本研究使用 Mesa [29](一个基于 Python 的模拟框架)构建实验环境。
本研究的重点不是模拟疫情传播的真实过程,而是研究社会沟通如何影响规范的形成。
模拟环境中的智能体采用强化学习(Reinforcement Learning) 来学习目标与规范行为之间的关系。
3.1 疫情场景(Pandemic Scenario)
在模拟环境中,每个智能体可以在 四个地点 之间移动:
- 家庭(Home)(每个智能体独有)
- 公园(Park)
- 咖啡馆(Cafe)
- 疫苗接种诊所(Clinic)
智能体的目标
智能体的目标可能包括:
- 休息(Rest)
- 远足(Hike)
- 购物(Shop)
- 接种疫苗(Be Vaccinated)
智能体可以从以下行动中进行选择:
- 待在家(stay_home)
- 去公园(visit_park)
- 去咖啡馆(visit_cafe)
- 去诊所(visit_clinic)
智能体的互动方式
- 每两个智能体在相同地点相遇时,以相等的概率进行互动。
- 智能体能够理解彼此的社会沟通方式,且所有沟通都是真实且诚实的。
决策过程
- 在每个时间步,智能体会观察环境并根据以下因素移动:
- 死亡(Death)
- 目标满足程度(Goal Satisfaction)
- 制裁(Sanctions)
- 直接信息传递(Messages)
- 暗示(Hints)
- 规范是否被遵守或违反(Norm Compliance/Violation)
- 所有智能体完成移动后,它们会评估彼此的行为,并进行相应的社会沟通。
- 其他在相同地点的智能体可以看到这些沟通,并通过观察学习新的社会规范。
3.2 疾病模型(Disease Model)
本研究采用简化版的 SEIR 模型(易感-暴露-感染-恢复,Susceptible-Exposed-Infected-Recovered) [7,50],并结合了疫苗的有效性。
疾病传播过程
- 初始状态:所有智能体初始状态为健康(Healthy)。
- 感染机制:当一个健康智能体接触到感染者(Infected),它将进入无症状阶段(Asymptomatic)。
- 症状进展:
- 无症状(Asymptomatic) → 轻症(Mild) → 重症(Critical) → 死亡(Deceased)
- 疫苗可以降低感染风险,并减少病情进展至重症或死亡的概率。
- 康复方式:在家隔离是主要的康复手段。
概率设定
- 感染概率:80%(基于 Poletti 等人的研究 [37])。
- 疫苗有效性:50%(用于模拟更具传染性的病毒变种,加快模拟过程)。
- 症状进展概率(见 图 1):
- 每个感染者都有机会使病情进一步发展,或进入康复状态。
居家隔离 vs. 强制隔离
- 居家隔离(Isolation):自愿待在家中,有助于恢复。
- 强制隔离(Quarantine):因违反规范而被强制隔离。
制裁机制
- 对轻症患者的负面制裁概率:50%
- 对重症但未隔离患者的负面制裁概率:80%
部分可观察性(Partial Observability)
- 例如,一个健康的智能体如果因意外导致眼睛流泪,可能被误认为是轻症患者(Mild)。
- 表 1 展示了不同健康状态的观察误差率。
3.3 社会规范(Social Norms)
我们在模拟环境中初始化了一条社会规范:
健康智能体禁止感染智能体停留在公共场所。
规范定义
python
复制编辑
1 norm type = {Prohibition}, # 规范类型:禁止(Prohibition) 2 subject = {Infected_Agent}, # 规范主体:感染智能体 3 object = {Healthy_Agent}, # 规范客体:健康智能体 4 antecedent = {obs_health=[MILD, CRITICAL]}, # 触发条件:观察到轻症或重症 5 consequent = {loc=[PARK, CAFE, CLINIC]} # 违反条件:感染者仍在公共场所
如果前提和后果都成立,则该禁止规范被违反,并对违规者施加制裁(Sanction)。
- 制裁以负面奖励(negative reward)表示,智能体会因此进入不利状态。
- 当智能体收到来自他人的规范信息(表明该行为是被禁止的),它会将该制裁视为潜在的惩罚(Potential Reward Φ)。
3.4 规范性信息沟通(Normative Information Communication)
我们将规范性信息形式化为条件表达式,表明当前提满足时,后果将会发生:
python
复制编辑
1 sender = {Observer_Agent}, # 发送者:观察者智能体 2 receiver = {Actor_Agent}, # 接收者:执行行动的智能体 3 info type = {MESSAGE}, # 信息类型:直接信息(Message) 4 antecedent = {obs_health=CRITICAL, loc=CAFE}, # 触发条件:观察到重症患者在咖啡馆 5 consequent = {PUNISHMENT} # 结果:惩罚(Punishment)
3.5 社会类型(Types of Societies)
我们定义了五种社会类型,分别采用不同的社会沟通方式:
社会类型 | 沟通方式 |
---|---|
Baseline 1: Primitive 社会 | 无社会沟通,智能体仅根据自身目标行事。 |
Baseline 2: Penalty 社会 | 违规者将受到负面制裁(如强制隔离)。 |
Baseline 3: Emote 社会 | 智能体会通过情绪表达(如愧疚或高兴)来沟通。 |
Baseline 4: Tell 社会 | 使用直接信息(Tell)进行规范沟通。 |
Nest: Hint 社会 | 使用制裁+暗示(Hint) 进行规范沟通。 |
3.6 评估指标(Metrics)
我们使用以下六个指标评估 Nest:
指标 | 定义 |
---|---|
MHealthy | 健康智能体的比例 |
MInfected | 感染智能体的比例 |
MDeceased | 死亡智能体的比例 |
MInfections | 平均感染次数 |
MVaccinated | 接种疫苗的智能体比例 |
MHome | 选择居家隔离的感染者比例 |
MQuarantine | 被强制隔离的感染者数量 |
MGoal | 智能体目标满足程度 |
3.7 假设(Hypotheses)
本研究验证以下假设:
- H₁: 采用暗示(Hint)的社会能更好地控制疫情传播。
- H₂: 采用暗示(Hint)的社会能提高智能体的自愿隔离率。
- H₃: Nest 社会中的智能体目标满足度更高。
我们使用 独立样本 t 检验 和 Glass’ Δ 进行统计检验,并采用 Cohen’s 规则 解释效应大小。
4 实验结果(EXPERIMENTAL RESULTS)
本节讨论 RQsocial-communication(社会沟通研究问题)的实验结果。
表 4 总结了模拟实验的结果及其统计分析,并报告了各假设在收敛时的指标。
4.1 疾病控制(HDiseasecontrol)
为了评估 HDiseasecontrol,我们测量了以下指标:
- 健康智能体比例(MHealthy)
- 感染智能体比例(MInfected)(包括无症状感染者(Asymptomatic)、轻症患者(Mild) 和 重症患者(Critical))
- 死亡智能体比例(MDeceased)
- 平均感染次数(MInfections)
- 疫苗接种率(MVaccinated)
实验初始时,每个社会的感染率为 30%。
实验结果
-
Nest 社会的感染率最低(0.22),远低于:
- Primitive 社会(13.29)
- Penalty 社会(2.65)
- Emote 社会(3.78)
- Tell 社会(2.96)
- 影响大小:
- 对 Primitive 社会的影响很大
- 对 Penalty 和 Tell 社会的影响较小
- 对 Emote 社会的影响可以忽略
-
Nest 社会的健康智能体比例最高(97.54),高于:
- Primitive 社会(46.31)
- Penalty 社会(77.60)
- Emote 社会(67.11)
- Tell 社会(76.27)
- 影响大小:较大
-
Nest 社会的死亡率最低(2.08),远低于:
- Primitive 社会(41.01)
- Penalty 社会(19.75)
- Emote 社会(29.10)
- Tell 社会(20.78)
- 影响大小:较大
-
Nest 社会的平均感染次数最低(2.07),远低于:
- Primitive 社会(48.31)
- Penalty 社会(13.83)
- Emote 社会(19.09)
- Tell 社会(15.16)
- 影响大小:较大
-
Nest 社会的疫苗接种率最高(93.57),高于:
- Primitive 社会(82.41)
- Penalty 社会(36.72)
- Emote 社会(32.69)
- Tell 社会(35.33)
- 影响大小:较大
疫苗规范的形成
- 在 Nest 社会中,疫苗接种率超过 90%,表明在没有自上而下的强制接种要求的情况下,疫苗接种仍然作为一种社会规范自然形成。
4.2 隔离行为(HIsolation)
为了评估 HIsolation,我们测量了以下指标:
- MHome:感染智能体自愿待在家的比例
- MQuarantine:被强制隔离的感染智能体数量
- MInfected:感染智能体的比例
实验结果
-
Nest 社会的感染者自愿居家隔离的概率最高(0.99),高于:
- Primitive 社会(0.61)
- Penalty 社会(0.96)
- Emote 社会(0.95)
- Tell 社会(0.95)
- 影响大小:对 Primitive 社会的影响较大,对其他社会影响较小
-
Nest 社会的强制隔离率最低(0.00),低于:
- Penalty 社会(0.03)
- Emote 社会(0.02)
- Tell 社会(0.02)
- 影响大小:较小
自我隔离规范的形成
在 Nest、Penalty、Emote 和 Tell 社会中,超过 90% 的智能体采用了自我隔离行为,表明自愿隔离已成为社会规范。但 Primitive 社会未能形成该规范。
4.3 目标满足度(HGoal)
为了评估 HGoal,我们测量了智能体的目标满足度(MGoal)。
实验结果
- Nest 社会的目标满足度最高(0.31),高于:
- Primitive 社会(0.19)
- Penalty 社会(0.26)
- Emote 社会(0.23)
- Tell 社会(0.26)
- 影响大小:对 Emote 社会影响较小,对其他社会影响较大
结论
- Nest 社会中的智能体能够更有效地平衡个人目标与社会规范。
5 相关研究(RELATED WORK)
本研究与社会规范及其形成相关的研究密切相关。
现有研究与 Nest 的对比
- Andrighetto 等人 [6] 发现:语言沟通(特别是正面规范信息)与负面制裁结合,可以促进更高、更稳定的合作。
- Kalia 等人 [23] 发现:情绪(Emotions)影响规范的满足程度。
- Nest 中的 Hint 也可以理解为情绪表达,但它不仅作为一种制裁方式,还提供了社会规范信息。
- Bourgais 等人 [9] 设计了一种智能体架构,结合认知、个性、规范和社会关系,用于模拟人类行为。
- Argente 等人 [8] 提出了规范-情感智能体架构(Normative Emotional Agent Architecture),结合 BDI(信念-愿望-意图)框架。
- Tzeng 等人 [46] 结合了规范模型、BDI 模型和情绪,用于智能体决策。
Nest 的独特贡献
- Nest 允许智能体通过多种社会沟通方式学习规范,而不仅仅依赖于制裁。
- Nest 通过社会沟通(Sanctions, Tell, Hint)促进规范的形成,并提高智能体的社会适应性。
6 讨论(DISCUSSION)
新冠疫情(COVID-19)期间及其后,大量研究探讨了干预措施(interventions) 对疫情传播的影响。然而,较少有研究关注政策违规(policy violations),尽管它们是疫情扩散的主要推动因素。
在 Nest 框架中建模社会沟通,使得我们能够更真实地模拟个体的决策过程,例如:
- 服从(Obedience)
- 违反干预措施(Noncompliance)
本研究提出了一种结合社会沟通模型的方法,用于促进社会规范的形成(norm emergence)。
本研究的创新之处在于,它系统性地整合了三种主要的社会沟通方式:
- 制裁(Sanctions)
- 直接告知(Tells)
- 暗示(Hints)
在 Nest 框架中,Tell 和 Hint 提供的规范性信息能够促进间接社会学习,这种方式更接近现实世界中的人类行为模式。
6.1 研究发现总结(Summary of Findings)
主要结论
- 通过暗示(Hints)进行沟通的智能体,能够更快地趋同于社会规范(norm convergence),相比之下,仅依赖强制性制裁(Sanctions)或显式的批准/不批准信息(Explicit Communication of Approval/Disapproval) 的智能体,规范收敛速度较慢。
- 考虑 Hint 的社会,在遵守最终规范方面比不考虑 Hint 的社会更稳健。
- 在实验中,Nest 和 Emote 社会比其他社会更快达到 90% 规范形成阈值(norm emergence threshold),且它们对已形成规范的遵守率也高于 Primitive、Penalty 和 Tell 社会。
- Emote 社会在所有指标上未必优于 Penalty 和 Tell,但当 Emote 被增强为 Nest 后,整体表现显著提升。
在疫情模拟环境下,Nest 的具体优势
- Nest 社会比其他社会更能控制疫情传播。
- Nest 和 Emote 社会中的智能体更快学习到“自我隔离规范(self-isolation norm)”,并在感染后更愿意主动隔离。
- Nest 社会中的智能体目标满足度(goal satisfaction)高于其他社会。
最终影响
- Nest 智能体能够更有效地规避感染风险。
- Nest 智能体的整体满意度(satisfaction)高于基线智能体(baseline agents)。
6.2 研究局限性与有效性威胁(Limitations and Threats to Validity)
我们识别了 三个潜在的有效性威胁,并采取相应措施进行缓解。
1. 人类观察能力有限,可能会欺骗或隐瞒信息
- 现实世界中,人类可能会隐瞒自身状况或误导他人。
- 缓解措施:
- 在模拟实验中,我们做出简化假设,即所有智能体都能准确推断他人的社会沟通方式,且所有沟通都是诚实的。
2. 模拟实验基于预设的收益(payoffs)和概率(probabilities)
- 获取精准的疾病传播概率需要大量时间和精力。
- 缓解措施:
- 我们采用已有文献中的数据,确保模拟实验的合理性。
3. 社会沟通中的制裁强度与概率可能有所变化
- 不同社会沟通方式(Sanctions, Tells, Hints) 在现实中可能具有不同的影响力。
- 缓解措施:
- 我们在实验中设置了多种社会沟通模式,以评估不同沟通方式的效果,确保研究结果的广泛适用性。
6.3 未来研究方向(Future Directions)
随着 AI(人工智能) 深入融入日常生活,如何将人类伦理(human ethics)融入 AI 变得尤为关键 [11, 26, 43, 49]。
由于人类的行为受价值观(values)驱动,研究人类价值观有助于:
- 更深入地理解人类决策过程
- 设计能够基于人类价值观进行推理的智能体 [5, 25, 34]
1. 将价值观嵌入自主智能体(Embedding Values into Autonomous Agents)
- Montes 和 Sierra [31] 研究了基于价值观推广(value promotion)的规范合成(norm synthesis),但未来可以探索:
如何开发能够基于价值观做出决策的智能体?
2. 研究情绪与生理反应对智能体行为的影响
- 未来研究可以探讨情绪强度(Emotion Strength)和生理唤醒(Physical Arousal) 如何影响智能体的决策过程 [13]。
3. 在 Nest 框架中引入不同类型的个性(Personality Types)
- 未来可以研究不同个性类型(Personality Types) 如何影响 Nest 智能体之间的交互 [47]。
4. 研究不同价值观如何影响人类交互,以支持高异质性社会(High-Heterogeneity Societies)
- 在未来研究中,我们可以分析不同价值观如何影响人际互动,并探讨如何支持高度异质化(high heterogeneity)的社会。