论文阅读-Demystifying Misconceptions in Social Bots Research

错误信息科学寻求这些问题的解决方案（Lazer 等人，2018）。然而，这一最重要的（paramount）努力（endeavor）本身也可能会遇到其旨在克服的相同问题（West 和 Bergstrom，2021；Altay 等人，2023）。或者例如，科学文章和出版商为了吸引注意力而展开激烈（fierce）的竞争，类似于新闻媒体所经历的情况。因此，耸人听闻的说法（sensationalist claims）和夸大其词的结果有时会被用作发表论文和取得其他科学成就的捷径(shortcuts)。然后，确认偏见正以引用偏见的形式进入科学领域：偏好引用支持自己结果的文章，而不是质疑这些结果的文章（West 和 Bergstrom，2021）。再次，对科学结果的过度概括以及对方法和概念局限性的理解不足会导致（give rise to）对错误信息的多种误解（Altay et al., 2023）。这些问题和其他问题目前损害（under mine）了我们研究工作的有效性(efficacy)和可信度。因此，为了使错误信息科学造福于我们的社会，我们必须首先解决科学本身的问题。

本研究涉及多种形式的网络虚假信息之一：malicious social bots. 社交机器人是网络平台上-至少部分自动化的账户（Ferrara 等人，2016 年；Cresci，2020 年）。由于社交机器人易于使用且边际成本可以忽略不计，因此可以用作传播有问题内容的消耗性（expendable）工具。了解机器人在大规模操纵活动中的作用和活动非常重要，因为它可以为遏制误导和虚假信息的战略提供依据。因此，社交机器人吸引了学术界和媒体的广泛关注（Allem 和 Ferrara，2018；Assenmacher 等，2020；González-Bailón 和 De Domenico，2021；Chen 等，2021）。埃隆-马斯克（Elon Musk）收购 Twitter 平台之前，Twitter 上机器人的真实数量就曾引发过公开争议（dispute）（Varol, 2023 年）。

然而，尽管经过多年的研究，社交机器人科学仍然充满了（replete）同样的问题,这也是困扰错误信息科学的问题。这些问题源于未经纠正的事实错误，源于在引用和讨论科学成果时存在的偏见，源于一系列广泛的方法论和概念性问题，这些问题为模棱两可、误解、不切实际的期望以及截然相反且看似不可调和(ieeeconcilable)的研究结果埋下了伏笔（Rauchfleisch 和 Kaiser，2020 年；Hays 等人，2023 年）。

在本次分析中，我们将重点关注最近发表的一些有关社交机器人的文章。通过对这些文章的方法、假设、结果和结论进行全面分析，我们发现了一些误区(pitfall)，其中既有与事实不符和方法上的缺陷（flaws），也有一些更微妙的问题(suble incidents)，如对现有文献的歪曲(mispresentation)和概念上的错误。我们的讨论将这些问题与社交机器人和错误信息研究中的常见误解联系起来. 因此，我们的批判性分析具有双重(twofold)目的。一方面，我们强调并修正事实错误、方法论偏见和概念问题。另一方面，揭开常见误解的神秘面纱使我们能够解决科学如何产生和讨论的基本问题（West 和 Bergstrom，2021）。克服这些问题有助于确保科学的可信度。

Methodological issues

社交僵尸检测是网络安全和网络安全领域的一项重要任务，而且越来越具有挑战性（Ferrara 等人，2016；Cresci，2020）。I

在实践中，它通常涉及在二元分类设置中使用机器学习算法，目的是区分各种在线平台上的人工操作账户和自动账户--社交机器人。

机器学习模型根据从用户资料、行为、网络互动和用户帖子中获取的语言模式中提取的特征进行训练，目的是检测真实用户和自动实体之间的细微差别。

社交机器人研究中的方法论问题包括典型的机器学习陷阱和网络社交生态系统不断发展所带来的独特问题，我们将在下文中举例说明。

Information leakage

机器学习中的信息泄露指的是模型从训练数据中获取机密信息，然后利用这些信息做出不公平的推断（Chakrabarti 等人，2008 年）。特征泄漏是信息泄漏的一种特殊类型，即模型利用了预测时无法获得的机器学习特征。由于利用了 “禁止 ”信息，这一问题通常会导致训练后的模型表现出不切实际的良好性能.在机器人检测中，当事先了解帐户的某些特殊(peculiar)特征并在训练时利用这些知识时，问题可能会浮出水面，从而实现近乎完美的检测性能。例如，每个僵尸网络通常都会表现出一些独特的特征，这些特征是由于机器人的创建方式、目标或它们之间的任何其他共享特征而表现出来的（Zhang 等人，2016 年；Mazza 等人，2022 年）。这些独特的特征可能使机器人有别于人类操作帐户的平均行为（Barabasi，2005；Cresci 等人，2020）。然而，在大多数情况下，只有已经被发现的僵尸网络才具有这种特殊特征，而尚未被发现的僵尸网络则不具有这种特殊特征。因此，如果机器人检测器在训练时利用这些特征对已知机器人的实例进行分类，它可能会学习到虚假的相关性，而这些相关性不会泛化到（generalize）分类器稍后将要检测的未知机器人。

僵尸检测中发生特征泄漏的另一种情况是，检测器利用账户收集方式的知识--无论是恶意僵尸还是真实账户--来预测它们的类别（即自动或非自动）。同样，对于僵尸检测任务而言，某些账户的收集方式与其类别之间的相关性是虚假的（spurious），这使得基于此类信息的特征具有危险的误导性。因此，利用这些特征的检测器将在已知数据上实现优异的性能，但可能表现出较差的泛化到具有不同特征的新数据的能力。

在机器人检测器的训练过程中无意（inadbertent）或有意地(deliberate)加入信息泄露，为其作者提供了一个人为提高其性能的潜在途径，使其能够与已有的最先进模型进行战略竞争。这种情况可能会导致提出表面上(ostensibly)优越的模型，然而，这代表了解决机器人检测问题的倒退(regression)而不是进步。此外，相同的模型也可能被用来过度(unduly)破坏其他模型的性能. 最近，Gallwitz 和 Kreil（2022 年）以及 Hays 等人（2023 年）利用虚假信号（如账户是否通过 Twitter 验证）训练了简单但不现实的机器人去检测器，以夸大（exaggerate）更通用的先进模型的局限性。

Cherry-picking（采摘樱桃）

机器人检测的另一个挑战来自大量不同的检测器和基准数据集（Cresci，2020）。这创造了一个环境，引入新检测器的作者可以有选择地进行有利的（favorable）比较。由于现有模型数量庞大(sheer)，很难(arduous)辨别(discern)最有效的模型，因此难以描绘出（delineating）清晰的机器人检测最新技术，从而加剧（exacerbate）了这个问题。即使是成熟的僵尸检测器（Rauchfleisch 和 Kaiser，2020 年），其性能的不确定性也一直存在(lingering)，这就使得挑选竞争对手和评估场景成为可能，从而使新型检测器的支持者可以只针对一小部分检测器和数据集来证明其优越性，而省去了那些可能表现不佳的检测器和数据集。

更糟糕的是，尽管存在发表在权威刊物（prestigious venus）上的高质量研究成果（Shao 等人，2018 年；Stella 等人，2018 年；González-Bailón 和 De Domenico，2021 年），但人们对社交机器人的浓厚兴趣吸引了各式各样的贡献，包括一些质量较低的作品。例如，Gallwitz 和 Kreil（2022 年）选择了非代表性样本（著名(prominent)公众人物，如美国国会议员和诺贝尔奖得主）来挑战广泛使用的僵尸检测工具的准确性，夸大了(inflating)其假阳性率。这种误导性的说法凸显了挑拣评估数据的谬误(fallacy)。由于机器人检测方法，无论是基于机器学习还是人工标注，都存在固有的误差范围，因此可以通过精心选择测试示例来操纵准确性结果。这种不那么严谨的研究成果加入到文献中，形成了一种参考资料，虽然可能缺乏质量，但却进一步促进了对竞争对手的选择性挑剔。

由于信息泄露或过度拟合(overfit)特定(当模型过于依赖训练数据中的无关特征时，我们称之为过拟合，其结果是模型在训练数据上表现良好，但对未见数据的泛化效果却很差（Bramer，2007 年）。)评估数据集的模型取得了看似优异的性能，评估工作变得更加复杂.最先进的模型在设计时考虑到了更大的通用性，因此与这些更简单但在背景上更专业的模型进行直接比较本身就不公平。在最近的一个此类示例中，将具有少于四个特征的过度拟合分类器与更复杂和更通用的最先进模型进行了比较（Hays 等人，2023）。

择优挑选的问题不仅仅限于机器人检测器之间的不公平比较。一个令人担忧的趋势是，有选择地纳入、排除或歪曲先前的文献(misrepresenting prior literature)，以提出一种与自己的研究结果相一致的说法. 最近，这种做法似乎对某些机器人探测器提出了新的批评和错误地声称机器人检测器尚未经过系统评估。这些主张只能通过省略大量文献来得出（Varol et al., 2017; Yang et al., 2019, 2020; Sayyadiharikandeh et al., 2020; Cresci, 2020）。另一方面，Gallwitz 和 Kreil（2022 年）引用了他们自己未发表的成果--这些成果没有经过同行评审（vetting of peer review），而是通过博客文章和演讲分享的，这给人一种先前的研究支持其主张的假象（impression）。这种有选择性的引用不仅会扭曲作品的可靠性和新颖性，还会歪曲僵尸检测领域最先进技术的代表性。通过自我引用未经核实的说法，作者制造了一种权威的假象。而且，通过忽略已经做出某些贡献或结论的作品，作者可能会造成一种原创性（originality）的错觉，从而有可能掩盖（overshadowing）大量先前存在的、对相同或类似见解做出贡献的研究。这不仅有损于（undermines）学术话语（discourse）的完整性，也有损于（detract）对先前推动该领域发展的广大研究人员的集体承认和认可。

要解决 “偷梁换柱 ”的问题，就必须依靠精通该领域细微差别（nuances）的专家审稿人，他们能够辨别（reliance）出相关文献的战略性遗漏（omission）。矛盾的是（paradoxically），由于对审稿人不断增长(escalating)的需求超过了（outpaces）现有的专家库，因此出版物数量的增长趋势（Haghani 等人，2022 年），尤其是僵尸检测等热门话题（Cresci，2020 年），带来了巨大的(formidable)挑战。这种差异揭示了（surface）在快速发展的研究环境中保持同行评审过程的质量和严谨性（rigor）的关键矛盾(crucial tension)（Van Noorden，2023 年）。现在，该领域不仅面临着建立一个明确（definitive）基准的困难，而且还面临着在多种多样的文献中穿行的挑战。在质量有问题的稿件所产生的噪音中，辨别真正的进步成为一项复杂的任务。

Straw-man methodology （稻草人）

稻草人谬误包括歪曲他人的研究，然后批评这种歪曲，就好像它忠实地（faithfully）代表了原始研究一样。例如，Gallwitz 和 Kreil（2022 年）基于对文献的歪曲，对所有社交机器人研究提出了泛泛而谈的耸人听闻的（Sensationlist）批评。作为对监督方法批评的一部分，他们谎称其他研究人员不共享或公布训练和评估数据集。他们还声称其他研究人员通过使用未报告的训练数据或阈值黑客操纵结果，这显然是错误的。Gallwitz 和 Kreil 根据这些严重的科学不端行为（scientific misconduct）指控，批评受监督的僵尸探测器是无效的，但却没有提供任何证据来支持他们的指控（allegation）。另一个方法论上的稻草人谬论是，Gallwitz 和 Kreil 未能重现 Keller 和 Klinger（2019 年）的实验。Gallwitz 和 Kreil 采用了与 Keller 和 Klinger 不同的僵尸检测模型，然后将僵尸得分分布的变化归因于僵尸检测器的不一致性。

稻草人谬误的另一种表现形式（manifestion）是，机器人检测完全是一项有监督的机器学习任务。一方面，这一假设可能是由于监督机器学习是处理任务的传统方法，而且有大量可用的监督机器人检测器。另一方面，这种观点忽略了同样有力的文献，这些文献强调了有监督检测器缺乏通用性和可转移性，以及其他问题（Cresci，2020；Echev- erría 等人，2018；Yang 等人，2020；Sayyadiharikandeh 等人，2020；Rauchfleisch 和 Kaiser，2020；Dimitriadis 等人，2021）。最近出现了多种无监督的僵尸检测方法，作为缓解（mitigate）这些问题的可能解决方案（Cresci，2020）。评估僵尸探测器的泛化能力正是 Hays 等人（2023 年）的目标。然而，他们选择采用一种监督学习方法来实现这一目标，而这种方法已被证明在通用性和可转移性方面存在严重问题。他们的方法的另一个问题是不能完全支持他们的结论。具体来说，海斯等人利用他们的研究结果批评了所有僵尸检测器的泛化能力，尽管他们只使用了一组范围较小的监督方法进行实验。他们没有区分迄今为止提出的不同类型的僵尸检测器--基于单个账户分析的有监督检测器与基于账户组分析的无监督检测器（Cresci，2020 年）。这是一个教科书式的循环论证例子：分析的目的是评估当前的僵尸探测器是否具有普适性。然而，本分析只评估有监督的检测器，而这些检测器存在已知的泛化问题（Echeverría 等人，2018 年；Yang 等人，2020 年；Sayyadiharikandeh 等人，2020 年；Rauchfleisch 和 Kaiser，2020 年；Dimitriadis 等人，2021 年）。结果并不令人吃惊，但也有失偏颇，那就是所考虑的检测器无法普遍化，这被用来批评整个领域。

Data biases

在机器学习和数据科学任务中，高质量的数据是稳健模型开发和深入分析的关键（linchpin）（Halevy 等人，2009 年）。如上所述，多年来已经发布了大量僵尸账户和人类账户的数据集。一方面，这使得全面测试新僵尸检测器的性能变得更加容易。另一方面，它也带来了挑选有利数据集的风险，可能会扭曲报告的绩效并带来偏差。此外，由于可获得的数据集时间跨度不同，时间上也存在差异，从最近的数据到十年前的数据——当探测器接受过时数据的训练时，可能会带来额外的挑战，从而削弱其性能在当代环境中的相关性。在考虑已发布的基准数据集对当前在线平台上的机器人的代表性时，读者应注意数据集中包含的账户很可能比数据集本身的发布日期还要早几年。此外，有些数据集是通过合并或扩展以前发布的资源而建立的。例如，pan-2019 数据集（Rangel 和 Rosso，2019 年）主要基于 2011 年至 2017 年间发布的其他数据集。因此，数据集的出版日期应被视为其中记述的宽松上限（generous upper）。即使在这一宽松的假设下，考虑到网络危害状况的快速变化，以及更全面、更新颖的数据集的可用性（Feng 等，2021 年），我们可能会面临获取的数据集不再代表平台实际状况的风险。鉴于社交机器人已知的进化行为（典型的对抗环境）需要不断更新数据和方法，这一点尤其麻烦（Cresci 等人，2021 年）。

最近的一些文献调查了账龄超过十年的账户的特点。过时的（obsolete）数据集可用来批评他人的检测方法，也可用来宣传自己的方法优于现有方法。一个明显的例子是 Hays 等人（2023 年）的研究，在 11 个分析数据集中，最新的数据集发表于 2020 年，最晚的数据集发表于 2011 年。

注释可能是数据偏差的另一个来源。例如，所谓的半机械人账户（cybrog）（Ferrara 等人，2016 年）部分是通过软件实现自动化的，但由人类严密管理和监控，人类可在必要时介入以避免被发现。由于这些账户可以回复查询并声称自己不是机器人，因此可以将其标记为人类账户，这样就可以使机器人检测方法的假阳性率（false-positive rate）看起来比实际要高。为避免出现这种偏差，应由多名注释者按照共同发布的标准（rubric）进行账户标注。此外，代表账户表现出的不同程度的“botness”（即自动化）的连续分数应该取代二进制标签。

文献中的一些研究没有遵循这一方法，只是指责（accuse）其他研究人员有偏见。Gallwitz 和 Kreil（2022 年）在多个案例中证明了这种行为。在不披露任何注释标准的情况下，他们多次改变标记僵尸的标准（criteria），从而夸大僵尸检测方法的假阳性率或假阴性率，以符合他们的说法（narrative）。. 在批评 Yang 等人（2019）的一个案例中，他们将自动发布新闻标题的账户（如与主要通讯（newswire）社相关的账户）标记为人类账户。他们对 Keller 和 Klinger（2019）的批评更进一步：首先，Gallwitz 和 Kreil 考虑了与 Keller 和 Klinger 分析的一组不同的账户；其次，他们只人工检查（inspect）了这组不同数据中的 0.04%；第三，他们无视被暂停的账户；第四，他们将那些通过软件应用程序交叉发布推文的账户标记为人类账户。他们的结论是“[凯勒和克林格]列表中没有一个帐户是任何有意义的“机器人”。”Gallwitz 和 Kreil（2022 年）也使用了类似的带有偏见的注释来批评 Dunn 等人（2020 年）的研究：暂停账户再次被假定为人类账户，以提高所谓的假阳性率，然后通过将标准从 “僵尸 ”改为 “恶意 ”或 “传播疫苗关键信息”，将明显是自动操作的账户仍然标记为分类错误。使用定义不明确、不一致或不断变化的过时或有偏见的数据集，是一种危险的科学操纵趋势。

Conceptual issues

除了方法上的挑战，社交机器人研究的前景还与各种潜在的、更微妙但影响深远的概念问题错综复杂地交织（interwine）在一起。这些微妙的（nuanced）挑战如果不加以解决，有可能对该领域的发展及其接受（reception）产生(exert)更加隐蔽的（insidious）影响。

Failure to account for context

在讨论目前阻碍僵尸检测进展的局限性时，最近的一些重新搜索将矛头（finger）指向了有缺陷的（flawed）数据收集方法，这些方法无法捕捉僵尸空间的复杂性（Hays 等人，2023 年）。这种对现有数据集局限性的解释暗含了（implictly）一种假设，即通过严格（rigorous）实践获得的数据集有可能包含僵尸保护问题空间的全部复杂性，这与迄今为止的文献相反。更具体地说，这种对现有数据收集做法的批评认为，建立公正、全面的机器人数据集是可能的，甚至是方便的。需要无偏见的数据集，以避免特殊的（peculiar）机器人和人类特征泄漏到数据中，从而允许简单的模型在收集的数据上实现良好的性能，然而在实际场景中表现不佳。此外，还需要全面的数据集，以便让表现力模型学会归纳所有类型的现有社交机器人。不幸的是，存在公正且全面的数据集的假设是错误的（fallacious）

关于偏差，许多机器人数据集都存在偏差，因为其中的账户具有一些特殊的特征（Hays et al.）我们注意到，这在很大程度上不足为奇，因为这种特殊性是僵尸在僵尸网络中组织起来的必然结果：由单一实体创建和控制的账户组，该实体通过集体操作机器人来实现某些预定目标（Zhang 等人，2016 年）。鉴于属于同一僵尸网络的所有僵尸都由同一实体创建和/或运行，并追求相同的共同目标，因此它们往往有一些相似之处。因此，如图 1b 所示，与其他账户相比，僵尸网络似乎具有一些特殊的特征。因此，在大多数情况下，现有机器人数据集中存在的偏差不应归咎于数据集的创建者，而应追溯到社交机器人现象的本质。

（社交机器人和人工操作的内隐和天真模型。在这个模型中，所有的机器人都是一样的，它们分布均匀，我们对它们的数量和特征有全面的了解。根据这一模型，收集无偏见、全面的机器人数据集是可能的。

社交机器人和人工操作账户的现实模型，以及相关的知识差距。在这里，社交僵尸被组织成僵尸网络，每个僵尸网络都有独特的特征（彩色编码）。其中的错误信息包括已知僵尸网络中的僵尸数量，以及所有未知僵尸网络的数量、规模和特征。）

关于建立全面机器人数据集可能性的假设同样存在缺陷。要建立这样的数据集，需要从现有机器人的完整分布中统一随机抽取足够数量的账户。这样就能准确地反映机器人的情况，从而捕捉到问题空间的全部复杂性。虽然在机器学习的某些应用领域中这是可行的，但我们认为，对整个机器人群体进行统一的随机抽样是非常困难的，甚至是完全不可能的。除了社交数据带来的诸多挑战（Olteanu 等人，2019 年；Pasquetto 等人，2020 年），检测社交机器人的任务在一定程度上也属于信息安全和开源情报领域，而这两个领域的主要特点是存在有强烈隐藏动机的对手（Cresci 等人，2021 年；Torres-Lugo 等人，2022 年）。事实上，人们对僵尸问题真实程度的了解一直很有限，因此很难在平台上跟踪僵尸、量化其数量并评估其影响（Varol，2023；Mendoza 等人，2020；Tan 等人，2023）。我们对在线平台上运行的僵尸网络只有部分了解和认识。图 1 提供了社交机器人和人工操作账户的概念图：首先根据朴素的解释（图 1a），然后根据更现实的表示（图 1b）。图 1b 强调了与在线平台中机器人的存在有关的知识差距。其中包括已知的未知数：属于已知僵尸网络的僵尸的确切数量。但它们也包括未知的未知数：有关在平台上运行的隐藏僵尸网络的信息。如果我们在很大程度上忽略了充斥在线平台的僵尸的类型和数量，我们如何才能创建无偏见的综合数据集？这个基本问题目前还无法回答。

（埃隆-马斯克（Elon Musk）与 Twitter 前首席执行官帕拉格-阿格拉瓦（Parag Agrawal）之间关于 Twitter 上机器人真实数量的法庭纠纷就是一个典型的例子，说明了追踪社交机器人的内在困难和模糊性。

例如，在某些语音识别任务中，需要分类的所有实例（如语言）都是事先已知的。在用户输入足够多、足够多样化的情况下，无偏见的综合数据集是有可能实现的（Ardila et al.））

Common misconceptions in social bots research

部分社交机器人文献声称，机器人检测任务已经得到有效解决。这种观点的支持者强调了当前检测方法的准确性和可靠性，并主张将这些方法整合到各种下游应用中。这种乐观的观点将僵尸检测研究定位为机器学习的成功典范，凸显了该领域在实现实用和可部署解决方案方面取得的进展。

我们不同意这种对社交僵尸研究现状的解释。相反，我们认为，在这一领域开展公正、负责任的研究，应该承认有大量文献提醒研究人员和从业人员注意僵尸检测的局限性。多年来，我们一直在积极推动这项工作的发展，因此对这项工作非常了解。下面我们将报告一些著名的例子。早在2013年（Yang等人，2013年），人们就首次提到了监督式检测器在检测复杂机器人时所面临的困难，并在随后的几年中进一步加剧（Cresci等人，2017年；Grimme等人，2018年；Cresci等人，2019年）。Feng等人（2021年）讨论了机器人检测基准数据集的局限性，Asenmacher等人（2022年）提到了社交机器人研究中与数据相关的可推广性和可复制性的局限性。有几项研究测量并讨论了机器人检测器的生成缺陷，尤其侧重于有监督的机器人检测器（Echeverría 等人，2018 年；Yang 等人，2019 年；Cresci，2020 年；Sayyadiharikandeh 等人，2020 年；Yang 等人，2020 年；Feng 等人，2021 年）。还有人警告说，在不同时间点（Rauchfleisch 和 Kaiser，2020 年）和使用不同探测器（Svenaeus，2020 年；Martini 等人，2021 年）获得的僵尸分类缺乏一致性。主要平台的安全和诚信专家（Roth 和 Pickles，2020 年）以及独立研究人员和媒体也对僵尸检测的准确性和实用性提出了担忧4,5,6。

（4https://www.nytimes.com/2020/06/16/science/social-media-bots-kazemi.html
5https://mediawell.ssrc.org/expert-reflections/on-digital-disinformation-and-democratic-myths/
6https://www.lawfareblog.com/random-toxicity-whats-going-benjaminwittess-mentions）

机器人检测所面临的持续挑战与在线操控者日益增强的技术能力（包括生成式人工智能所提供的前所未有的能力）之间的矛盾日益加剧（Yang and Menczer, 2023; Ferrara, 2023），甚至导致一些研究人员质疑机器人检测任务的长期可行性（Boneh et al, 2019; Grimme et al, 2022）。出于同样的原因，一些人建议将正在进行的部分科研工作从僵尸检测转向其他更有前途的任务，如检测信息操作和协调恶意行为（Cresci，2020；Roth 和 Pickles，2020；Pacheco 等人，2021）。对现有文献中有关僵尸检测的挑战和局限性的分析，与近期一些乐观的研究相比，呈现出截然不同的景象。这种差异带来了一个关于社交僵尸研究的常见误解：

上述证据表明，尽管长期以来付出了巨大努力（Cresci，2020 年），但僵尸检测问题远未得到解决--恰恰相反。

在将机器人检测任务描述为一个看似简单的（straightforward）问题时，一些作者还暗示了一种可能性，即可以轻松调整现有的检测器，以克服其当前的局限性，并跟上更像人类的机器人的进化步伐（Hays 等人，2023 年）。这个例子引入了另一个关于机器人检测的误解：

多年来，我们目睹了僵尸开发者与配备了各种不同探测器的僵尸猎手之间的 “打地鼠 ”游戏，僵尸开发者的账户越来越复杂（Yang 和 Menczer，2023 年；Yang 等人，2024 年），而僵尸猎手则配备了各种不同的探测器（Yang 等人，2019 年；Sayyadiharikandeh 等人，2020 年；Yang 等人，2020 年；Cresci 等人，2021 年）。回顾这场军备竞赛的发展过程，我们可以得出这样的结论：从长远来看，我们所尝试的技术进步都无法显著减轻恶意社交机器人带来的挑战。我们有理由相信，未来的进步也会遭遇类似的命运。社交机器人是对抗性的快速移动目标，其特点是快速采用尖端技术。因此，机器人检测本身就是一项极具挑战性的任务，而由于缺乏有关分析目标的准确信息、在线平台的合作有限以及在线危害的快速发展，这项任务变得更加艰巨。下面我们将讨论其他一些误解，这些误解有损于我们对社交机器人和相关文献的理解：

科学文献以及公众中的一个常见假设是，如果给定的机器人检测器对某些机器人实现了良好的检测性能，那么该检测器应该能够在任何机器人检测任务中复制该性能。这一假设存在问题，因为存在大量不同的僵尸，每个僵尸都有自己的特点（Mazza 等人，2022 年），而且只考虑了已知的僵尸网络。例如，考虑一下用来提高某些公众人物知名度的机器人--所谓的虚假追随者（Cresci et al.）或者说，参与政治操纵的机器人（Shao 等人，2018 年；Caldarelli 等人，2020 年）与旨在愚弄自动交易系统的机器人（Tardelli 等人，2022 年；Bello 等人，2023 年）之间的区别。换句话说，并非所有机器人都是一样的。一些学者通过设计旨在实现通用性和广泛适用性的检测器来解决这种异质性，如 Botometer，尤其是其最新版本（Sayyadiharikandeh 等人，2020；Yang 等人，2020）。的检测器专门用于检测某些类型的机器人。后者以通用性和便携性换取检测的准确性。它们的性能在很大程度上取决于所要检测的机器人的特性。例如，旨在检测时间同步转发行为的检测器（Mazza 等人，2019 年）很可能在检测大规模关注机器人方面毫无用处（Cresci 等人，2015 年）。不过，这不应被视为僵尸探测器的局限性--更不用说其开发者为了把它当作好产品而故意不加说明的局限性--而应被视为对探测器本身的不恰当使用。通用性和可移植性方面的限制也会影响通用僵尸检测器，不过影响程度要小于专用检测器。事实上，即使是通用型检测器也只能依靠有限的几个特征来判断一个账户是否是僵尸账户。因此，一般来说，任何检测器，无论是否专业，性能都不尽相同，其检测能力取决于所检测账户的特征。总之，没有一种僵尸检测器能够检测出所有类型的僵尸。

许多提出新的机器人检测器或调查机器人干扰的文章，都是基于社交机器人在传播虚假信息中的作用（Shao 等人，2018 年）。关于机器人在加剧社会冲突中的作用，也有类似的论点（Stella et al.）换句话说，部分社交机器人文献是基于这样一种假设，即影响我们的在线平台和整个信息生态系统的许多问题都是机器人造成的。这就带来了另一个误解：

对现有文献进行不带偏见的分析后，我们发现社交机器人的作用要可疑得多。例如，一些研究认为，机器人在问题内容的传播中发挥着突出的作用（Shao 等人，2018 年；Stella 等人，2018 年），而另一些研究则得出了相反的结论（Vosoughi 等人，2018 年；González-Bailón 和 De Domenico，2021 年；Seckin 等人，2024 年）。现有文献几乎只关注检测机器人和描述其行为特征，而对衡量机器人恶意行为的影响这一基本任务基本上未作探讨（Cresci，2020 年）。由于这些原因，我们目前对社交机器人的作用及其影响网络用户的有效性缺乏科学共识和确凿证据。然而，我们所知道的是，机器人只是参与错误信息和虚假信息传播的众多媒介之一（Starbird，2019；Roth and Pickles，2020；Pierri et al.，2023）。其他一些媒介包括国家支持的巨魔、为恶意目的相互勾结和协调的用户、超级传播者，甚至是自愿但不知情的个人（Starbird，2019；DeVerna 等人，2022）。每一种媒介都是对安全可信的在线平台的潜在威胁，也是一个蓬勃发展的研究和实验领域。因此，关键是要平衡所有这些方向的努力，避免出现过度使用某些代理，而忽视其他代理的陷阱，因为这些决定都是没有依据的。

前面的误解可能会让读者认为，社交机器人研究的结果是有缺陷的，甚至是完全无用的。Hays 等人（2023 年）就提出了这样的观点。同样，Gallwitz 和 Kreil（2022 年）不仅基于前面讨论过的谬误质疑现有僵尸检测方法的有效性，还进一步认为社交僵尸不是问题。这些说法引出了我们最后一个，但绝不是最不重要的误解：

我们认为至少有两个有力的论据反对这一论点。首先，尽管僵尸检测器有其局限性，但有几个明显的例子表明，僵尸研究能够揭露明显有害的活动。例如，作为某些科学工作的一部分而开发的检测器后来被部署在在线平台上，并用于删除大量恶意帐户（Yang et al., 2014）。同样，一些机器人活动研究的结果导致平台删除了被识别为恶意机器人的帐户（Ferrara，2022；Yang 和 Menczer，2023）。在其他几个案例中，后来发现有关机器人活动的科学发现与独立平台删除恶意账户的行为基本一致（Nizzoli 等人，2020 年；Tardelli 等人，2022 年），证实了研究结果的准确性。这些案例只是社交机器人研究的一些成功案例。如果研究人员没有开发出僵尸检测技术，我们就不可能识别出从事复杂操纵的小部分异常账户。因此，即使尚不存在通用的机器人检测器，并且尽管在机器人检测中需要考虑许多注意事项，但能够检测到一些恶意机器人使我们处于比无法检测到任何机器人更有利的位置。其次，社交机器人研究的好处不仅仅限于检测恶意机器人。例如，对社交机器人的研究和实验导致了中立机器人的开发，用于评估平台上的政治极化和偏见程度（Chen 等人，2021）；用于新闻目的的 “新闻机器人”，可对从多个来源收集的内容进行整理、聚合和分发（Lokot 和 Diakopoulos，2016 年）；甚至还有用于内容管理的机器人（Bilewicz 等人，2021 年；Askari 等人，2024 年）。此外，社交机器人研究还促进了其他相邻领域的早期发展。关于社交机器人的早期研究可以追溯到 2010 年（Ratkiewicz 等人，2011 年；Cresci，2020 年），这些研究奠定了重要的基础，使该领域能够借鉴多年来对相关现象的经验，从而在 2016 年及随后几年，当人们对虚假信息、国家支持的巨魔和协调的不真实行为的广泛关注激增时，提供了至关重要的见解。换句话说，检测和描述社交机器人的早期成果为检测和减轻其他相关形式的网络操纵行为提供了参考。有鉴于此，关于社交机器人的研究--尽管并不完美--似乎远非一无是处。从某种意义上说，社交机器人的研究也不例外，是科学进步的核心框架：研究工作所积累的知识，除了解决研究所针对的具体问题外，还丰富了科学生态系统在许多方面（例如，形成一代又一代的科学家），并为密切（有时不是那么密切）研究领域的科学进步提供工具、数据、方法和见解。

Challenges in the post-API era

除了上文详述的普遍偏见和误解之外，社交机器人研究领域还面临着社交媒体平台政策变化带来的巨大障碍。以前的研究主要集中在Twitter/X上，这可能是因为其免费的API为数据获取提供了便利。然而，随着 Twitter/X 于 2023 年终止对研究人员的免费数据访问，这种可访问性也随之终止。同样，Reddit 限制免费数据访问，Meta 宣布CrowdTangle 被终止，CrowdTangle 是研究 Facebook 和 Instagram 的研究人员的重要工具

无法获取新鲜的社交媒体数据严重影响了研究人员实时监控机器人活动和评估其影响力的能力。这极大地阻碍了研究僵尸特征和训练新型机器学习分类器所需的新僵尸样本的收集。即使研究人员能够开发出新的分类器，大规模部署这些分类器也具有挑战性，会使社交媒体用户面临潜在的操纵风险。而另一方面，机器人运营商在很大程度上却不受影响。

利用刻录机和虚拟手机，他们可以绕过应用程序接口的限制，直接跨平台管理机器人账户。人工智能驱动的社交机器人的出现躲过了当前的机器人检测模型（Yang 和 Menczer，2023 年；Yang 等人，2024 年），这进一步强调了数据可用性在支持社交机器人研究方面的重要性。尽管有这些挫折，欧洲的《数字服务法案》（DSA）还是带来了一些希望，该法案规定大型社交媒体平台在研究人员提出合理要求时，应允许其访问数据。TikTok、Meta 和谷歌等平台已经启动了新的数据访问计划。然而，与以前的访问水平相比，这些计划受到很大限制。其不透明和严格的申请审查程序也使其有效性受到质疑。除了传统的社交媒体，Mastodon 和 BlueSky 等去中心化平台的兴起也带来了新的动力。这些平台的开放性为研究人员访问数据提供了便利，但同时也暴露出被恶意行为者利用的风险。这些平台的去中心化性质使打击恶意社交机器人等威胁的工作变得更加复杂，给用户和研究界都带来了新的挑战

总体而言，新的数据可访问性格局和基础技术的变化代表了社交机器人检测进一步研究的机会和呼吁。

A call for moral responsibility

我们对最近一些研究的缺点和局限性的分析表明，在讨论社交机器人的结果时需要承担责任。该领域和邻近领域新发现的呈现方式不仅会影响下一轮研究，还会影响行业实践、政策制定和公众舆论。为此，最重要的是避免传播社会机器人文献中常见的误解，这些误解包括目前，学者之间的歧义、普遍误解和摩擦不断加剧——例如社交机器人研究的支持者和反对者之间的摩擦。

作为错误信息这一广泛领域的研究人员，我们每天所面临的挑战正是我们社会所面临挑战的真实写照。作为该领域新研究的作者、审稿人和读者，我们有道义上的义务避免陷入同样的偏见，避免加剧我们在分析中经常遇到的同样问题。误解通常表现为 “在误导性背景下的准确事实”（Starbird，2019 年）。事实上，我们认为，所有传播本文所揭示的误解的文献都以某种方式提供了误导性背景。对引用文章中的数据、参考文献、说法或结果进行 “偷梁换柱 ”就是误导性语境的例子，而错误信息正是在这种误导性语境中茁壮成长的（West and Bergstrom, 2021）。同样，尽管夸大其词或耸人听闻的说法有助于论文的发表和引用，但这些说法也会造成误导性语境和不切实际的期望，并加剧科学部落主义。

要想在错误信息科学领域取得切实进展，我们就必须应对许多概念、实践和伦理方面的挑战。要做到这一点，就必须接受这一现象内在的复杂性，考虑多种观点，并提供细致入微而非天真无邪的信息。诸如 “机器人数据集的创建者要为这一领域的失败负责”、“所有社交机器人研究都是有缺陷或无用的”，甚至 “这种新的机器人检测器性能完美无瑕 ”等一概而论的说法无助于实现这些目标。

总之，如果我们不尊重我们的道德义务，我们就会产生有偏见和不可靠的研究，进一步恶化目前损害我们领域公信力的问题（West and Bergstrom, 2021; Altay et al.）德里克-鲁思（Derek Ruths）在 2019 年发表在《科学》杂志上的一篇文章中对比了有关社交机器人的不同研究结果，并评论道：“有关误导信息的研究已经变得与其所研究的事物相似”（Ruths，2019 年）。扭转这一致命趋势是我们的道德责任。要做到这一点，就必须开展负责任的研究，培养细致入微、不带偏见和平衡的观点，并在评审过程中坚持同样的原则。本文旨在通过驳斥社交机器人研究的支持者和反对者所采用的常见谬误论点，并为该领域的未来研究提供合理的方法论方向，从而为这一方向做出贡献。