从AI系统中表征操纵

操纵是许多领域的普遍关注,例如社交媒体、广告和聊天机器人。随着人工智能系统在我们与世界互动的过程中发挥越来越大的作用,了解人工智能系统可能\textbf{在没有系统设计者的意图下}操纵人类的程度至关重要。我们的工作澄清了在人工智能系统环境下定义和衡量操纵的挑战。首先,我们借鉴其他领域关于操纵的文献,描述了可能的操纵概念空间,我们发现这些概念受到激励、意图、伤害和隐秘性等概念的影响。我们对如何操作化每个因素的提议进行了评估。其次,我们提出了一种基于我们描述的操纵特征的定义:如果一个系统行为表现得像在秘密地、有意地改变人类(或其他代理)以追求激励,那么这个系统就是具有操纵性质的。第三,我们讨论了操纵与欺骗、强制等相关概念的联系。最后,我们将操纵操作的上下文放在了一些应用中。我们的总体评估是,虽然人工智能系统的操纵定义和衡量取得了一些进展,但仍然存在许多差距。在缺乏共识定义和可靠测量工具的情况下,我们无法排除人工智能系统学会操纵人类的可能性。我们认为这种操纵对人类的自主权构成了重大威胁,因此建议采取预防性措施来减轻它的影响。

论文链接:http://arxiv.org/pdf/2303.09387v1

更多计算机论文:http://cspaper.cn/

Related posts