从AI系统中表征操纵

操纵是许多领域的普遍关注，例如社交媒体、广告和聊天机器人。随着人工智能系统在我们与世界互动的过程中发挥越来越大的作用，了解人工智能系统可能\textbf{在没有系统设计者的意图下}操纵人类的程度至关重要。我们的工作澄清了在人工智能系统环境下定义和衡量操纵的挑战。首先，我们借鉴其他领域关于操纵的文献，描述了可能的操纵概念空间，我们发现这些概念受到激励、意图、伤害和隐秘性等概念的影响。我们对如何操作化每个因素的提议进行了评估。其次，我们提出了一种基于我们描述的操纵特征的定义：如果一个系统行为表现得像在秘密地、有意地改变人类（或其他代理）以追求激励，那么这个系统就是具有操纵性质的。第三，我们讨论了操纵与欺骗、强制等相关概念的联系。最后，我们将操纵操作的上下文放在了一些应用中。我们的总体评估是，虽然人工智能系统的操纵定义和衡量取得了一些进展，但仍然存在许多差距。在缺乏共识定义和可靠测量工具的情况下，我们无法排除人工智能系统学会操纵人类的可能性。我们认为这种操纵对人类的自主权构成了重大威胁，因此建议采取预防性措施来减轻它的影响。

论文链接：http://arxiv.org/pdf/2303.09387v1

更多计算机论文：http://cspaper.cn/

Related posts

字符串上子句的等式定理证明 Equational Theorem Proving for Clauses over Strings

字符串上子句的等式定理证明 Equational Theorem Proving for Clauses over Strings

Agda中系统T的强正规化定理的形式证明 A Formal Proof of the Strong Normalization Theorem for System T in Agda

Agda中系统T的强正规化定理的形式证明 A Formal Proof of the Strong Normalization Theorem for System T in Agda

关于对偶连接和统计流形的扭转/曲率相似 On a Torsion/Curvature Analogue of Dual Connections and Statistical Manifolds

关于对偶连接和统计流形的扭转/曲率相似 On a Torsion/Curvature Analogue of Dual Connections and Statistical Manifolds