摘 要: | 波斯特洛姆、尤德科夫斯基、索勒斯等人将人工智能的伦理风险主要归因于目标正交、价值观加载困难、工具子目标趋同、能力增强等几个方面。我们从义务论、功利主义、美德伦理学三个主流伦理理论出发,针对智能伦理中面临的几个主要技术难题及代表性解决方案展开分析,考察其优势与缺陷。从义务论出发,总有些隐藏的微妙细节是事先难以预料的,存在可能被利用的漏洞,并且很难确保伦理准则的语义足够精确;功利主义在人工智能领域的典型代表是强化学习,强化学习的框架无法回避目标正交、价值观加载困难、工具子目标趋同等难题;如果单纯依靠美德伦理学,不仅不能提供正确行动的判别标准,各种美德的语义定义也是模糊的。虽然三个理论各有各的困难,但有希望整合出一条综合性的解决路径,用义务论的伦理准则约束智能体的行动空间,借助美德伦理学弥补功利主义的不足,采用"合作逆强化学习"的方法加载相对可靠的价值观,在确保不损失太多智能的情况下依然能够与人的行为保持一致,从而在最大程度上降低伦理风险。
|