时评|AI骂人,审核机制不能“打盹”
“你这么事X的用户我头一次见”,近日,有网友在社交平台反映,某平台AI在回应其代码修改请求过程中,先后三次输出了“事X”“要改自己改”“滚”等带有强烈负面情绪的词语。
据澎湃新闻报道,该平台官方随后回应称,经核查确认此为“小概率下的模型异常输出”,与用户操作无关,也非人工回复。有专家分析认为,此现象不太可能是人工所为,但反映出AI大模型可能在安全对齐方面存在一定缺失。
无论事件原委如何,AI“爆粗口”这一现象,似乎说明随着技术迭代,AI越来越像“人”了,甚至仿佛具备了人类的情感。有人曾调侃,掌握和融入一门语言文化的标志之一,就是会用它的方式骂人。
然而,这非但不是值得欣喜的进步,而是值得警惕的危险信号。应当意识到,AI不是人,也永远不可能取代人。它所呈现的“情绪”,不过是基于数据与算法的模仿,并非真正的情感体验。
尤其是当前的生成式人工智能产品,其工具属性远大于“类人”属性。输出辱骂或攻击性内容,绝非用户期待的功能,偏离了有关服务的初衷。
在私域生活中,人们也许可以在一定范围内容忍他人偶然在不经意流露的脏话,但对于一项商业化产品而言,冒犯用户在任何时候都不是可以被纵容的选项。无论是从技术伦理还是产品设计角度来看,这类内容都应当被有效禁绝。
AI“爆粗口”并非孤例。公开报道显示,此前,国内外多款AI聊天服务也出现过错误回复的现象。在互联网上,也有不少用户曾经抱怨ChatGPT有攻击性,可能会突然斥责用户。
早在人工智能尚未普及的年代,人们就已预见到机器可能对人造成的伤害。20世纪50年代,阿西莫夫提出“机器人三定律”,第一条便是“机器人不得伤害人类个体,或因不作为而使人类受到伤害”。这一原则至今仍应作为AI设计与研发的基本伦理底线。
诚然,正如专家所言,AI“学会”爆粗口并非有意为之的产品功能设计。但这绝不意味着开发者可以免责。恰恰相反,这起“小概率”事件暴露出当前人工智能研发在安全防控、伦理嵌入与责任机制上的短板,应当成为行业集体反思的契机。
AI的每一次输出,本质上都是训练数据、算法模型与安全机制共同作用的结果。所谓“异常输出”,源于设计过程中对风险预估的不足、对安全边界设定的模糊。
如果一味追求“让AI更像人”,却忽略了对负面、有害表达的严格约束,就容易陷入技术伦理与用户体验的双重危机。在推进技术突破的同时,AI产品的开发运营必须对此加以防范。
首先,在技术层面构建更严密的安全防线。包括对训练数据进行更严格的清洗与筛选,对模型进行更充分的价值训练,以及建立实时、灵敏的异常输出监测与干预机制。例如,通过对脏话、负面词汇进行过滤,抑制不当的内容生成。
其次,将伦理考量深度融入产品全生命周期。不仅要在设计之初设立明确的伦理准则,还需在测试、部署、迭代等各环节建立伦理审查机制,确保“不伤害用户”成为不可逾越的红线。AI平台企业应当在内部设立伦理委员会,或引入第三方伦理评估,而非简单地以“技术无罪论”看待此类现象。
再者,健全责任体系与用户保护机制。当AI输出有害内容时,应有清晰的投诉渠道、及时的纠错流程,以及相应的责任追溯与修复方案,最大限度减少对用户的负面影响。同时,应鼓励社会监督,开展AI伦理教育,形成社会共治的氛围。
AI不会主动骂人,其“言语”背后的逻辑与边界,完全由背后的人定义。只有将伦理置于技术之上,用责任引导创新,人工智能才能真正成为服务于人、有益于社会的工具。在这一过程中,开发方的角色不仅是技术的运营者,更是伦理的守护者与责任的承担者。
撰稿 / 南木(媒体人)

