7月10日消息,随着生成式人工智能(AI)技术的持续发展,其应用场景已从简单的问答拓展至更为复杂的任务领域。然而,对于缺乏技术背景的普通用户而言,如何高效、准确地使用这些先进的AI工具,正变得越来越具挑战性。
近期一份独立报告显示,微软AI部门收到的用户反馈中,最常见的投诉是”Copilot不如ChatGPT好用”。针对这一问题,微软迅速作出回应,将责任归因于用户的”提示词工程能力不足”。为提升用户体验,微软特别推出了”Copilot学院”项目,旨在帮助用户提高使用AI工具的能力。
值得注意的是,麻省理工学院(MIT)的一项最新研究表明,微软将问题归咎于用户提示词能力的解释或许并不完全无据可循。
该研究指出,在医疗领域使用AI工具时存在潜在风险。更令人担忧的是,如果用户的提问中出现拼写错误(如单词拼写错误或额外空格),AI系统可能会因此建议用户无需就医。此外,使用过于随意的语言或俚语也可能导致AI产生错误的判断。
研究发现,在所有测试对象中,女性用户比男性更易受到此类错误建议的影响,不过这一结论仍需要进一步的研究验证。
此次研究涵盖了多款主流AI工具,包括OpenAI的GPT-4、Meta的LLaMA-3-70B,以及专门用于医疗领域的AI系统Palmyra-Med。研究人员通过模拟数千个真实医疗案例进行测试,这些案例的数据来源包括真实的患者投诉记录、Reddit平台上的健康相关帖子,以及AI生成的虚拟病例。
为了验证AI系统的稳定性,研究团队在输入数据中故意加入了各种”扰动因素”,例如不规范的标点符号使用、句子首字母大小写不一致、感叹号的过度使用、情绪化语言,以及包含不确定性词汇(如”可能”、”大概”)等。结果显示,在这些干扰因素的影响下,AI系统建议用户”无需就医”的概率增加了7%到9%。
研究负责人、MIT研究员阿比尼塔·古拉巴蒂娜(Abinitha Gourabathina)指出:”这些模型通常是在标准化的医学考试题目上进行训练和测试,但实际应用场景却大相径庭。比如在评估真实的临床病例严重性时,这些模型的表现就可能差强人意。我们对大语言模型在医疗领域的理解仍然非常有限。”
这项研究结果引发了人们对AI技术在医疗领域应用的广泛担忧。值得注意的是,就在不久前,微软刚刚宣布其新推出的AI医疗工具”准确率是人类医生的4倍,成本却低20%”,微软AI首席执行官甚至称其为”迈向医疗超级智能的重要一步”。
然而,这项最新研究再次提醒我们,尽管生成式AI技术发展迅速,在医疗等高度专业和复杂的领域,距离真正可靠的应用仍然有相当长的距离。在新技术投入实际使用之前,必须进行更严格的验证和审慎评估。