코인정보

报告:DeepSeek美国医师执照考试成绩稍逊ChatGPT

陈姗娜 记者 2025-02-05 10:33
一项研究显示,中国生成式人工智能(AI)深度求索(DeepSeek)在美国医师执照考试中的表现逊于美国生成式AI ChatGPT。

上月底公开的DeepSeek声称,在数学等高级智力任务中的实力与ChatGPT相当或略胜一筹,同时开发和运营成本远低于ChatGPT,但此次研究结果却与之相反。

医师执照考试通常会给出特定患者案例,要求考生进行诊断和治疗措施的判断。由于需要逻辑应用复杂的医学知识得出结论,因此经常用作衡量高级AI能力的标准。此次测试使用美国医师执照考试选择题数据库MedQA中的儿科题目。

据AI业界5日消息,意大利万维泰利大学研究团队在受控环境下,让DeepSeek R1和ChatGPT o1模型解答美国医师执照考试的500道选择题,并以论文形式公开结果。

在该测试中,DeepSeek R1在500分满分中获得435分,正确率87%,而ChatGPT o1获得464分(92.8%)。ChatGPT的正确率比DeepSeek高出约5个百分点。

这两款AI都是专注高级推理的产品,采用按照逻辑步骤整理结论的思维链(CoT)方式,相较仅考虑语言相互关联和上下文关系的语言AI,回答的准确性和可靠性更高。

研究团队根据测试结果分析称,DeepSeek和ChatGPT各自擅长的领域有所不同。实际上,两款AI都答错的题目仅有14道,但ChatGPT答对而DeepSeek答错的题目多达51道,ChatGPT答错而DeepSeek答对的题目有22道。

研究团队解释称,作为临床辅助工具,ChatGPT在最小化诊断错误方面表现更佳,特别是在新生儿治疗等紧急情况下,ChatGPT是更好的选择;而DeepSeek的优势同样明显,正确率与ChatGPT差距不大,并且作为免费开源软件,具有经济性和灵活性,在资源匮乏的环境中也能发挥重要作用。

研究团队指出,两款AI差异明显,因此可以考虑采用整合方法结合使用ChatGPT和DeepSeek。在需要最小化错误风险的敏感领域使用ChatGPT,而在难度相对较低且需要持续运营的领域使用DeepSeek,这种思路是可行的。

DeepSeek近期引发市场对ChatGPT和谷歌Gemini等主要AI可能快速遭到替代的担忧,并导致美国和韩国股市大幅波动。受DeepSeek冲击影响,全球最大AI芯片制造企业英伟达上月27日单日股价暴跌17%,市值蒸发约5900亿美元,创下美国上市公司单日市值损失纪录。
 
【图片来源 韩联社】
【图片来源 韩联社】

《 亚洲日报 》 所有作品受版权保护,未经授权,禁止转载。

相关新闻