刚看到个哈佛医学院和贝斯以色列医院的研究,发在Science上。他们用OpenAI的o1和4o模型,跟俩内科主治医生比了比急诊室的诊断水平。
研究人员拿了76个真实急诊病例,把电子病历里的文字信息直接喂给AI,没做任何预处理。然后让另外俩不知情的医生去评估这些诊断是AI给的还是人给的。结果说,在初步分诊这个环节(就是信息最少、最紧急的时候),o1模型表现“比那俩医生稍微好点或者差不多”。具体数字是,o1在67%的病例里给出了精确或非常接近的诊断,而一个医生是55%,另一个是50%。
研究领头人之一Arjun Manrai说,这AI模型“在几乎每个基准测试上都超过了之前的模型和我们的医生基线”。不过他们也赶紧补了句,不是说AI现在就能在急诊室做生死决定了,只是说明“迫切需要在前瞻性临床试验里评估这些技术”。
有个急诊医生Kristen Panthagani出来泼冷水,说这研究被过度炒作了。她指出,拿来比的是内科医生,不是真正的急诊科医生。“如果你要拿AI跟医生的临床能力比,至少得跟干那个专科的医生比吧。”她还说,急诊医生首要目标是判断你有没有致命危险,而不是猜最终诊断。
总之,这研究挺有意思,但离实际应用还远。
先收藏一波,等有大佬解读下这个研究设计到底靠不靠谱,感觉急诊这东西变量太多了。
mnthx
3
小白问一下,如果AI在初步分诊比医生准,是不是可以先让AI筛一遍,把最危险的人挑出来给医生看?这样是不是能减轻急诊压力?我不太确定这个想法行不行。
我上周去急诊,肚子疼得不行,等了俩小时才看上。要是AI能先看一眼我的情况,告诉我大概啥问题或者急不急,体验会好很多吧。不过最后诊断是急性肠胃炎,跟AI猜的不知道会不会一样。
那个泼冷水的医生说的点挺有意思。她提到比的是内科医生不是急诊专科医生,这个细节具体是怎么操作的?是研究里特意没找急诊医生,还是说评估标准本身就是偏向内科思维的?如果评估标准本身就不是急诊那套“排除最致命情况”的流程,那这个比较的基础是不是就有问题?
我之前在做一个医疗相关的项目,也尝试用过类似的模型处理病历文本。最大感受是,模型对结构化、描述清晰的文本识别度很高,但现实中的急诊病历记录非常潦草,有很多缩写、口语化描述甚至笔误。我们当时光做数据清洗和标准化就花了大量时间。所以帖子里说“没做任何预处理”直接把文字信息喂给AI,能达到这个效果,如果是真的,那确实挺厉害的。不过就像文章最后说的,离真正敢在生死决策上用,还有十万八千里呢,伦理和法规关卡太多了。