【Demo发布】A Med-VQA | 医学视觉问答
Demo小さな仕事にも意味を持たせたいなあ~
Demo发布地址
如果你并不关心这个Demo背后无聊的原理和故事,那就直接点击体验吧~
网址嵌入版
一点启发
先向Coolwuf大神致敬(瑞思拜),其实最早还要追溯到去年5月份刷到的一个差评君视频:
前言
当时还是个头铁娃,拿两张实验室的TitanXP跑几十个G的自然图像数据集跑个模型跑了三天三夜的我看了这个视频之后大为震撼,发现自然图像下的QA对话模型都是一些类似”小儿看图说话”那样的弱智问答,哪怕把点摁train上去了也毫无意义,在AI真正具备自主能力和世界连接的能力之前,传统VQA的落地似乎还比较遥远并且没有十分的必要。
于是,我就把目光转向了医疗图像领域,一是数据集比较小,比较适合我这种仅有一点辣鸡算力资源的Ai学生贫农去玩。其次就是正如差评君的视频所说,好的医生的诊断经验其实非常宝贵,而好的医生学者不但培养周期长,工作服务时间有限,而且往往集中与大城市的三甲医院或者高校,普通老百姓往往难以获得这样的诊断机会,或许一不小心就会耽误了救治的最佳时机,成为一家之”痛”,所以做一个哪怕只能帮助人们做做疾病预警和问答的Ai也或许有那么一些些意义(传说中的自我感觉良好~)
研究背景
Med-VQA是最近才兴起的一个小领域,主要是想通过AI模型学习各科医生的宝贵诊疗经验,帮助使用者随时都可以了解自己的身体情况以及及时预防和降低风险。在最近的研究中,医学 VQA 被分配给几个“工作”。第一个是诊断放射科医生,它充当参考医生的专家顾问。工作量研究表明,平均放射科医生必须在3到4秒内解释一个CT或MRI图像。除了成像研究的长队列外,放射科医生还必须回答医生和患者每天27个电话的平均值,从而导致工作流程的进一步低效和中断。医学 VQA 系统可以潜在地回答医生的问题,并有助于减轻医疗保健系统的负担并提高医疗专业人员的效率。与 VQA 优势相匹配的另一个应用是作为检查的病理学家身体组织并帮助其他医疗保健提供者进行诊断。
除了健康专业角色外,医疗 VQA 系统还可以作为知识渊博的助手。例如,VQA 系统的“第二意见”可以支持临床医生解释医学图像的意见,同时降低误诊的风险
最终,成熟完整的医学 VQA 系统可以直接审查患者的图像并回答任何类型的问题。在某些情况下,例如无法获得医疗专业人员的完全自动化健康检查,VQA 系统可以提供等效的咨询。在医院就诊后,患者在线搜索更多信息。来自搜索引擎的不规则和误导性信息可能会导致答案不合适。或者,医学 VQA 可以集成到在线咨询系统中,随时随地提供可靠的答案。
挑战
由于以下因素,医学 VQA 在技术上比一般领域 VQA 更具挑战性。首先,创建大规模的医学 VQA 数据集具有挑战性,因为专家注释因其对专业知识的高要求而昂贵,并且 QA 对不能直接从图像中合成生成。其次,根据医学图像回答问题也需要 VQA 模型的具体设计。该任务还需要关注细粒度的尺度,因为病变是微观的。因此,可能需要分割技术来精确定位感兴趣的区域。最后,一个医学问题可能是非常专业的,这需要模型使用医学知识库而不是通用语言进行训练。
爆肝神曲
僕らの手に何もないけ、この歌僕にとってとても深い意味がある。
相关
科研记录
一些主流的模型、方法、数据集介绍以及踩坑路。。。。。。
Demo介绍
Q:这个Demo是什么?有什么用?可以做一些什么?
这个Demo背后是一个医学视觉问答模型,能够帮助非专业的人去看或者看懂一些医学图像。
(注:Demo尚且在测试和收集数据阶段,提供的答案仅具有参考意义,AI目前不承担法律责任,望周知!)
由于标注成本高,公开数据集十分匮乏,目前仅支持头部MRI、CT、chest-Xray这三类图像并且仅支持英文(可输入中文,后台代码会协助翻译,但准确性会有所下降),问题类型可以参考样例,问一些关于图像中数目(COUNT)、颜色(COLOR)、器官(Organ)、模态(Modality)等如下图所示的问题类型:
数据集相关
目前使用的数据集有:
领域 | 数据集 | 状态 |
---|---|---|
放射学 | MED-RAD、SLAKE | 已上线 |
病理学 | PathVQA | 准备中 |
放射学(Med-RAD)数据样例:
病理学数据:
模型相关
科研记录
(具体的使用到的方法和idea待日后再补充)
模型评估
测试集准确率
在Med-RAD下的准确率以及和主流模型对比:
Methods | Open | Closed | ALL |
---|---|---|---|
MAML-AE -SAN | 40.7% | 74.1% | 60.8% |
MAML-AE -BAN | 43.9% | 75.1% | 62.7% |
MAML-AE -CMSA | 43.9% | 75.1% | 62.6% |
MTPT-BAN | 56.1% | 75.7% | 67.9% |
MTPT-CMSA | 56.1% | 77.3% | 68.8% |
CMAE-CMSA(Ours) | 65.4% | 77.6% | 72.7% |
CMAE-SAN(contrast) | 53.6% | 75.7% | 67.0% |
CMAE-BAN(contrast) | 52.0% | 78.0% | 68.3% |
在SLAKE下的准确率以及和主流模型对比:
Methods | Open | Closed | ALL |
---|---|---|---|
MEVF-SAN | 72.9& | 77.6% | 74.7% |
MEVF-BAN | 75.0% | 76.4% | 75.6% |
MEVF-CMSA | 75.8% | 81.5% | 78.0% |
CMAE-CMSA(Ours) | 76.0% | 81.7% | 78.2% |
CMAE-SAN(contrast) | 74.9% | 82.0% | 77.7% |
CMAE-BAN(contrast) | 76.3% | 78.6% | 77.2% |
虽然在数据集上的直观表现不错(水论文警告),但由于仅仅看了一千多张图片和训练了一万多的问答对,模型泛化能力依然有限。
BLEU
混淆矩阵
CLOSE封闭式问答:
OPEN开放式问答:
横纵坐标为测试集中的127个开放式回答label
(从对角线与非对角线的热力差可以看出这个模型在预测时的实际表现还是不错的)
ROC曲线
CLOSE:
(由于模型非概率输出,此曲线和AUC值仅代表理想性能)
一点心愿
这个小小的QA模型饱含了我整个研究生时期的心血和汗水,其中做过的选择,冒过的险,踩过的坑,经历过的无奈,熬过的夜,掉过的头发估计连自己也数不清楚了,希望自己这些年那些微不足道的想法和细碎的科研真的能够切实帮助到一些有需要的人,如此便好~
也谢谢您能看到这里,ありがとうございました!
——Manatu撰写于2023年3月29日 | 「今年の誕生日前に、この世界にプレゼントを捧げたい」