人工智能何时能颠覆医疗界?

人工智能和机器学习被预言为下一代工业革命的一部分,在接下来的十年中,它们能为商业和工业节省亿万美元。

科技巨头谷歌(Google)、脸书网(Facebook)、苹果(Apple)、IBM以及其他公司正在把人工智能应用到各种各样的数据中。

机器学习技术被应用于语言实时翻译等领域,甚至被用来在线识别猫的图像。

那么,为什么工智能还没有被如此广泛地应用于医疗领域呢?

放射科医生仍然依靠观察核磁共振(MRI)影像或X光片来诊断疾病,尽管IBM和其他公司致力于解决这个问题,但医生仍然不能通过AI(人工智能)来引导或帮助他们诊断疾病。

机器学习技术面临的挑战

机器学习技术已经存在了几十年,最近出现的“深度学习”技术也在不断推动人工智能前进。深度学习网络是由类神经元单元组成的层状结构,它可以识别出数据中的模型。

这个过程通过以下方式完成:反复将数据和正确答案输入网络,直到其内部参数——连接到人工神经元的权重——被优化。如果训练数据来自于现实生活,网络可以很好地归纳总结,当输入新数据的时候,它也能给出正确答案。

因此,学习阶段需要大量多种情况下的数据库以及相应的答案。要升级网络的参数需要数百万的记录和数十亿的计算,这些通常要在超级计算机上完成,耗时几天或几周。

这就是其尚不能在医疗上应用的原因:数据库样本还不够庞大以及用于学习的正确答案是不明确的甚至是未知的。

我们需要更好、更大的数据库

人类身体的功能——解剖学特性和变异性是非常复杂的。同时,由基因调节或引起的疾病会提高其复杂性,这对每个人来说都是独一无二的且难以通过训练而改善。

另外,医疗数据方面也存在着问题,因为要精准地测量生物过程而不引入多余的变化是非常困难的。

其他困难还有在一个病人身上存在着多种疾病(即共病)会混淆预测。生活方式和环境因素也起了重要作用,但这些数据却很难获得。结果就是我们需要非常庞大的医疗数据库。

随着全世界的研究越来越多,这一问题逐步得以解决。例如英国的“生物银行”准备扫描100,000名参与者。

其它的还有美国的“阿兹海默病神经影像学计划”(ADNI)和 “澳大利亚老年人影像学、生物标记和生活方式研究组织”(AIBL),十几年来他们已跟踪一千多名受试者。

政府也开始成立一些项目,例如“美国癌症登月计划”(American Cancer Moonshot)。其目标是建立国家癌症数据生态系统,因此研究人员、医生和病人可以在“促进有效的数据分析”原则的指导下提供数据。同样,“澳大利亚基因组健康联盟”(Australian Genomics Health Alliance)致力于汇集并分享基因组信息。

最终,部署在全世界的电子病例系统可以提供广泛的高质量数据库。除了实现预期的效率提高,使用机器学习技术挖掘大量人口的临床数据的潜力是也巨大的。一些公司(如谷歌)迫切希望获取这些数据。

机器需要学习什么还不明确

复杂的医疗决策通常是由专家团队达成一致意见后给出的,而不是一件确定的事。

当扫描结果含有模糊区域或只能观察到非常细微的特征的时候,在解释疾病方面放射科医生之间可能会有不同意见。从含有误差的检验结果中得出诊断,或者疾病由未知的基因调控时,往往依赖于隐性知识和经验而不是明确的事实。

甚至有时,正确的答案根本无法获得。例如,无法通过脑部核磁共振测量某个结构的尺寸,甚至通过解剖尸体也不行,因为尸体组织的结构和尺寸在死后会发生改变。

因此机器可以知道照片中包含一只猫是因为用户通过社交平台已经确定地标记过成千上万张图片,或者告诉了谷歌如何识别涂鸦。

通过核磁共振的方式测量大脑结构的尺寸是一项更加困难的任务,因为没有人知道答案,只有几位专家的共同意见组合在一起才是最佳结果,而且花费巨大。

为了解决这个难题出现了一些新技术。包含概率论(如贝叶斯定理)的数学模型可以根据不确定性学习。

无监督方法可以在不需要知道真实答案的条件下识别数据中的模型,但解释结果却不一定正确。

另一种方法是迁移学习,也就是说,机器可以学习大量的、不同的但是具有相关性的数据库,但训练的答案是已知的。

深度学习在医学上的应用已经非常成功。在一些科学会议上,利用各项技术对公布的数据库进行处理,并在会议期间发布对提交结果的评估报告,深度学习技术总是能获得第一名。

在澳大利亚联邦科学与工业研究组织(CSIRO)我们已经研发了CapAIBL(来自AIBL的PET结果计算分析技术)来分析脑部正电子发射型计算机断层显像(PET)获得的3D图像。

利用包含许多正常人和阿兹海默病人的扫描结果的数据库,这种方法可以学习该病的特征。之后,它就可以在新的病人扫描结果中识别出该特征。生成的临床报告可以帮助医生更加快速、可靠地诊断疾病。

使用机器学习技术的自动图像分析功能可以把一个通过正电子发射型计算机断层显像(PET)得到的3D图像

自动量化成定量的报告显示。当医生诊断病人时可以当作参考。(图片来源:CSIRO,作者提供)

在上例中,CapAIBL技术被应用于识别阿兹海默病人扫描图像中的淀粉样蛋白斑。红色表示大脑中淀粉样蛋白沉积增多——这是阿兹海默病的征兆。

因果关系的问题

也许最困难的地方是理解因果关系。分析以前的数据容易导致学习到伪相关性而漏掉了疾病或治疗效果的根本原因。传统上,随机临床试验提供的证据在不同个体的选择上具有优势,但它们还没有受益于人工智能的潜力。

在未来,新的设计(如临床试验平台)可能会解决这个问题,并且可以为机器学习技术学习证据而不只是联系做好准备。
人们正在构建庞大的医学数据库,发展能够克服缺乏确定性结果的技术,寻找建立因果联系的新方法。

该领域发展很快,而且在提升效率和医疗卫生水平方面存在巨大的潜力。事实上很多企业正在试图将这一领域商业化。创业公司(如Enlitic)、大型公司(如IBM)甚至小型企业(如Resonance Health)都许诺要变革医疗卫生领域。我们已经取得了显著的成果,但前方依然充满挑战。

翻译:么宇辉;审校:杨玉洁


注:所有文章均由中国数字科技馆合作单位或个人授权发布,转载请注明出处。