健康头条新闻健康平台登录电脑健康助手下载
信息来源:互联网 发布时间:2024-03-10
思索到人体的庞大性,开展精确适用的医学数字孪生手艺需求汇总多组学数据、心理传感器数据、临床信息和社会生齿学数据(sociodemographic data)等
思索到人体的庞大性,开展精确适用的医学数字孪生手艺需求汇总多组学数据、心理传感器数据、临床信息和社会生齿学数据(sociodemographic data)等。这需求大众卫生系统、研讨职员和各种企业之间的普遍协作,如瑞典数字孪生同盟(Digital Twins Consortium)。美国临床肿瘤学会(American Societyof Clinical Oncology)经由过程其子公司 CancerLinQ 开辟了一个能够经由过程癌症患者数据,指点并改进医治计划的平台。因而开辟具有从多模态数据中停止有用进修并停止及时猜测的 AI 模子相当主要。
临床实验中针对患者须要的招募和跟进相当主要但仍旧是一个应战。在这类状况下安康平台登录,人们逐步偏向于利用分解比较办法(synthetic control methods),即利用内部数据完成比较。虽然分解比较实验仍相对新奇,但 FDA 曾经按照汗青比较核准了一些药物,并利用实践发生的数据开辟了一个框架。操纵来自多模态数据的 AI 模子能够有助于辨认或天生最优化的分解比较组。
多模态医疗 AI 在医疗安康范畴已有很多使用,除此地方述以外,还存在很多其他机缘。药物研讨(drug discovery )范畴就是一个相干的例子,很多使命能够操纵多纬度数据,包罗靶点审定和考证、药物互相感化猜测和副感化猜测等。固然我们处理了利用多模态AI 的很多主要应战,但本综述范畴以外的其他应战一样主要,包罗假阳性和临床大夫应怎样了解模子和向患者注释其面对的风险。
多模态模子架构在其他方面也面对主要应战。如关于三维成像数据,即便仅利用单个工夫点的模子也需求较高的计较才能,因而大范围组学和文本数据模子是对完成大范围并行计较才能的应战。虽然多模态进修在已往几年中开展疾速,但是据我们猜测现有的办法其实不敷以克制上述一切应战。因而,将来仍需不竭立异以利用高效的多模态野生智能模子。
除办理慢性或退行性疾病外,多模态长途患者监测(multimodal remote patient monitoring)也可用于急性疾病。MayoClinic 近来展开的项目展现了长途监测 COVID-19 患者的可行性和宁静性。家中病院使用的长途患者监测还没有获得考证,其需求将基于多模态 AI 的长途监控形式与住院医治形式停止随机比较实验,以证明其宁静性。我们需求可以意料随时恶化的病情并停止体系性干涉,而这些尚没法完成。
来自可穿着手艺的数据(包罗心率、就寝、身材举动、心电图、氧饱和度和血糖监测)和智妙手机自立问卷可用于监测临床实验患者、辨认不良变乱和肯定实验成果。别的,近来的研讨夸大了来自可穿着传感器的数据在猜测尝试室成果方面的潜能。因而,引入了数字装备的研讨在已往几年疾速增加,复合年增加率约为34%。这些研讨大多利用来自单个可穿着装备的数据。一项创始性的实验利用了“创可贴” ——用于检测心房颤抖的贴片传感器;长途注册的意愿者能够经由过程邮寄方法收到实验传感器,而无需前去线下实验点,这为数字化临床实验奠基了根底。在新冠肺炎疫情时期展开了很多利用可穿着装备检测新冠病毒的长途实验。
在这类情况下,可穿着传感器在长途患者监护中阐扬着相当主要的感化。相似智能腕表或手环等可以精确丈量多种心理目标的平价非侵入性装备大批呈现。将这些数据与来自 EHR 的数据分离起来——利用诸如快速医疗互操纵性资本(Fast Healthcare Interoperability Resources)等尺度,来查询患者潜伏疾病风险信息,可觉得患者和照顾护士职员缔造愈加本性化的长途监控形式。情况无线传感器也能够搜集有代价的数据。情况传感器是情况集成装备,如房间、墙壁或镜子,次要情势为摄像机、麦克风、深度摄像机和无线电旌旗灯号等。这些情况传感器能够会改良家庭和医疗机构的长途照顾护士体系。
在多维根底安康数据的搜集、链接和正文方面仍存在普遍的应战。医学数据集能够从多个纬度停止形貌,包罗样本量、测序深度、随访工夫和距离、被试之间的交互水平、样本的异质性和多样性、数据的尺度化和整合程度和数据源之间的联系关系性。虽然跟着科技的前进,我们在搜集数据和表性阐发方面获得了长足停顿,但生物医学数据集的特性之间不成制止地存在衡量弃取。比方,在大大都状况下需求几十万以至数百万的样本量来锻炼 AI 模子(特别是多模态 AI 模子),但随之大批样本的深度测序和持久纵向阐发使得本钱疾速上升。除非接纳主动化的数据搜集办法,不然在经费上难以保持。
鉴于这些应战,曾经提出并探究了多种手艺处理计划,以确保在锻炼多模态 AI 模子时的宁静性和隐私性,包罗差分隐私(differential privacy)、结合进修(federated learning)、同态加密(homomorphic encryption)和群进修(swarm learning)。差分隐私提出了对数据停止体系的随机扰动,终极目的是在连结数据集的全局散布的同时恍惚个别级此外信息。正如预期的那样,这类办法到达了庇护隐私和模子预期机能之间的衡量。另外一方面,结合进修许可多个个别研讨者或安康机构在不传输原始数据的状况下配合锻炼模子的体系。在这类办法中,可托的中心效劳器将模子分发给每一个终端;然后,在终端对模子停止必然次数的迭代锻炼,并将模子更新同享回授给可托的中心效劳器。最初,可托的中心效劳器整合来自一切终真个模子更新并开端新一轮锻炼。多模态结合进修已在多机构协作中施行,用于猜测 COVID-19 患者的临床成果。同态加密是一种加密手艺,它许可对加密的输入数据停止数学运算,因而能够同享模子权重而不保守信息。最初,群进修是一种相对新奇的办法,与结合进修相似,它也基于数个终端在当地数据上锻炼模子,但利用区块链智能合约替代可托的中心效劳器。
随机临床实验是临床中针对新的诊断、预后和医治干涉步伐,研讨其因果干系并供给证据撑持的金尺度。不幸的是,方案和施行高质量的临床实验不只耗时(凡是需求许多年才气招募充足的意愿者并实时跟进实验),并且会发生昂扬的经济本钱。别的,天文、社会文明和经济差别会招致这些研讨中各组的代表性(representation)较弱。这会对成果的遍及性发生影响,并招致生物医学研讨中遍及存在的代表性不敷进一步加重了临床实验的差别。数字化临床实验能够经由过程削减意愿者注册和跟进的停滞,增进意愿者到场、优化实验丈量办法和干涉步伐,为克制上述限定供给史无前例的协助。同时,利用数字手艺能够优化意愿者供给信息的粒度,从而进步研讨的代价。
跟着手艺的开展,WGS 性价比逐步进步,增进了临床生物标记物数据与现有基因数据的分离,从而快速诊断从前难以检测的疾病。终极,我们等待有才能开辟包罗多组学数据的多模态野生智能东西,完成对个别停止深表型阐发(deep phenotyping);换句话说,真正理解每一个人的生物特同性和其对安康的影响。
瞻望将来,在野生智能模子中集成多个数据源将增进普遍存眷的本性化假造安康助手的开展。假造安康助手能够操纵基于基因组测序、其他组学、连续监测的血液生物标记物和代谢物、生物传感器和其他相干生物医学数据的本性化设置文件——以改进患者举动、回应安康征询成绩、病症分类或合时与医护职员相同。但主要的是,这些假造安康助手需求经由过程随机试考证实对临床成果的主动影响,以在医学范畴得到更加普遍的承认。因为这些使用法式中的大大都都偏重于供给更加安康的举动选项,因而它们需求供给这些挑选可以影响安康的证据,这是大大都干涉步伐胜利转化的终极路子。
多形式交融是一个整体观点,可使用随便架构完成。固然我们能够鉴戒一些生物医学范畴之外的AI影象事情;如 DALL-E 和 GLIDE等当代指导图象天生模子(Modern guided image generation models)凡是未来自差别模态的信息输入到统一个编码器中。这类办法在近来一项由 DeepMind 利用 Gato睁开的研讨中证实是胜利的,该研讨表白,毗连从文本、图象和按钮等创立的各类标签(token),可使模子进修施行多个差别的使命,范畴包罗从字幕图象、雅达利游戏到用机器臂堆叠积木(图2b)。主要的是,近来一项名为 Align Before Fuse 的研讨表白,在交融多模态数据之前先辈行配准,能够会鄙人游使命中有更好的表示,比方为图象创立文本阐明。Google Research 近来的一项研讨提出利用留意力瓶颈停止多模态交融,从而限定跨模态信息的活动以强迫模子跨模态同享最相干的信息,进而进步计较机能。
已往几年,超越三分之一的美国消耗者购置了智能音箱。但是,假造安康助手,便可觉得人们的安康需求供给倡议的数字野生智能管家,迄今为止还没有获得普遍开辟,今朝市场上的假造安康助手凡是仅使用于特定场景。别的,按照近来对安康类语音助手使用法式的综述研讨发明,此中大大都使用依靠于设定好的应对划定规矩和预先设定的法式主导的对话。
今朝,我们依托临床实验作为评价能否胜利干涉的最好证据。在100名被试中能够唯一10人胜利的步伐也会被以为是有用的,虽然其他90人的干涉成果没法证明有用。一种称为“数字孪生”的办法能够弥补常识的空缺。这类办法经由过程操纵大数据天生模子并精确猜测某种干涉对特定患者发生何种无益或有害的成果。
跟着生物传感器、连续性监测和阐发装备的开展,在家中模仿病院情况酿成了能够安康头条消息。这类非常具有远景的料想能够明显低落医疗本钱,削减对医疗职员的事情压力,制止病院传染和医疗变乱的发作,和与家人在一同的温馨、便利和感情撑持。
当前新冠肺炎疫情凸起了以国度和州为单元对传抱病停止有用监测的须要性。一些国度顺遂地整合了来自轨迹图、手机旌旗灯号和安康效劳数据的多模态数据,以猜测疫情传布并定位密接人群和能够的传染者。
将这些差别宏大的差别数据综合阐发仍具有应战。固然,克制这一应战有相当主要的意义,行将电子安康记载 (EHR) 和影象数据、组学数据的整合无望进一步增强我们对人类安康的了解,并完成精准、本性化的防备、诊断和订定医治战略。今朝曾经无数种办法将多组学数据整适用于精准医疗。比方图神经收集(Graph Neural Networks),这是处置计较图(一种经常使用的数据构造,包罗节点和边,别离暗示观点或实体和节点之间的毗连或干系)的深度进修模子架构——从而协助科学家注释多组学数据的联系关系合构,以进步模子的机能。另外一种办法是降维,包罗 PHATE 和 MultiscalePHATE 等新办法,它们能够在差别粒度下暗示生物和临床数据的低维暗示法,这些办法已在新冠肺炎疫情中被证实能够猜测临床预后。
今朝野生智能在医学中的大大都使用都是利用一种数据形式来处理小范畴内的使命,比方计较机断层 (CT) 扫描或视网膜照片。但临床大夫会综合多源、多模态的数据,停止诊断、预后评价和订定医治计划。别的,当前的 AI 评价凡是是基于施行评价时辰的瞬时判定,疏忽了身材形态的持续性。但是实际上,野生智能模子该当可以归入临床大夫可用的所无数据源,以至思索大夫没法利用的数据源(比方,大大都临床大夫对基因组医学理解不深)。多模态 AI 模子的开辟包罗跨模态的数据——如生物传感器、遗传学、表观遗传学、卵白质组学、微生物组学、代谢组学、图象数据、文本数据、临床信息、社会身分和情况数据等——无望部门补偿这一差异并完成个别化医疗、集成盛行病监测、数字临床实验安康头条消息、假造安康助手等使用(图 1)。本文我们讨论了这类多模态数据集在医疗安康中的使用;接着我们会商了面对的枢纽应战和有期望的战略。本文不会会商野生智能和机械进修的根本观点,但可拜见其他综述文章。
多模态进修中愈来愈多利用的办法是交融来自差别模态的数据,代替已往简朴地将几个模态数据别离输入到模子中的办法,以进步猜测机能——这类历程称为“多模态交融”(multimodal fusion)。差别数据模态的交融能够在差别阶段停止。最简朴的办法是在任那边理之前将输入数据的特性相干联,即晚期交融。这类办法固然简朴,但分歧用于很多庞大的数据模态。一种更精致的办法是在锻炼历程时期组合,配合进修这些差别模态的特性,许可特定模态的预处置后捕获模态间的穿插特性,即结合交融(joint fusion)。最初,另外一种办法是为每种模态锻炼零丁的模子并组合输出几率,即前期交融。这是一种简朴而妥当的办法,但价格是丧失了一切模态穿插信息。晚期的交融事情偏重于引入工夫序列模子,操纵来自构造化的协变量的信息来完成如猜测骨枢纽炎停顿和猜测脑瘫患者的手术预后等使命。作为交融的另外一个例子,DeepMind 的研讨职员利用包罗 620,000 个维度的高维 EHR 数据集,投影到只要 800 个维度的持续嵌入空间(continuous embedding space)中,在 6 小时的范畴内剖析患者信息,并成立了一个RNN模子来猜测随工夫推移的急性肾毁伤状况。很多研讨曾经能够利用双模态交融(bimodal fusion)来进步猜测机能。如交融影象学数据和基于 EHR 的数据以改进肺栓塞的检测,尝试表白结果优于单模态模子。另外一项双模态研讨交融了胸部 X 射线的成像特性与临床信息,进步了HIV患者结核病的诊断机能。也有将光学相关断层扫描和红外反射视盘成像相分离以猜测视野图的研讨报导。
开辟数据驱动的多模态使用法式的主要请求是搜集、收拾整顿具有表型和正文的数据集安康头条消息,由于不管何种庞大的手艺都只能从数据中得到信息。在已往 20 年中安康平台登录,很多国际研讨为增进精准医疗搜集了多模态数据(如表 1)。在英国,UK Biobank 于 2006 年开放注册,终极到场者超越 500,000人,并方案在注册后跟踪到场者最少 30 年。这个大型生物库从到场者处搜集了多方面的数据,包罗社会生齿学信息、糊口方法、物理丈量、生物样本、12导联心电图和EHR数据。别的,险些一切到场者都停止了全基因组阵列基因分型(genome-wide array genotyping),近来还停止了卵白质组、全外显子组测序和全基因组测序(WGS)。一部门人还承受了脑磁共振成像 (MRI)、心脏 MRI、腹部 MRI、颈动脉超声和双能 X 射线吸取测定(dual-energy X-ray absorptiometry),并包罗最少两个工夫点的反复成像。
完成跨种族/民族、血缘、支出程度、教诲程度、医疗保健效劳、年齿、残疾情况、天文地位、性别和性取向的多样性已被证明是险些不成完成的。基因组学研讨是一个明显的例子,绝大大都研讨都集合在欧洲血缘(European ancestry)的个别上。但是,生物医学数据集的多样性是相当主要的,由于这能够确保数据集对更普遍人群具有遍及性。除这些思索以外,多模态 AI 的一个须要步调是得当的将数据集合所无数据范例相毗连,由此发生了另外一个应战,即辨认个别身份的风险和羁系难度愈来愈大。
虽然今朝的假造安康助手大多不是基于多模态野生智能的狭义假造安康助手,今朝最受欢送的使用之一是糖尿病照顾护士助手。Verily(Alphabet) 的 Virta health、Accolade 和 Onduo 都开辟了旨在针对糖尿病掌握的使用法式,此中一些使用法式表白遵照这些法式的个别血红卵白 A1c 程度获得改进。此中很多公司曾经或正在扩大到其他使用处景,比方高血压和瘦削。假造安康助手也能够使用于偏头痛、哮喘和慢阻肺(COPD)等常见病。不幸的是,这些使用大都仅停止了小范围察看性测试,仍需包罗随机临床实验等深化研讨,来评价它们的好处。
多模态机械进修(也称为多模态进修)是机械进修的一个子范畴,中心是模子的开辟与锻炼,这些模子能够操纵多种差别范例的数据,并进修怎样将这些多模态数据联系关系或组合起来,以进步猜测机能。一种大有远景的办法是进修和差别模态数据类似的精确暗示(比方,苹果的图片可用单词“apple”相似地暗示)。2021 年头,OpenAI 公布了一种称为比照言语图象预锻炼 (Contrastive Language Image Pretraining, CLIP) 的架构,该架构在对数百万个“图象-文本对”停止锻炼时,无需微调参数,便可与具有合作力的全监视模子机能相媲美。CLIP 的灵感来自医学成像范畴开辟的一品种似办法,称为从文本中进修的比照视觉暗示 (Contrastive Visual Representation Learning from Text, ConVIRT)。利用ConVIRT,图象编码器和文本编码器被锻炼以经由过程进修准确配对的图象和文本示例的最大类似性和毛病配对示例的最小化类似性来天生图象和文本暗示——这称为比照进修。这类用于配对图象-文本协同进修的办法近来已被用于胸部 X 光片及其相干文本陈述的模子锻炼,成果优于其他自监视和全监视的办法。其他集成来自图象、音频和文本多模态数据的架构也连续被开辟宣布,如 Video-Audio-Text Transformer,它利用视频来得到配对的多模态图象、文本和音频,并锻炼精确的多模态暗示,可以在很多使命中停止有用泛化——比方辨认视频中的行动、对音频变乱停止分类、对图象停止分类和为输入文本挑选最适宜的视频。
2022年9月15日,来自哈佛医学院的Pranav Rajpurka传授及其团队给各人带来的题为“Multimodal biomedical AI”的文章,揭晓在《nature medicine》(IF=82.9)杂志上,文中提到了多模态生物医学野生智能,让我们一同来瞧一瞧吧。
数字孪生手艺是由工程学衍生的观点,其利用计较模子对庞大体系(比方,一座都会、一架飞机或一位患者)来开辟和测试差别的战略或办法,这会比在实践场景中停止测试更快、更划算。在医疗安康范畴,数字孪生手艺对药物靶点检测非常有远景。
来自多模态数据和传感器搜集的数据相整合使得长途监测患者形态的可行性大猛进步,而且有研讨证实多模态数据在这些场景中的潜力。比方,情况传感器(如深度摄像头和麦克风)与可穿着装备数据(丈量身材举动的加快率计)的分离能够进步颠仆检测体系的牢靠性,连结较低的误报率,并改进步态阐发机能。经由过程沐浴、穿衣和进食等一样平常举动赶早发明身材功用损伤关于供给实时的临床照顾护士十分主要,而操纵可穿着装备和情况传感器的多模态数据能够有助于对这些举动停止精确检测和分类。
多模态进修框架的另外一个幻想特征是可以在统一框架下进修差别模态的数据特性。幻想状况下,一个同一的多模态模子将包罗差别范例的数据(图象、生物传感器数据和构造化和非构造化文本数据等),以灵敏和稠密的方法对这些差别范例的数据信息停止编码(即特定使命与特定模块相对应),对跨模态的类似观点停止配准,如狗的图片和单词“狗”该当具有类似的模子内部暗示, 并按照需求供给随便模态的输出。
要充实阐扬集成多模态数据野生智能的假造安康助手的潜力,我们另有很长的路要走,包罗上面行将会商的手艺应战、数据应战和隐私应战。鉴于对话式 AI的快速开展,和日趋精巧的多模态进修办法的开展,我们等待数字安康使用将来与AI相分离,供给精准和本性化的安康指点。
在精准肿瘤学(Precision Oncology)和血汗管安康中曾经提出了利用AI东西整合来自多个滥觞的数据以开辟数字孪生模子的报导。今朝也有开源模块化的框架(open-source modular framework)来开辟使用于医学的数字孪生模子。从贸易角度来看,Unlearn.AI 开辟并测试了一种操纵差别的临床数据集构建数字孪生模子,来加强阿兹海默症和多发性软化症(multiple sclerosis)的临床实验。
来自卑型生物材料库(Biobanks)、电子安康记载(Electronic Health Record, EHR)、医学成像、可穿着和情况生物传感器的生物医学数据日趋增长,同时基因组和微生物组测序本钱愈来愈低,这些都为开辟多模态野生智能处理计划奠基了根底,进而对人类庞大的安康和疾病形态加以理解。在这一综述中,我们概述了现有的枢纽使用法式,和手艺和阐发面对的应战。也探究了在本性化医疗、数字临床实验、长途监测和照顾护士、盛行病学监测、数字孪生手艺和假造安康助手方面的机缘。别的,我们还调研了在数据、建模和隐私庇护等方面没法制止的艰难,以阐扬多模态野生智能在安康范畴的局部潜力。
Transformer框架的另外一个远景在于可以利用无标识表记标帜的数据,这在生物医学 AI 中相当主要,由于得到高质量标注所需的资本有限且高贵。上文提到的很多办法都需求来自差别模态的配对(aligned)数据如图象-文本对等。DeepMind 的一项研讨表白,办理更高质量的图象-文本数据集能够比天生大型单模态数据集和算法开辟和锻炼更主要。但是,这些配对数据在生物医学 AI中能够其实不简单得到。这一成绩的一种处理计划是操纵一个模态的数据来帮助与另外一个模态进修即一种多模态进修方法——“配合进修”(co-learning)。比方,一些研讨表白,在未标识表记标帜言语数据上预锻炼的Transformer模子能够很好地泛化到其他多种使命中。在医学范畴中,一种称为“CycleGANs”的模子架构,颠末非配对比照(unpaired contrast)和非比照(non-contrast) CT 扫描的锻炼,已被用于天生分解的非比照或比照 CT 扫描数据,这类办法在 COVID-19 诊断中获得改良。固然很有期望,这类办法还没有在生物医学情况中获得普遍测试,需求进一步探究。
在美国,安康保险畅通与义务法案 (HIPAA) 隐私划定规矩是庇护安康数据隐私的根本立法。可是,某些范例的安康数据——比方用户天生和去辨认化的安康数据——不在该法标准围内,这会经由过程组合来自多个滥觞的信息而带来从头辨认的风险。比拟之下,欧盟近来公布的通用数据庇护条例 (General Data Protection Regulation, GDPR) 对安康数据的界说范畴更广,以至超越了数据庇护范畴,还请求公布利用这些数据停止主动决议计划的相干信息。
原题目:Nature顶级子刊83分重磅综述!为你细数ChatGPT时期,野生智能在医学中的使用!
基因数据的本钱愈来愈低,且统一个别仅需一次检测,但仅基因组数据自己的猜测才能相对有限。将基因组学数据与其他组学数据相分离,能够捕捉更多及时静态的信息,理解工具遗传布景和情况表露的特定组合间的互相感化以评价持续可量化的安康情况(quantifiable continuum health status)。比方,Kellogg 等停止了个别多组学(N-of-1)研讨,停止全基因组测序 (WGS) 和其他组学(转录组、卵白质组、代谢组、抗体和临床生物标记物)的按期丈量;多基因风险评分红果能够提醒 II 型糖尿病的风险增长安康头条消息,而对其他组学数据的综合阐发可以晚期探测和分析从安康到疾病的变革中旌旗灯号传导收集的变革。
多模态野生智能在安康范畴的胜利开展依靠于数据的广度和深度,也面对着比单模态野生智能模子更高的隐私应战。比方,先前的研讨表白,只需操纵到场者的大批布景信息,敌手就可以够从头辨认那些在大型数据集(比方,Netflix 奖品数据集)中,发明有关小我私家的敏感信息。
DeepMind (Alphabet)的最新停顿,包罗 Perceiver和 Perceiver IO,提出了一个具有不异的骨干架构的跨模态进修框架。主要的是,Perceiver 架构的输入是与模态无关的(modality-agnostic)字节数组,经由过程留意力机制瓶颈限定来紧缩输入信息以免内存耗损,即限定信息流的架构特性为字节数组,迫使模子挑选数据中最相干的身分(图 2a)。处置输入数据后,Perceiver能够将表征馈送到终极的分类器层(classification layer)以得到每一个输出种别的几率,而Perceiver IO 能够经由过程指定Query向量(译注,Transformer模子中暗示查询向量,相似搜刮引擎输入的枢纽字)将这些信息解码为指定模态的输出,比方像素文件、原始音频和分类标签等。比方,除治愈的几率外,该模子还能够猜测脑肿瘤病发的影象数据。
跟着已往 20 年测序手艺的长足开展安康头条消息,利用新手艺测得的细粒度生物数据的数目发作了反动性的变革。这些数据统称为“组”,包罗基因组、卵白质组、转录组、免疫组、表观基因组、代谢组和微生物组等。这些组学数据能够在样本(Bulk)或单细胞程度长进行阐发。而很多医学成绩(如癌症)在构造程度上是异质(heterogeneous)的,而且大部门都具有生物学上细胞和构造的特同性。
也有研讨证实了操纵可穿着装备跟踪静息心率和就寝工夫能够改进美国对流感样疾病的监测。这一案例演化为晚期掌握和医治 (Digital Engagement and Tracking for Early Control and Treatment, DETECT) 安康研讨,该研讨由Scripps Research Translational Institute倡议,作为一种基于使用法式的研讨项目,旨在阐发来自可穿着装备的各类数据集,以便快速检测呈现流感、冠状病毒和其他快速传布的病毒性疾病。该方案的一项后续研讨表白,相对单一监测形式,综合阐发到场者自述的病症和传感器目标数占有更好的分类COVID-19患者阳性的精确率(ROC曲线)。
今朝野生智能在医学中的大大都使用都是利用一种数据形式来处理小范畴内的使命,比方计较机断层 (CT) 扫描或视网膜照片。但临床大夫会综合多源、多模态的数据,停止诊断、预后评价和订定医治计划。在这篇综述中,作者探究了多模态数据集在医疗安康中的使用,和面对的枢纽应战和有期望的战略。
经由过程操纵边沿计较(edge computing)的新开展,能够得到分外的宁静层(layer of safety)。与云计较相反,边沿计较是教唆计较更接近数据源(比方,接近情况传感器或可穿着装备)。分离结合进修等其他办法,边沿计较经由过程制止将敏感数据传输到集合式效劳器来供给更高的宁静性。别的,边沿计较还供给其他劣势,比方低落存储本钱、提早和带宽利用。比方,一些 X 射线体系如今间接在其硬件中运转优化版本的深度进修模子,而不是将图象传输到云效劳器以辨认能够危及性命的特性。
在已往的几年里,曾经从具有激烈特定模态偏向的架构,如用于图象阐发的卷积神经收集(CNN),或用于文本和心理旌旗灯号的递归神经收集(RNN),逐步改变发生了Transformer架构,该架构在多个范畴对多种输入输出方法都有超卓的表示。Transformer的枢纽立异在于可以静态判定每个模块的主要水平(译注, 即在神经收集的根底上引入attention机制,经由过程Q, K, V矩阵完成静态加权判定)。Transformer最后是为天然言语处置提出的,因而供给了一种经由过程存眷输入句子的其他单词来猜测每一个单词的高低文的办法,该架构今朝已胜利扩大到其他模态。
因为医疗保健野生智能市场的扩展,生物医学数据的代价愈来愈高,这招致了与数据一切权有关的另外一个应战。迄今为止,这组成了一个公然的辩说成绩。一些声音主意让患者拥无数据的公家一切权,以为这类办法将确保患者的自立决议权,撑持安康数据买卖并最大限度地进步患者从数据市场中得到的长处;而其别人则倡议将这些数据视为“非财富”,经由过程羁系更好地庇护宁静和通明的数据利用。在此之外,应订定恰当的鼓励步伐以增进数据同享,同时确保数据的宁静和隐私。
凭仗捕捉多维生物医学数据的才能,我们面对着深度表型阐发的应战——理解每一个人的共同征。需求跨行业和部分的协作来搜集和链接大批多样的多模态安康数据(见box 1)。但是,现在,我们在数据的收拾整顿和存储方面比数据阐发做得更好。为了故意义地处置这些高维数据并完成这些使人镇静的用处,医学专家和野生智能专家需求集合精神成立和考证新模子,并终极证实它们对改进安康的功效。
有用地未来自差别可穿着传感器的数据与临床数据相分离,既是应战也是机缘。数字临床实验能够利意图愿者的多源数据完成主动表型化(automatic phenotyping)和亚组阐发,关于顺应性临床实验(adaptive clinical trial)来讲,数字临床实验有益于按照连续实验成果及时对实验停止设想。将来,我们等待数据可用性的进步和立异多模态进修手艺(multimodal learning techniques)将增进数字临床实验的开展。值得留意的是,谷歌近来在工夫序列阐发中的功效证实了基于留意力机制(attention-based)的模子架构无望分离静态数据和时序输入来完成可注释的工夫序列猜测。这里提出一种假定,这类模子能够自行决议其存眷的特性,如存眷静态特性(如遗传布景)、已知的时序特性(如一天中的工夫),亦或丈量获得的特性(如当前血糖程度),以猜测将来发作低血糖或高血糖的风险。近来有人提出,图神经收集能够经由过程操纵传感器间信息的毗连特征来处理多个安康传感器的数据丧失或数据采样不划定规矩的成绩。
其他国度也展开了相似的研讨,比方中国Kadoorie Biobank和Biobank Japan。在美国,退伍甲士事件部于 2011 年启动了百万退伍甲士方案,旨在招募 100 万名退伍军报酬科学发明做出奉献。美国国立卫生研讨院 (NIH) 赞助的两项主要事情包罗 Trans-Omics for Precision Medicine (TOPMed) 方案和 All of Us Research方案。TOPMed搜集 WGS 并将这些遗传信息与其他组学数据整合。All of Us 研讨方案是 NIH 的另外一项新奇且野心勃勃的方案,该方案已在美国招募了约 400,000 名差别的到场者并方案在美国招募一百万人。同时这一项目录要招募那些来自被普遍界说为代表性不敷的群体的意愿者来到场生物医学研讨,这在医学 AI中尤其主要。
除这些大型的国度级工程以外,多方机构也在少数群体中成立了深化的、多模态的数据资本。由 Verily 赞助并与斯坦福大学、杜克大学和加州安康与长命研讨所协作办理的 Project Baseline Health 研讨旨在招募最少 10,000 人(最后由 2,500 名到场者开端启动),搜集普遍的多模态数据,终极目的是演化成一个综合的假造面临面(virtual-in-person)研讨。另外一个例子是,美国肠道方案从几个国度的自选(self-selected)到场者处搜集微生物组数据。这些到场者还完成了关于安康情况、疾病史、糊口方法数据和饮食频次的查询拜访。由麻省理工学院构造的重症监护医疗信息集市 (Medical Information Mart for Intensive Care, MIMIC) 数据库则是多维数据搜集和整合的另外一个例子,今朝已公布第四版。MIMIC 是一个开源数据库,此中包罗来自贝斯以色列女执事医疗中间重症监护病房的数千名患者的脱敏数据(de-identified data),包罗生齿统计信息、EHR 数据(比方,诊断、药物利用和住院状况及尝试室数据和心理数据,比方血压或颅内压值等)、影象数据(比方胸片),在某些版本中,还包罗天然言语文本,比方放射查抄陈述和医疗记载。这类数据粒度对数据科学和机械进修的开展很有协助,MIMIC 已成为野生智能模子的基准数据集之一,旨在猜测肾衰竭等临床变乱的开展及保存率和再出院等成果。
另外一种双模态阐发的规范是对数据停止 “翻译”。在很多状况下,一种模态的数据能够与临床成果亲密相干,但价钱难以负担、难以得到或需求特地的装备丈量或需求停止侵入性操纵。深度进修的计较机视觉算法今朝表白能够捕捉以往需求更高精度的野生正文才气够得到的信息。比方,一项卷积神经收集的研讨利用超声心动图(echocardiogram)视频来猜测尝试室丈量值,如心脏生物标记物(肌钙卵白 I 和脑利钠肽)和其他常见的生物标记物。成果表白该模子与传统的尝试室测试比拟猜测成果精确,以至对心衰出院的预后表示优于传统办法。深度进修在癌症病理学中也获得了普遍的研讨,模子仅需求输入病理图象,已逾越了以往病理学家对 H&E 染色的注释才能,并具有多种使用,如猜测基因型和基因表达状况、对医治的反应和保存状况。
生物医学数据的另外一个常见成绩是缺失数据的比例凡是很高。固然在某些状况下,在锻炼前只需剔除无数据缺失的患者,但偶然能够会呈现挑选偏向,凡是更合适用统计东西处理这些缺失值,比方多重插补法(multiple imputation)。因而,插补是从基因组学光临床数据等很多生物医学科学范畴中,遍及存在的预处置步调。插补明显进步了全基因组联系关系研讨(GWAS)的统计才能,以审定新的遗传风险位点,而且经由过程具有深度基因型笼盖的大型参考数据集(如 1000Genomes、UK10K、Haplotype reference consortium和近来呈现的 TOPMed)增进了插补。除基因组学,插补对其他范例的医学数据也很适用。很多差别的战略曾经被用来削减假定的数目。这些包罗延后插补(carry-forward imputation),在最初一次丈量时标识表记标帜插补值并增加信息,和更庞大的方法,比方利用可进修的衰减项获得缺失数据和工夫距离。
主要的是,这些办法凡是是互补的,它们能够而且该当一同利用。近来的一项研讨证实了将结合进修与同态加密相分离来锻炼模子从胸部 CT 扫描中猜测 COVID-19 诊断的潜力的机能优于一切当地锻炼的模子。固然这些办法很有远景,但多模态安康数据凡是散布在几个差别的构造中,从医疗机构和学术中间到制药公司。因而,开辟新办法来鼓励跨部分数据同享同时庇护患者隐私相当主要。
在癌症方面,克制与数据获得、同享和精确标识表记标帜相干的应战,能够会带来有用的东西,操纵本性化多组学数据与构造病理学、影象学和临床数据分离来供给更加精确的临床轨迹并改进患者预后。构造病理学、形状学数据与转录组学数据的分离,发生了空间转录组学,组成了一种新奇且有远景的办法学停顿,这许可研讨者在空间视角中对基因表达停止更细粒度的研讨。值得留意的是,研讨职员援用深度进修办法仅操纵构造病理学图象来猜测空间程度下基因表达状况,且这些图象中的形状特性不是由专家报酬辨认的,这能够会进步这类手艺的适用性并低落本钱。
在建模中另外一个主要的应战与多模态安康数据的高维度有关,统称为“维度咒骂”(the curse of dimensionality)。跟着维度(即数据集合包罗的变量或特性)的增长,照顾这些特性的某些特定组合的人数削减以至消逝,招致发生“数据集盲点”(dataset blind spots),即没有察看到的特性空间(特性或变量的一切能够组合的汇合)。这些数据集盲点能够会低落模子在使用中的猜测机能,因而应将维度挑选归入模子开辟和评价历程的晚期思索。今朝有几种战略能够减缓维度太高的成绩,请参考其他文章中的具体形貌。简而言之,这些包罗利用最高机能的方法搜集数据(比方,用马达掌握的快速敲击替代手指采样,而非在一样平常活动中被动搜集的数据),确保样本量大且具有多样化(即,与模子临床布置时的预期前提相婚配),利用范畴先验常识指点特性工程和特性挑选(重点存眷特性的可反复性),恰当的模子锻炼和正则化,严厉的模子考证和片面的模子监控(包罗监控锻炼集数据和布置后发明的数据散布之间的差别)。瞻望将来,开辟可以整合先验常识(比方,已知的基因调控通路和卵白质互相感化)的模子多是克制维度咒骂的另外一种有远景的办法。沿着这些思绪在近来的研讨中表白,经由过程从大型数据库中检索信息来加强模子的机能优于在大型数据集上锻炼的大型模子,即前者有用地操纵了现有信息并得到了如模子可注释性等的分外收益。
安康数据本质上是多模态的。我们的安康情况受很多庞大的社会、生物和情况身分影响。别的,这些身分都是条理化的,数据从宏观层面(比方,疾病存在或不存在)笼统到深化的微观层面(比方,生物标记物、卵白质组学和基因组学)。别的,当前的医保体系增加了多模态数据:如虽然病情在 EHR 中以天然言语和表格数据记载,体系能够将放射影象数据和病理学图象与来自其各自陈述的天然言语数据相婚配。
这些数据集包罗的多模态数据能够有助于在一系列差别使命中完成更好的诊断机能。比方近来的事情表白,影象数据和 EHR 数据的组合在辨认肺栓塞和辨别急性呼吸衰竭的常见缘故原由(如心力弱竭、肺炎或COPD)方面优于零丁利用一种数据。密歇根州的安康猜测举动和临床轨迹 (MIPACT) 研讨组成了另外一个例子,到场者供给了来自可穿着装备、心理数据(血压)、临床信息(EHR 和查询拜访)和尝试室的数据。北美 Prodrome 纵向研讨是另外一个例子。这个多中间方案招募了很多被试个别,并搜集了生齿学、临床信息和血液生物标记物数据,目标是理解神经病的先驱(prodromal)阶段病症。如用于晚期神经病办理的本性化预后东西等其他专注于肉体疾病的研讨也搜集了多品种型的数据,并为多模态机械进修事情流程的开辟供给了协助。
在停止搜集安康数据的研讨时,要正视发生偏向的风险,需求多种办法来观察和弱化这些偏向。当组合来自多个滥觞的数据时,这些偏向的风险会放大,由于思索这些潜伏偏向人群之间数据相交融时,更有能够承受并放大每种数据形式的个别偏向。与单模态数据比拟,在多模态安康数据中这个庞大且未处理的成绩更加主要,需求对其停止深化研讨。利用种族等生齿统计特性作为输入数据的医学 AI 算法会进修并向下迭代汗青数据中的偏向,进而在布置模子时形成损伤。主要的是,近来的事情表白,野生智能模子能够仅从成像数据中辨认出这些特性,这凸起了在数据质量掌握和模子开辟过程当中需求无意识地检测种族偏向和均衡种族成果的须要性。出格是,已有陈述指出挑选偏向是大型生物样本库研讨中常见的偏向范例,这个成绩在COVID-19 事情中也很常见。比方,利用过敏药物的患者更有能够承受 COVID-19 检测,这会报酬地低落阳性检测率,并因为挑选偏向在被检测者中发生了较着的庇护感化。主要的是,挑选偏向会招致 AI 模子的锻炼样本与一般人群差别明显,从而在揣度时影响模子。
多模态 AI 模子在疫情防控中的其他多个使用颠末测试获得了可喜的成果,但仍需求进一步考证和反复这些成果。
数据整合极大地增进了相干范畴研讨停顿,进步了数据可反复性,鞭策数据向临床转换。但是,数据整合能够会弱化某些疾病的病理心理历程。比方,缺血性卒中亚型常常没法精确辨认,但操纵来自 EHR 或放射学陈述的原始数据则可用天然言语处置停止表型阐发。一样,《肉体疾病诊断和统计手册》按照临床表示对诊断停止分类,能够没法完整展现出潜伏的病理心理历程。
在天然言语处置中的每一个输入标识表记标帜(input token),即处置的最小单位,对应一个特定的单词,而其他模态凡是利用图象或视频片断的片断作为输入标识表记标帜。Transformer 架构许可我们集成多模态进修,但能够仍需求依靠于特定模态的标识表记标帜化和编码方法。Meta AI (Meta Platforms) 近来的一项研讨提出了一个同一的自监视进修框架,该框架中存眷的模态是互相自力的,但仍需求基于特定模态停止预处置和锻炼。自监视多模态进修的基准(benchmarks)使我们可以权衡跨模态办法的停顿:比方,近来提出的自监视进修的范畴无关基准 (Domain-Agnostic Benchmark for Self-supervised learning, DABS)包罗胸部X射线、传感器数据、天然图象和文本数据等。
各类组学在差别的临床和研讨情况中都有主要代价。恶性肿瘤基因和份子标记物的检测已被归入临床理论, FDA也核准了几种诊断装备和核酸检测办法。比方安康平台登录,Foundation Medicine and Oncotype IQ供给片面的基因组阐发,针对基因组的次要变革(alteration)种别量身定制,终极目的是寻觅能够的医治靶点。除份子标识表记标帜物之外,液体活检样本(如血液和尿液等易于获得的体液)正在成为精准肿瘤学阐发中普遍利用的东西,此中一些基于轮回肿瘤细胞(circulating tumor cells)和轮回肿瘤 DNA 的测试已得到 FDA 核准。在已往 15 年中,肿瘤范畴之外的遗传数据的可用性和数据同享开展疾速,这使得停止全基因组联系关系研讨(GWAS)和人类庞大前提下遗传构造的表征(characterization of the genetic architecture of complex human conditions)成为能够。这进步了我们对生物通路的了解,并发生了能捕捉个别对庞大性状的整体遗传偏向的多基因风险评分(polygenic risk scores)等东西,而且能够有助于风险分级、本性化医治和在临床研讨中挑选出最有能够从干涉步伐中受益的到场者,以增进相干尝试被试者的招募。
虽然野生智能 (AI) 东西曾经改动了很多范畴(如,文本翻译、语音辨认和天然图象辨认),但在医学范畴却较为落伍。部门缘故原由是数据的庞大性和高维性——换句话说,数据中包罗大批独有的特性或旌旗灯号——招致在开辟和考证可以推行到差别人群的处理计划方面面对着手艺上的严重应战。现在,跟着基因组测序和相干“组学”手艺本钱的低落,可穿着传感器的普遍利用,数据收罗、聚合和阐发才能也获得大幅进步。总的来讲,这些手艺的开展为新东西的发生奠基了根底也发生了需求。新东西能够综合处置多源的数据,并在生物医学发明、诊断、预后、医治和疾病防备等方面供给协助。
免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186