人工智能(AI)医疗器械是指基于“医疗器械数据”,采用AI技术实现其预期用途(即医疗用途)的医疗器械。随AI技术在医疗器械行业快速发展和普及,AI医疗器械已经衍出了大量的创新用途和应用场景,正在从提升医学装备供给能力、优化诊疗流程、创新医学手段等多个方面赋能医疗行业。《人工智能医疗器械注册审查指导原则》
AI独立软件(SaMD)作为AI医疗器械一种,其有不同的预期用途,包括辅助检测(如肺结节辅助检测)、辅助诊断(如甲状腺结节良恶性辅助诊断)、辅助治疗(如辅助调整胰岛素泵参数)、辅助测量(如边缘勾画)、辅助分诊、转诊(如肺炎辅助分诊、糖网辅助转诊)、智能预警(如低血压预警)。也可以把这些用途分为辅助决策类和非辅助决策类:辅助决策是指通过提供诊疗活动建议辅助用户(如医务人员、患者)进行医疗决策,如通过病灶特征识别、病灶性质判定、用药指导、治疗计划制定进行辅助分诊、辅助检测、辅助治疗等,相当于用户的“助手”;非辅助决策则仅提供医疗参考信息而不进行医疗决策,包括流程优化(如成像流程简化、诊疗流程简化等)、诊疗驱动(如成像质量改善、成像速度提高、自动测量、自动分割、三维重建等,相当于用户的“工具”)。
依据医疗器械临床法规要求,用于辅助决策类软件功能,需要开展临床试验;而用于病情评估的量化分析等功能属于非辅助类软件功能,可提交相应临床评价资料,或通过临床试验予以评价。
本文以辅助决策类软件为例,解析了AI软件类临床试验设计要素和注册成功。
临床试验的主要目的是评价AI软件在预期适用范围下使用时辅助检测的诊断学性能,包括其辅助检测准确度、敏感度、特异度,亦可一并观察AI软件的可用性与安全性。通过临床试验,可以验证AI软件类产品在辅助检测、诊断、分诊等预期用途方面的有效性。
AI软件产品一般需考虑开展对照试验,部分AI软件临床试验可以选择单组目标值试验。对照试验根据产品特征及临床诊疗实际,可以为随机平行对照、交叉自身对照或多阅片者多数据样本(multiple reader multiple case,MRMC)试验设计。
随机平行对照
随机、平行对照的临床试验设计可使临床试验影响因素在试验组和对照组间的分布趋于均衡,被认为可提供高等级的科学证据,是临床试验中应用最广泛的设计之一。在该设计中,试验组一般为医师在软件的辅助下完成异常/病变的检测,对照组一般为临床医师独立的异常/病变的检测,比较二者的检测准确度。
交叉自身对照
在交叉设计的临床试验中,同一组医师按照先后顺序在不同阶段分别使用AI辅助和独立诊断。此类设计要求前一阶段的诊断对后一阶段的另一种诊断不产生残留效应,后一阶段开始前,需要洗脱阅片者对影像样本的记忆,确保阅片者对同一受试者影像样本的两次诊断结果互不影响。一般可以设置一个不少于4周的洗脱期。
MRMC(多阅片者多病例)设计
该设计为多名阅片者分别在有无AI辅助的条件下对同一组样本进行诊断,并采用统计方法分析阅片者间及阅片者内的诊断差异。MRMC研究需选取具有代表性的样本(包括金标准确诊的患者与非患者)以及一定数量的阅片者。该设计能够有效分离阅片者自身及阅片者之间的变异,最大限度减少阅片者间的偏倚。
目前,国际常用的MRMC统计分析方法主要包括Obuchowski-Rockette(OR)法及Dorfman-Berbaum-Metz(DBM)法。DBM法与OR法作为MRMC研究中广泛认可的分析手段,相较于传统ROC曲线分析方法具有显著优势。
AI软件如何选择合适的临床试验设计类型
对患者是否患有目标疾病,从而对患者的分诊转诊提供辅助决策建议的产品:该类产品不给出具体病变情况,且无论辅助分诊结果为阴性、阳性,均需专业医师再一次对患者影像进行评阅,如糖尿病视网膜病变辅助分诊、肺炎辅助分诊、脑出血辅助分诊等各类目标疾病患者的计算机辅助分诊、转诊产品等,因这类产品的针对目标是患者个体,最后的分诊结果是二分类(阴性/阳性),是一种筛查,由此可见该类产品的定位与医生的综合诊断不同,可以考虑采用单组目标值设计。
对目标疾病的病变病灶进行辅助检测的产品:如肺结节辅助检测产品、骨折CT影像辅助检测产品等,该类产品基于病灶水平,扮演的角色与临床医生的工作类似,所以临床试验建议采用对照设计,试验组为医师与申报产品共同检测,对照组为传统检测诊断方法(如临床医师的阅片/综合诊断)。临床试验比较类型应能够体现产品受益风险的可接受性,一般考虑优效性设计,如针对4mm以上肺结节CT影像辅助检测软件可考虑患者水平的特异度优效和病灶水平的敏感度非劣效。
适用人群的影像学样本
预期人群的影像学样本是人工智能辅助检测产品临床试验的典型研究对象,影像学样本需基于定义明确的入选和排除标准收集。为了保证临床试验质量以及结果的可靠性,选取研究对象时,申请人需考虑如下措施:
(1)纳入数据样本独立于申报产品或前代产品开发所用数据集,如申报产品或前代产品的训练集、测试集;
(2)采用临床已有数据进行研究时,需基于明确且严格的入排标准和临床试验计划,连续收集过往某段时间内、特定医疗机构内患者影像学数据,避免主观挑选病例;
(3)考虑阳性样本中,目标疾病的疾病谱分布(如分型、分期)合理性,某些对辅助检测具有挑战性的分期、分型,必要时在临床试验中富集相关具有代表性的亚组;
(4)通常情况下,需避免在一项临床试验中同时入组同一患者同一目标部位的多组样本数据;
(5)临床已有数据收集时,需尽可能全面的收集与疾病相关的信息(适用的),具体包括但不限于:
-人口统计学信息(如年龄、性别);
-与辅助检测目标疾病相关的信息,如病史、疾病状态、分期、分型、病变大小、病变位置、器官特征(如乳腺腺体分型)、伴随疾病等。
-确定为阳性/阴性病例的依据,如既往诊断结论,以及确定疾病状态、部位和程度的方法。
AI软件临床研究阅片者
一般情况下将阅片者也列入研究对象。在采用MRMC设计时,根据预期的使用者情况,选取不同年资的多位医师作为阅片者。
AI软件临床试验主要评价指标应综合考虑产品设计特征,包括灵敏度、特异度、ROC曲线或其衍生指标等。在临床试验优先考虑设计优效性检验,例如ROC或其衍生曲线下面积(Area Under Curve,AUC)的优效设计等。
如AI软件是对患者水平给出辅助分诊结果,但需专业医师再一次对患者影像进行评阅的产品,如糖尿病视网膜病变辅助分诊、肺炎辅助分诊、脑出血辅助分诊等各类目标疾病患者的计算机辅助分诊、转诊产品等,如上述所说选择单组目标值的设计类型的,主要评价指标可考虑产品辅助分诊结果的诊断准确度指标(如敏感度、特异度等,通常为患者水平);
如AI软件是对目标疾病的病变病灶进行辅助检测的产品:如肺结节辅助检测产品、骨折CT 影像辅助检测产品等,选择对照的设计类型,主要评价指标考虑诊断准确度指标 (如敏感度、特异度、AFROC曲线、检出率等,一般灵敏度考虑病灶病变水平,特异度考虑患者水平)。
AI软件临床参考标准的构建方法有两种:一是以临床已确认结果为临床参考标准,即临床上结合患者影像学检查、病史、实验室检查(如病理检查)、长期随访结果等方法综合判定的临床诊断结果;二是通过专家组对研究对象(影像样本)的阅片判定作为临床参考标准。
对于人工智能辅助检测产品,若根据产品设计判定可采用专家组意见作为临床参考标准,通常可选择高年资医师组成的阅片专家组综合意见为临床参考标准,阅片专家组的成员需独立于“试验和对照组的阅片研究者”。
AI软件临床样本量估算需综合考虑试验设计、主要评价指标及统计学要求。
平行对照试验样本量可参考《医疗器械临床试验设计指导原则》。MRMC设计需明确分析方法、受试医师数量、检验水准及预计效应值等。
若采用MRMC的试验设计,样本量计算需首先明确具体的分析方法,如Obuchowski-Rockette Analysis(OR分析方法)、Dorfman-Berbaum-Metz-Hillis Analysis(DBM分析法),并进一步明确受试医师数量,检验水准α、检验效能1-β、预计效应值,优效/非劣效界值,其中预计效应值可通过预试验或调研并汇总分析目标病灶检出的诊断学研究文献获得,优效/非劣效界值应通过同品种产品临床试验结果或权威文献研究等确定。
评价XX肺结节辅助检测产品用于辅助放射科医生在胸部CT影像中检测肺结节应用的多中心、随机、交叉自身对照、优效性设计的临床试验:
试验设计
本研究采用多中心、随机、交叉自身、优效性设计。符合资格的放射科医生被随机分为两组(AB组和BA组),分两个阶段阅读相同的病例集。
AB组:第一阶段在AI辅助下读片,第二阶段无AI辅助读片。
BA组:第一阶段无AI辅助读片,第二阶段在AI辅助下读片。
两组之间设有足够的洗脱期,以消除记忆效应。
研究目的
主要目的:验证与放射科医生单独阅片相比,XX肺结节辅助检测产品能否优效地提高肺结节的检测灵敏度、特异度、有效性。
次要目的:评估AI辅助对阅片效率的影响。
研究对象
患者人群:回顾性收集来自3家医院的共240例患者的胸部CT影像序列。所有病例均经专家委员会确认的肺结节金标准(包含阳性结节病例180例,阴性病例60例)。
医生人群:共招募了10名放射科医生(住院医师6名,主治医师4名)作为阅片者参与试验。
试验方法
试验组(AI辅助):医生使用XX肺结节辅助检测产品进行阅片。软件自动标记疑似肺结节的位置并提供置信度评分,医生在此基础上做出最终诊断。
对照组(常规阅片):医生在不使用任何AI辅助的情况下,独立进行常规CT影像阅片。
评价指标
患者水平的肺结节检测灵敏度、特异度、有效性,结节水平的检测灵敏度、特异度、有效性,平均每例阅片时间。
瑞旭集团医疗器械临床研究团队参与多项AI独立软件的临床试验及注册取证全流程服务,如果您有此类AI医疗软件产品的临床试验和注册取证需求,请随时联系我们0571-87206527。
