2023年9月14日,复旦大学李小英、陈颖及北京邮电大学王光宇共同在《Nature Medicine》上发表了题为“Optimized glycemic control of type 2 diabetes with reinforcement learning: a proof-of-concept trial”的研究论文,该研究提出了一个基于模型的强化学习(RL)框架(称为RL-DITR),该框架通过分析患者模型相互作用的血糖状态奖励来学习较佳胰岛素方案。在开发阶段对T2D住院患者的管理进行评估时,与其他深度学习模型和标准临床方法相比,RL-DITR获得了更好的胰岛素滴定优化(平均绝对误差(MAE)为1.10±0.03 U)。该研究对人工智能系统进行了从模拟到部署的逐步临床验证,通过盲法评价的定量(MAE为1.18±0.09 U)和定性指标,与初级和中级医生相比,人工智能系统在住院患者的血糖控制方面表现更好。此外,在16例T2D患者中进行了单臂、患者盲法、概念可行性验证试验。主要终点是试验期间平均每日毛细血管血糖的差异,从11.1(±3.6)降至8.6(±2.4)mmol L−1 (P < 0.01),达到预定终点。未发生严重低血糖或高血糖伴酮症发作。这些初步结果值得在更大、更多样化的临床研究中进一步调查。