通过深度学习改进自动化NMR集成
在这次采访中,数据科学家Federico Paruzzo讨论了Bruker如何使用深度学习来开发新命令,以及它与其他可用方法的比较。Federico还将介绍Sigreg,第一个基于机器学习的1H NMR谱自动信号区域检测,这是Bruker的TopSpin软件的最新版本。
利用NMR,对每个信号区域进行检测和整合是非常重要的。然后你可以使用这些信息来量化你的化合物,例如,或者做松弛测量。目前有几种使用TopSpin的方法。
您需要做的就是打开一个数据集。或者,您可以使用integration命令,它将打开您的integration窗口。从这里开始,您可以定义每个新区域,然后分别对频谱中的每个区域进行集成,并在完成之后保存更改。这将打开您的集成系统。
然而,这个过程可能是耗时和令人沮丧的。整合一个简单的光谱可能需要20到25秒,但想象一下,如果你需要在一天内处理几十个光谱。当你需要处理更复杂的光谱时,它需要更长的时间。
有一些方法可以自动完成这种集成。例如,您可以通过键入“int auto”或单击auto integration按钮来使用TopSpin中的auto-integration命令。
但是,结果不是最优的,并且与我们手动操作的结果不太匹配。特别是,这个命令依赖于许多参数,如果对所有参数进行微调,可以得到更好的结果
然而,这种微调是非常耗时、繁琐的,它可以防止使用这个命令自动集成许多不同的频谱。
另一种选择是apbk命令。apbk命令是Topspin中引入的一个新命令,用来对X核的光谱进行自动相位和基线校正。
现在,你可能会说这并不意味着在整个频谱上使用,这是正确的。但是您可以使用插头“-f”强制apbk命令在总频谱上工作。
如果你这样做,你会看到信号区域探测器。但是,这个结果与您手动选择的结果相去甚远。这并不奇怪。同样,apbk命令并不意味着在整个频谱上工作。因此,这不是手工集成的替代方法。
图片来源:伤风/ angellodeco
我们团队面临的挑战是问:“我们能做得更好吗?”“我们能不能开发一个命令,不需要对这么多参数进行微调,就能以用户的方式进行集成?”
为了做到这一点,我们训练了一个深度神经网络来解释核磁共振波谱使用监督学习。为此,我们需要大量的训练数据,包括许多核磁共振波谱与相应的标签,我们要学习的属性,在这种情况下是信号区域。
然后我们需要创建我们的深层神经网络。通过给我们的训练集神经网络,我们训练我们的神经网络。一旦网络被训练,我们可以得到一个新的频谱,把它给网络,它将输出预测标签。
作为训练集,我们使用了50万个人工生成的1H NMR谱。
我们使用不同的基本频率,从80到800兆赫,以产生频谱的信号与噪音的比率,并与强度的偿付能力。
我们决定使用卷积神经网络,灵感来自于U-Net。U-Net是一种全卷积神经网络,用于生物医学领域的图像分割。
通过将网络和训练集结合起来,我们创建了sigreg,这是TopSpin中第一个基于机器学习的命令。它将允许你在1H NMR谱中做一个全自动无参数信号区域探测器。
为了测试这个算法的局限性,我们创建了一个简单的光谱,一个仅由7.5 ppm的单一信号中心组成的人工光谱。然后我们测试了模型的信噪比、溶剂强度和线宽。
深度学习在核磁共振中的应用
对信噪比测试。我们保持了信号化合物的强度,并改变了噪声值,以匹配不同的信噪比值。
Sigreg在100和20的信噪比下表现很好。在信噪比为10的情况下,sigreg仍然能够确定峰值,但是这个值有点模糊,因为这是我们的训练集的极限。
结果,当信噪比低于10时,它就不能检测峰值了。我们将继续开发这个算法,因此,在未来,如果我们可以使用更低的信噪比,我不会感到惊讶。
溶剂强度测试。我们稍微改变了我们的兴趣峰值,从7.5 ppm到7.3 ppm,并添加了第二个峰值,其强度高于我们的另一个峰值,以模拟溶剂的存在。
对于我们所有的光谱,我们保持感兴趣峰的信噪比不变,并改变溶剂的强度。当溶剂的容量是兴趣峰值的10倍或100倍时,Sigreg可以很好地工作。当溶剂比我们的峰值大3阶或更大时,sigreg仍然能够探测到我们的信号。
然而,如果检测的限制更高,检测的区域就会更广,sigreg就会变得更不准确。如果溶剂是我们感兴趣的信号的十倍以上,那么sigreg就不能再检测到信号了。
测试线宽。同样,我们取一个单峰,保持强度不变。我们还保持了信号噪声电平不变,只是改变了峰值的线宽。Sigreg在从5到500 Hz的线宽范围内表现良好。
为了评估我们的模型的性能,我们在100个实验核磁共振波谱上运行了sigreg。我们的核磁共振专家对实验谱中的信号进行了标记。
我们发现我们的专家检测到的信号数量与sigreg检测到的信号数量有很好的相关性。Sigreg给出了一个很好的结果。我们的大多数点都在这条完全相关的直线上。
图片来源:伤风/ Lisa-S
Int auto给出了合理的结果,但是与sigreg和专家的协议相比,专家和Int auto之间的协议要低得多。
另一方面,apbk倾向于重拾信号,这意味着它检测到的信号比专家少。这并不奇怪,因为apbk并没有被开发用于80 MHz到1.2 GHz范围内的1H NMR谱。在Bruker,我们还对添加一个在广泛的基频范围内执行良好的命令非常感兴趣。
我们的25个光谱是在80兆赫获得的,75个是在更高的频率获得的,从300兆赫或更高的频率开始。Sigreg对80兆赫频谱和int auto给出了很好的结果,结果是合理的。尽管apbk倾向于更严重地接收在80mhz频率下获得的光谱。
即使峰值的数量给了我们一个关于这个算法如何工作的想法,它并没有真正给出一个关于准确性的想法。这就是为什么,为了估计模型的性能,我们决定计算每个频谱的F1值。
如果你不熟悉这个概念,F1分数是一个度量标准,用于统计分析来评估这个模型的准确性。F1成绩的优势在于它依赖于精确性和回忆性。精度告诉我们在这些区域中有多少信号区域被检测到。这是由真阳性给出的,检测到的信号区域作为真阳性和假阳性之和的信号区域。误报是指检测到的噪声区域作为信号区域。
而recall告诉我们模型检测到多少个信号区域。这是由真阳性(检测为信号的信号)给出的,除以真阳性和假阴性的总和。因为负号是信号的区域,被检测为噪音。
我们计算了所有100个光谱的F1值。在F1得分方面,与其他两个命令相比,Sigreg给出了更好的结果。我们对int auto、sigreg和apbk -f命令的F1平均得分为91.8%。但是我们和sigreg的大多数谱都有超过95%的F1分数。
另一侧的Int auto的平均F1得分较低,为87.1%。与sigreg相比,这个结果要广泛得多,有些光谱低于60%。
apbk得分最低,为80%,传播率较高。这对于apbk来说仍然是一个显著的结果,因为这个命令并没有被开发用于总的NMR谱。
我们也可以通过观察我们在80mhz下得到的结果来检查这些结果是如何依赖于基频的。在自动提供一些最好的结果在低频。因此,80兆赫的频谱实际上给出了这个命令的最佳F1分数。另一边的Apbk给出了低频谱的最差结果。Sigreg是唯一一个在广泛的基频范围内给出可比结果的。
使用sigreg非常简单。你所需要做的就是在TopSpin中打开数据集,输入“sigreg”,然后在几毫秒内获得信号区域检测器。没有需要设置的参数。还可以使用宏或大写字母轻松地将图形包含到自动例程中,这些宏或大写字母可以包含在AU程序中。
Sigreg研究的是复杂光谱。我们已经证明,它也可以很好地检测宽峰,并与光谱与大的溶剂峰。Sigreg也研究有噪声的光谱。
当谈到相位畸变时,sigreg也能够检测出光谱相位的峰值,前提是相位畸变是合理的。Sigreg也能很好地处理在低频率下获得的光谱,即使在80兆赫也有很好的分辨率。
Sigreg包含在最新版本的TopSpin中,所以我们希望您能够测试它并将您的反馈发送给我们。
赞助内容策略:News-Medical.net发布的文章和相关内容可能来自于我们已有商业关系的来源,只要这些内容能够为News-Medical的核心编辑理念增加价值。教育和通知对医学研究,科学,医疗设备和治疗感兴趣的网站访问者。