通过深度学习改进自动化NMR集成

科技 > 2020-05-13 08:49:25 来源：编辑：

在这次采访中，数据科学家Federico Paruzzo讨论了Bruker如何使用深度学习来开发新命令，以及它与其他可用方法的比较。Federico还将介绍Sigreg，第一个基于机器学习的1H NMR谱自动信号区域检测，这是Bruker的TopSpin软件的最新版本。

利用NMR，对每个信号区域进行检测和整合是非常重要的。然后你可以使用这些信息来量化你的化合物，例如，或者做松弛测量。目前有几种使用TopSpin的方法。

您需要做的就是打开一个数据集。或者，您可以使用integration命令，它将打开您的integration窗口。从这里开始，您可以定义每个新区域，然后分别对频谱中的每个区域进行集成，并在完成之后保存更改。这将打开您的集成系统。

然而，这个过程可能是耗时和令人沮丧的。整合一个简单的光谱可能需要20到25秒，但想象一下，如果你需要在一天内处理几十个光谱。当你需要处理更复杂的光谱时，它需要更长的时间。

有一些方法可以自动完成这种集成。例如，您可以通过键入“int auto”或单击auto integration按钮来使用TopSpin中的auto-integration命令。

但是，结果不是最优的，并且与我们手动操作的结果不太匹配。特别是，这个命令依赖于许多参数，如果对所有参数进行微调，可以得到更好的结果

然而，这种微调是非常耗时、繁琐的，它可以防止使用这个命令自动集成许多不同的频谱。

另一种选择是apbk命令。apbk命令是Topspin中引入的一个新命令，用来对X核的光谱进行自动相位和基线校正。

现在，你可能会说这并不意味着在整个频谱上使用，这是正确的。但是您可以使用插头“-f”强制apbk命令在总频谱上工作。

如果你这样做，你会看到信号区域探测器。但是，这个结果与您手动选择的结果相去甚远。这并不奇怪。同样，apbk命令并不意味着在整个频谱上工作。因此，这不是手工集成的替代方法。

图片来源:伤风/ angellodeco

我们团队面临的挑战是问:“我们能做得更好吗?”“我们能不能开发一个命令，不需要对这么多参数进行微调，就能以用户的方式进行集成?”

为了做到这一点，我们训练了一个深度神经网络来解释核磁共振波谱使用监督学习。为此，我们需要大量的训练数据，包括许多核磁共振波谱与相应的标签，我们要学习的属性，在这种情况下是信号区域。

然后我们需要创建我们的深层神经网络。通过给我们的训练集神经网络，我们训练我们的神经网络。一旦网络被训练，我们可以得到一个新的频谱，把它给网络，它将输出预测标签。

作为训练集，我们使用了50万个人工生成的1H NMR谱。

我们使用不同的基本频率，从80到800兆赫，以产生频谱的信号与噪音的比率，并与强度的偿付能力。

我们决定使用卷积神经网络，灵感来自于U-Net。U-Net是一种全卷积神经网络，用于生物医学领域的图像分割。

通过将网络和训练集结合起来，我们创建了sigreg，这是TopSpin中第一个基于机器学习的命令。它将允许你在1H NMR谱中做一个全自动无参数信号区域探测器。

为了测试这个算法的局限性，我们创建了一个简单的光谱，一个仅由7.5 ppm的单一信号中心组成的人工光谱。然后我们测试了模型的信噪比、溶剂强度和线宽。

深度学习在核磁共振中的应用

对信噪比测试。我们保持了信号化合物的强度，并改变了噪声值，以匹配不同的信噪比值。

Sigreg在100和20的信噪比下表现很好。在信噪比为10的情况下，sigreg仍然能够确定峰值，但是这个值有点模糊，因为这是我们的训练集的极限。

结果，当信噪比低于10时，它就不能检测峰值了。我们将继续开发这个算法，因此，在未来，如果我们可以使用更低的信噪比，我不会感到惊讶。

溶剂强度测试。我们稍微改变了我们的兴趣峰值，从7.5 ppm到7.3 ppm，并添加了第二个峰值，其强度高于我们的另一个峰值，以模拟溶剂的存在。

对于我们所有的光谱，我们保持感兴趣峰的信噪比不变，并改变溶剂的强度。当溶剂的容量是兴趣峰值的10倍或100倍时，Sigreg可以很好地工作。当溶剂比我们的峰值大3阶或更大时，sigreg仍然能够探测到我们的信号。

然而，如果检测的限制更高，检测的区域就会更广，sigreg就会变得更不准确。如果溶剂是我们感兴趣的信号的十倍以上，那么sigreg就不能再检测到信号了。

测试线宽。同样，我们取一个单峰，保持强度不变。我们还保持了信号噪声电平不变，只是改变了峰值的线宽。Sigreg在从5到500 Hz的线宽范围内表现良好。

为了评估我们的模型的性能，我们在100个实验核磁共振波谱上运行了sigreg。我们的核磁共振专家对实验谱中的信号进行了标记。

我们发现我们的专家检测到的信号数量与sigreg检测到的信号数量有很好的相关性。Sigreg给出了一个很好的结果。我们的大多数点都在这条完全相关的直线上。

图片来源:伤风/ Lisa-S

Int auto给出了合理的结果，但是与sigreg和专家的协议相比，专家和Int auto之间的协议要低得多。

另一方面，apbk倾向于重拾信号，这意味着它检测到的信号比专家少。这并不奇怪，因为apbk并没有被开发用于80 MHz到1.2 GHz范围内的1H NMR谱。在Bruker，我们还对添加一个在广泛的基频范围内执行良好的命令非常感兴趣。

我们的25个光谱是在80兆赫获得的，75个是在更高的频率获得的，从300兆赫或更高的频率开始。Sigreg对80兆赫频谱和int auto给出了很好的结果，结果是合理的。尽管apbk倾向于更严重地接收在80mhz频率下获得的光谱。

即使峰值的数量给了我们一个关于这个算法如何工作的想法，它并没有真正给出一个关于准确性的想法。这就是为什么，为了估计模型的性能，我们决定计算每个频谱的F1值。

如果你不熟悉这个概念，F1分数是一个度量标准，用于统计分析来评估这个模型的准确性。F1成绩的优势在于它依赖于精确性和回忆性。精度告诉我们在这些区域中有多少信号区域被检测到。这是由真阳性给出的，检测到的信号区域作为真阳性和假阳性之和的信号区域。误报是指检测到的噪声区域作为信号区域。

而recall告诉我们模型检测到多少个信号区域。这是由真阳性(检测为信号的信号)给出的，除以真阳性和假阴性的总和。因为负号是信号的区域，被检测为噪音。

我们计算了所有100个光谱的F1值。在F1得分方面，与其他两个命令相比，Sigreg给出了更好的结果。我们对int auto、sigreg和apbk -f命令的F1平均得分为91.8%。但是我们和sigreg的大多数谱都有超过95%的F1分数。

另一侧的Int auto的平均F1得分较低，为87.1%。与sigreg相比，这个结果要广泛得多，有些光谱低于60%。

apbk得分最低，为80%，传播率较高。这对于apbk来说仍然是一个显著的结果，因为这个命令并没有被开发用于总的NMR谱。

我们也可以通过观察我们在80mhz下得到的结果来检查这些结果是如何依赖于基频的。在自动提供一些最好的结果在低频。因此，80兆赫的频谱实际上给出了这个命令的最佳F1分数。另一边的Apbk给出了低频谱的最差结果。Sigreg是唯一一个在广泛的基频范围内给出可比结果的。

使用sigreg非常简单。你所需要做的就是在TopSpin中打开数据集，输入“sigreg”，然后在几毫秒内获得信号区域检测器。没有需要设置的参数。还可以使用宏或大写字母轻松地将图形包含到自动例程中，这些宏或大写字母可以包含在AU程序中。

Sigreg研究的是复杂光谱。我们已经证明，它也可以很好地检测宽峰，并与光谱与大的溶剂峰。Sigreg也研究有噪声的光谱。

当谈到相位畸变时，sigreg也能够检测出光谱相位的峰值，前提是相位畸变是合理的。Sigreg也能很好地处理在低频率下获得的光谱，即使在80兆赫也有很好的分辨率。

Sigreg包含在最新版本的TopSpin中，所以我们希望您能够测试它并将您的反馈发送给我们。

赞助内容策略:News-Medical.net发布的文章和相关内容可能来自于我们已有商业关系的来源，只要这些内容能够为News-Medical的核心编辑理念增加价值。教育和通知对医学研究，科学，医疗设备和治疗感兴趣的网站访问者。

免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！

标签： NMR

通过深度学习改进自动化NMR集成

猜你喜欢

最新文章