我们思考的速度快过我们交流的速度——很多人在手机上快速敲打键盘时都能体会到这一点。对于重度瘫痪者来说,这种信息交流上的瓶颈有过之而无不及。Willett等人[1]在《自然》上报道,他们开发的一种用来打字的脑机接口(brain–computerinterface,BCI)有望让瘫痪人士的交流速度跟上他们的思考速度。
市面上的辅助打字装置主要依靠使用者发出的眼动或声音指令。眼动追踪键盘能让瘫痪人士每分钟打出47.5个字符[2],比健全人士每分钟敲打115个字符的速度要慢。问题是,失去了眼动或发声能力的瘫痪者无法使用这种技术。此外,该技术本身也存在限制,比如你很难复读信息内容,也就是说,你无法一边用眼睛打字一边用眼睛看你打了什么。
与此不同的是,脑机接口通过解码脑活动模式来恢复这种能力。这类接口已经帮助瘫痪人士重新掌握了一些简单的运动技能,比如抓取和摆弄大型物体[3-7]。通过直接接入神经处理过程,脑机接口或能很自然地帮助大量人群恢复能力。
不过,用于打字的脑机接口一直无法与更简易的辅助技术(如眼动追踪器)相媲美。一个原因在于打字是很复杂的任务。在英文中,我们要从26个拉丁字母中挑选。构建一个根据使用者神经活动预测他们想选字母的分类算法非常难,所以脑机接口一向只能间接地处理打字任务。比如,非侵入式脑机接口拼写器会向使用者提供多个连续的视觉线索,通过分析他们对所有线索的神经反应,确定他们想要的那个字母[8]。最成功的用于打字的侵入式脑机接口(iBCI,需要在脑内植入电极)会让用户控制一个可选择按键的光标,能实现每分钟40个字符的打字速度[6]。但这种侵入式脑机接口和非侵入式眼动追踪器一样,都会占据使用者的视觉注意力,无法明显提高打字速度。
Willett等人开发了另一种方法,能够直接在侵入式脑机接口中完成打字任务,无论效果还是功能都大幅超越了之前的装置。这种方法会在使用者以自己的节奏想象书写时解码他们想要的字母(图1)。

图1|用于打字的脑机接口
通过将意图书写的想象转换成电脑屏幕上的文字,Willett等人[1]开发了一个能让瘫痪者打字的脑机接口。简而言之,植入大脑的电极会测量多个神经元在使用者意图书写每个字母时的活动(线代表每个神经元放电的时间点)。一种名为循环神经网络(recurrentneuralnetwork,RNN)的深度学习模型会学习每个字母产生的神经活动模式,分析这些活动模式在多次测试中的相关性,并形成聚类图。这些信息被一种算法用来预测当前测试对象想要的字母,预测结果再被转化为印刷字体。(图改编自参考文献[1]图2a。)
这种方法需要使用一种分类算法,用来预测瘫痪者在26个字母和5个标点符号中想用哪个——这在使用者想自由选择但意图无法被观察到的情况下是个挑战。为了克服这一挑战,Willett等人首先改变了一种原本用于语音识别的机器学习算法的用途。有了这个算法,Willett等人只需要使用者尝试书写字符时的神经活动,就能展开预测。研究对象每次想象特定字符时的神经活动模式惊人的一致。根据这些信息,研究团队生成了一个带标签的数据集,里面包含了每个字符对应的神经活动模式,并被用来训练这个分类算法。
为了在这样一个高维度空间中实现准确分类,Willett等人的分类算法运用了当前的机器学习方法和名为循环神经网络(recurrentneuralnetwork,RNN)的人工神经网络——RNN尤其擅长预测序列数据。不过,发挥RNN的强大功能需要充足的训练数据,而神经接口的这类数据非常有限,这是因为很少有使用者愿意一连几个小时想象他们在写字。于是,作者运用名为数据增强的方法解决了这个问题:他们将研究对象之前产生的神经活动模式用来生成人造语句,再拿这些语句训练这个RNN。他们还通过在神经活动模式中引入人工变异性(artificialvariability)来拓展数据集,从而模拟人脑发生的自然变化。这种变异性可以提高RNN脑机接口的鲁棒性[9]。
多亏有了这些方法,Willett等人的算法实现了非常准确的分类——94.1%的情况下能选择正确的字符。纳入了预测语言模型(类似于手机上驱动自动拼写纠正功能的模型)后,作者将准确性进一步提高到了99.1%。研究对象能以每分钟90个字符的速度打字,是使用之前侵入式脑机接口时的两倍。
当然,这项研究的成功不仅要归功于机器学习。毕竟解码器的表现最终取决于输入数据的质量。研究团队发现,与意图书写相关的神经数据尤其适用于打字任务和分类。实际上,即使使用更简单的线性算法,也能对书写进行很好的分类,这说明神经数据本身在该方法的成功上起到了很大的作用。
通过模拟该分类算法在用不同神经活动测试时的表现,Willett等人发现了非常关键的一点:在不同的字符间,书写过程的神经活动比画直线的神经活动具有更多时间变异性,而这种变异性让分类更容易了。这个发现应用于指导未来脑机接口的开发。也许听起来有违直觉,但解码复杂行为可能比解码简单行为更有利——尤其是对分类任务来说。
Willett等人的研究已经展现出脑机接口技术的曙光。不过,侵入式脑机接口必须拥有极佳的效果和使用益处,才能证明在患者脑部植入电极所产生的费用和风险是值得的。需要强调的是,打字速度并非决定该技术能否被采用的唯一因素,技术的使用寿命和鲁棒性也要进行分析。作者用积极的证据证明了他们的算法在有限的训练数据下也能表现优异,但可能还要开展进一步研究,确保在神经活动模式改变的情况下,该装置在使用期间的表现能维持不变。此外,还应研究这种方法能否供更多人使用,是否能在实验室外使用。
另一个问题是这种方法如何扩展并翻译成其他语言。Willett等人的模拟显示,拉丁字母表有几个字母写法相似(比如r、v、u),比其他字母更难区分。笔者中的一人()会说泰米尔语,泰米尔语有247个形似的字母,分类起来可能更难。对于那些在语言预测机器学习模型中占比很小的语言来说,翻译的问题也非常突出。
虽然还有许多工作要做,但Willett等人的研究无异于一个里程碑,为侵入式脑机接口的应用打开了新的前景。由于它使用的机器学习技术一直在快速发展,插入最新模型就能解锁未来提升的巨大空间。研究团队已经将他们的数据集免费开放,这也将加速技术发展。最后,作者的方法让我们离实现快速交流的神经接口更进了一步。





