Nat. Commun | 大语言模型LLM加速ALS眼动打字效率

图片[1]-Nat. Commun | 大语言模型LLM加速ALS眼动打字效率-JieYingAI捷鹰AI

ALS (肌萎缩性脊髓侧索硬化症) 患者常因运动能力受损而缺乏有效的沟通方式。目前,眼动追踪成为其主要人机交互界面。然而,眼动打字速度远低于正常语音速度,这给患者生活带来了负面影响。尽管脑机接口(BCI)技术提供了提高打字速度的可能,但因其侵入性限制了应用范围。加速增能和替代性沟通(AAC)中的文本输入技术对于改善严重运动障碍个体的生活质量至关重要。

本文介绍了 SpeakFaster,一种基于LLM(大语言模型)的用户界面。SpeakFaster能以高度缩略的形式输入文本,并减少运动操作量高达57%,且已在离线模拟中表现出良好的性能。非AAC用户测试表明, SpeakFaster的整体打字速度与传统智能键盘相当,重要的是,运动节省操作十分显著。相关研究成果于2024年11月发表于《Nature Communication》期刊上。

SpeakFaster 用户界面

传统的基于n-gram语言模型的单词补全和预测技术依赖于单词对少数前置单词的统计关系。而LLMs能够利用更广泛的上下文,涵盖用户输入的数十至数百个前置单词以及对话的先前轮次。先前研究表明,经过微调的640亿参数Google LaMDA模型能够将单词首字母缩略形式(如“ishpitb”)扩展为完整的短语(如“I saw him play in the bedroom”)。在提供对话上下文的情况下,其前五项精确匹配率可达到48%至77%。然而,对于较长或更复杂的短语,精确匹配率较低。尽管取得了显著的成果,但比较实用的解决方案还需确保在缩略扩展(AE)初次失败时,用户能够在后续尝试中输入任意短语,避免在界面中遇到无法继续输入的“死胡同”问题。这要求系统设计时考虑用户的灵活性,并确保用户体验的流畅性和连续性。

图片[2]-Nat. Commun | 大语言模型LLM加速ALS眼动打字效率-JieYingAI捷鹰AI

Fig1. SpeakFaster UI中缩写文本输入的主要交互途径:仅首字母路径。

为此,研究人员开发了一个用户界面(UI)和两个经过微调的LLMs。LLM "KeywordAE" 能够处理包含首字母缩写和完整或部分拼写单词混合的缩略形式,如图2所示,使其功能超越了以往研究中的LLM。LLM "FillMask" 能够在给定首字母的情况下,利用周围单词的上下文提供可选的完整单词,如图3所示。这两个模型都是通过大约180万个独特的 {上下文, 缩略词, 完整短语} 三元组进行微调的。

图片[3]-Nat. Commun | 大语言模型LLM加速ALS眼动打字效率-JieYingAI捷鹰AI

Fig2. 关键词缩写扩展(KeywordAE)UI途径。

同时,UI包括:首字母缩略(Initials-only AE)、关键词缩略(KeywordAE)和填充掩码(FillMask),以优化文本输入体验。首字母缩略路径适用于简短、可预测的短语输入,用户通过输入首字母,UI调用KeywordAE LLM提供可能的短语选项。若匹配成功,用户可通过点击“扬声器”按钮快速选择并完成输入。若首字母缩略未能找到目标短语,用户可转向使用KeywordAE或FillMask路径。KeywordAE支持逐步拼写单词,FillMask则适用于短语中仅一个单词出错的情况,且允许用户在点击接近匹配的短语后选择替代单词。SpeakFaster UI允许在KeywordAE和FillMask之间切换,但反向切换不可行,因为FillMask适合用于短语输入的最后阶段。

图片[4]-Nat. Commun | 大语言模型LLM加速ALS眼动打字效率-JieYingAI捷鹰AI

Fig3. FillMask UI 路径。

模拟结果

随后,研究人员通过在Turk对话语料库(TDC)上的测试数据集进行模拟,以评估SpeakFaster UI在文本输入中节省运动操作的上限。模拟过程中,首先尝试无关键词的自动扩展(AE)。若未找到匹配短语,则测试三种交互策略:

策略1:逐步拼写更多单词,反复调用KeywordAE,直至找到匹配短语。

策略2:类似策略1,但当最佳选项只剩一个错误单词时,使用FillMask替代KeywordAE。

策略2A:策略2的变体,更积极地使用FillMask,当最佳选项中剩下两个或更少的错误单词时立即使用。

图片[5]-Nat. Commun | 大语言模型LLM加速ALS眼动打字效率-JieYingAI捷鹰AI

Fig4. 关键词缩写扩展(KeywordAE)和FillMask LLM 辅助短语输入的模拟策略。

结果发现,策略2的KSR(节省按键率)优于策略1,表明结合使用FillMask和KeywordAE可以减少运动操作,更快地找到正确单词选项。然而,策略2A的激进使用FillMask会导致KSR降低。KSR随LLM选项数量的增加而增加,但在五个选项时趋于平稳,支持了UI设计中包括五个最佳选项的决策。当对话上下文可用时,KeywordAE可以更有效地找到匹配短语,而无需多次LLM调用。对话上下文的缺失会显著降低这一比例,这突显了上下文对LLM预测的重要性。

模拟结果表明,上下文感知的AE和FillMask可以节省30-40%的运动操作,但实际性能可能受到视觉和认知负担、人为错误以及云中LLM调用带来的网络延迟的影响。因此,通过实证用户研究来测试LLM驱动的AE文本输入范式在SpeakFaster中的实际性能是必要的。随后,研究人员进行了针对非AAC用户和ALS患者的眼动输入用户的实验室和现场研究。

图片[6]-Nat. Commun | 大语言模型LLM加速ALS眼动打字效率-JieYingAI捷鹰AI

Fig5. 模拟结果表明,SpeakFaster UI可大幅运动节省。

用户研究概述

研究人员为评估SpeakFaster UI的认知和时间成本以及其对文本输入速度的影响,对两组用户进行了测试。实验分为脚本化阶段和非脚本化阶段。脚本化阶段包含10个TDC语料库中的对话,每个对话6个回合。用户使用常规键盘(如Gboard或Tobii眼动键盘)与SpeakFaster UI输入文本。在非脚本化阶段,用户与实验者进行五个六回合的自发文本对话,用户开始时使用首字母缩写,随后根据需要选择KeywordAE或FillMask进行输入。所有参与者在实验前观看演示视频并进行练习。非AAC用户进行了五次练习对话,眼动用户则进行了两天、每天四小时的练习。

非AAC用户的SpeakFaster文本输入速率与基线相似

19名非AAC用户被随机分为两组:单指组(9人)与无约束组(10人)。单指组仅使用食指输入,无约束组则自由使用双手。

文本输入准确度:在脚本化对话中,SpeakFaster和Gboard基线的文本输入准确度没有显著差异。单指组的平均单词错误率(WER)在基线和SpeakFaster条件下分别为1.55%和2.53%,无约束组分别为3.96%和2.89%。双向线性混合模型分析显示,姿势和UI对WER没有显著主效应且二者的交互作用也不显著。

文本输入速率影响:在脚本化对话中,SpeakFaster UI提升了文本输入速率约13%,但在非脚本化对话中,速率下降约10%。UI与对话类型间的交互作用显著。三向线性混合模型未显示其他显著主效应或交互作用。

SpeakFaster显著的运动节省

尽管SpeakFaster在文本输入速率方面的影响复杂,与基准相比未出现整体显著变化,但它对键盘速度比率(KSR)产生了显著的正向影响。在脚本化和非脚本化对话中,SpeakFaster UI范式均显著增加了KSR,表明用户通过使用该系统可以节省运动操作。

与Gboard基准相比,SpeakFaster在脚本化对话中平均KSR增加了约56.4%,在非脚本化对话中增加了约45%。这些结果表明,无论对话类型如何,SpeakFaster都能有效减少用户的按键操作。图6C面板显示,用户成功仅使用首字母AE调用输入句子的对话回合百分比与脚本化对话中的模拟结果相当。然而,在非脚本化对话中,单一AE调用成功的句子百分比略低,平均为65%,这可能是非脚本化文本内容与训练模型的脚本化对话内容之间存在不匹配造成的。

图片[7]-Nat. Commun | 大语言模型LLM加速ALS眼动打字效率-JieYingAI捷鹰AI

Fig6. 非 AAC 用户研究结果表明,KSR有所提高,但文本输入率的变化不一。

模拟准确预测用户的按键节省量

实验室研究表明,用户的键盘速度比率(KSR)可以通过模拟高精度预测。模拟结果能够准确预测用户的KSR值,尤其在脚本化对话中表现最佳。用户在非脚本化对话中的表现偏差更大,可能与认知负荷和误操作有关。非脚本化对话的仿真KSR显著低于脚本化对话,显示出运动节省效应的领域不匹配。尽管存在领域差异,SpeakFaster仍有效提高非脚本化对话的KSR,表明其适应性强。

图片[8]-Nat. Commun | 大语言模型LLM加速ALS眼动打字效率-JieYingAI捷鹰AI

Fig7. 模拟结果很好地预测了 SpeakFaster 中的用户行为。

SpeakFaster 中用户交互的时间特性

IKI是指用户通过软键盘输入两个连续按键之间的时间间隔,不包括非按键操作和自动补全。结果发现,使用SpeakFaster UI时,IKI显著高于基线UI。在非脚本化对话中,IKI显著增加,相比之下,脚本化对话下的IKI增加较小。这可能是由于,在自由形式对话过程中需要使用缩写机制时,用户的认知负荷会增加,导致更多的时间消耗。

对于非AAC用户,SpeakFaster UI基于LLM的文本输入显著提高了按键节省率,节省幅度达到50%。相比传统移动输入方式,这一提高表现尤为突出。尽管在脚本化对话中,用户输入速度提高了约13%,在非脚本化对话中却出现了约10%的速度下降,这表明UI引入的认知负担与自发文本输入的复杂性之间存在一定的互动影响。

图片[9]-Nat. Commun | 大语言模型LLM加速ALS眼动打字效率-JieYingAI捷鹰AI

Fig8. 在使用 SpeakFaster UI 的过程中,评估和选择 LLM 提供的选项耗费了大量时间。

讨论

SpeakFaster通过微调的大型语言模型(LLM)增强了眼动辅助沟通(AAC)系统的短语扩展功能,并显著提高了文本输入速度。该系统通过减少扫描次数,优化了输入体验,并能够应用于不同的AAC输入方式。未来的研究将进一步优化LLM的容错性,以扩展到更多语言和设备,提升其在不同用户群体中的可用性。

Reference:

翻译整理:BrainGeek

仅用于学术分享,若侵权请留言,即时删侵!

图片[10]-Nat. Commun | 大语言模型LLM加速ALS眼动打字效率-JieYingAI捷鹰AI

图片[11]-Nat. Commun | 大语言模型LLM加速ALS眼动打字效率-JieYingAI捷鹰AI

加入社群

欢迎加入脑机接口社区交流群,

探讨脑机接口领域话题,实时跟踪脑机接口前沿。

加微信群:

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享