商标3840-480

基于IMU和深度学习的手写识别智能笔

随着电子元器件小型化发展极大地促进了方便的人机交互设备的发展,手写识别广泛地应用在我们日常生活中,比如银行、医疗、邮政、法律服务等。手写字符识别方法主要分为在线和离线识别两大类方法。当前在线识别方法对先前写入的文本文件静态图像进行扫描,其广泛应用于各个领域,比如银行、医疗和法律行业以及邮政服务。比如光学字符识别(OCR),被广泛用于将旧手稿图像中的文本数字化。这些方法都基于图像,或需要多个设备,成本较高。

日本Tsige Tadesse Alemayoh团队设计了一种基于深度学习的紧凑型数码笔,可实现36个数字和字母的实时识别,与传统方法不同,该智能笔通过惯性传感器捕获写者的手部运动数据实现手写识别。原型智能笔包括一个普通的圆珠笔墨水室、三个力传感器、一个六轴惯性传感器、微型控制器和塑料结构件。

手写数据源自6名志愿者,数据经过适当的调整和重组后用于使用深度学习方法训练。训练模型测试了四种神经网络,视觉变换器(ViT)、DNN(深度神经网络)、CNN(卷积神经网络)和LSTM(长短期记忆),其中ViT网络的实验结果最优。在IMU和力传感器的组合下,准确率高达99.05%。

于此同时,团队还使用了开源数据用于验证训练的神经网络模型,同样得到了很好的结果。如下图所示,列表示预测的字母/数字,而行表示实际的字母/数字,ViT模型在1000次测试中取得了优异的结果。

该团队表示,未来这种方法将扩展到包括更多的主题、更多的字母数字以及特殊字符。同时将研究更多的数据集结构化方法和新的神经网络模型以提高性能,最终实现强大的手写实时识别系统,实时识别连续的手写单词。

原文链接:https://www.mdpi.com/1424-8220/22/20/7840