小米 表格(小米表格 app)

本文主要介绍小米表单(小米表单app),下面一起看看小米表单(小米表单app)相关资讯。
小米创始人、董事长兼首席执行官雷军通过社交媒体表示,小米工程师开发了一套表格识别算法,高效准确地将图片中的表格转化为可编辑的excel文件,极大地改善了体验。
同时,小米技术官方也发文解读了表格识别算法的一些技术实现原理,涉及整体框架、表格检测算法、表格识别算法、对齐算法等。
以下为小米科技官方解读:
表格识别是指将图片中的表格结构和文本信息识别成计算机能够理解的数据格式。在办公、商务、教育等场景中具有广泛的实用价值,一直是文档分析和研究的热点问题。围绕这个问题,我们开发了一套表格识别算法,高效准确地从图片中提取表格,转换成可编辑的excel文件。目前该算法已成功落地小米10s系列、mix fold 2等旗舰机型。可以从相册更多表格中识别,也可以扫描进入体验。
▲图1雷军在mix fold 2发布会上介绍小米表格识别算法。
一、背景大部分人在日常办公中都会和文档打交道,主要是表格和文档,其中表格的重要性毋庸置疑。excel和wps是各行各业桌面办公场景下电子表格的事实标准。我们经常会遇到需要将表格图片的内容导入excel的情况。
以前只能对着图片一点一点的把内容输入excel,效率低,容易出错。近年来,随着技术的发展,ocr(光学字符识别)的可用性不断提高,用户可以使用ocr软件从图片中自动提取文本信息。
但是对于表格场景,仅提取文本是不够的,用户需要反复手动复制粘贴来恢复电子表格,仍然需要大量的时间。因此,我们实现了一套表格图像提取方案,可以有效提高用户的办公效率。图2显示了我们的识别效果:
▲图2表格识别效果展示
二、总体框架图3展示了我们目前算法的一个总体框架,主要包括手机端的表格检测算法和服务器端的表格识别算法。
▲图3表格识别技术框架
桌子检测算法主要是从图片中准确提取出桌子区域,并对桌子进行校正,得到平整的桌子图片,用于下一步的桌子识别;表格识别算法主要是从图片中提取表格结构和表格文本内容,然后将这些信息有效组合输出可编辑的excel表格。下面将详细介绍表格检测算法和表格识别算法。
三、表格检测算法表格检测有以下几个难点:一方面手机上的算法和内存有限,另一方面对表格检测结果的要求很高,表格中往往包含其他单词。如果不正确的检测结果会对后续的识别结果产生负面影响。我们的表格检测算同时检测出表格区域和表格的四个角,通过透视变换和我们自研的反扭曲算法得到一个只有表格区域的平面表格。效果如图4所示。
▲图4表格检测算法的效果
表检测算法的框架如图5所示。因为算法在手机上运行,需要保证运行速度和模型大小,所以我们采用了非常轻量级的一阶段检测框架,主干采用shufflenetv2;当检测到桌子框架时,返回关键点信息,便于对桌子进行透视校正,并使用机翼损失代替l1损失,使关键点回归更加准确。在数据方面,利用算法从公共数据中低成本挖掘出大量的表格检测数据,显著提高了表格检测效果。最终模型大小约1m,在小米手机上运行流畅。
▲图5表格检测算法框架
四。表格识别算法表格识别算法如图3所示。算法运行在服务器端,主要包括文本检测、文本识别、表格结构预测、单元格匹配、对齐算法、excel导出等模块。文本检测识别模块采用的是我们之前已经推出的ocr服务,这里不再重点介绍。下面将主要介绍表格结构预测算法和单元格坐标聚合算法。数据方面,由于表格数据标注困难,我们完成了一套表格渲染工具,可以合成各种样式的表格数据,大大降低了标注成本。
桌子的形式多种多样,有有线桌子、无线桌子、水平桌子等。,而且表格中有很多复杂的合并单元格;此外,图片中含有阴影、光照、扭曲、变形,也增加了表格预测的难度。以前有很多关于表结构预测的研究。在传统算法的基础上,提取表格行,然后从表格行中推导出行、列和合并单元格的信息。在目标检测的基础上,检测单元格,然后用后处理方法组织单元格,恢复表格结构;基于语义分割,分割表格行,然后对分割结果进行后处理,恢复表格结构;上述算法都有一个共同的问题,如后处理复杂、鲁棒性差,通常需要针对具体表格进行算法适配。
目前主流的方法是用html超文本表示表格,然后对html进行编码,预测html序列和对应的坐标信息。这种方法在开源数据集上取得了很好的效果,平安科技和百度也采用了这种方案,但是html中标签过多导致表格结构识别错误。针对这种方法的缺点,我们采用了一种全新的表格编码方法,只需要四个标签就可以表示任意结构的表格,大大提高了表格结构识别的准确率。
如图6所示,表格被定义为由m*n个单元格和内部合并单元格组成的矩阵。 0 :表示普通单元格。 1 意味着将单元格合并到左边2 意味着向上合并单元格;并且每个单元格对应一个坐标框,这样ocr识别的结果可以在后面与之匹配。这个定义的优点是:没有人为的语法规则;数据组织具有天然的二维排列属性,网络更不容易漂移;几个标签就可以恢复任何表结构,不存在开集分类问题。
▲图6表格结构定义
我们采用如图7所示的表结构预测框架。该方法基于cnn变换解码器的图像序列学习网络,在解码阶段包括两个预测头,分别预测表格序列和表格单元的坐标信息。
▲图7表格结构预测框架
表格结构效果如图8所示。表格结构识别算法预测每个单元的位置信息和对应于每个位置的顺序信息。图8中左右两张图片一一对应,同色的检测框对应右边的细胞cell,细胞是有顺序的。
▲图8表格结构识别效果展示
在表格识别的部署过程中,使用了fastertransformer推理框架进行加速,我们的推理速度提高了20倍左右,明显改善了用户体验。
单元格坐标聚合算法主要是将文本检测到的内容与表格预测的单元格正确匹配,算法流程如图9所示。文本框匹配单元格框,首先匹配iou最大的一个,如果iou=0,则匹配中心距离最近的两个框。如果一个单元格包含多个文本框的结构,则应该在单元格内按阅读顺序输出,并实现智能换行,提高用户体验。
▲图9单元坐标聚合算法流程
最终,我们的算法在表结构提取和端到端表恢复的准确率上领先于业内主要竞争对手。
动词 (verb的缩写)对齐算法上面的算法已经基本恢复了表格信息,但是同一个表格中单元格的对齐不同,可能会有 左对齐, 右对齐 和 中心对齐和同时。我们设计了一套对齐算法,通过分析表格中单元格的位置信息实现自动对齐,完整还原真实表格,明显提升用户体验。对齐算法的效果如图10所示:
▲图10对齐算法的效果
了解更多小米表单(小米表单app)相关内容请关注本站点。