科大讯飞参加ICPR 2018 MTWI再显雄厚实力
国际模式识别大会(International Conference on Pattern Recognition, ICPR)起始于1972年,是国际模式识别联合会(The International Association for Pattern Recognition, IAPR)组织的模式识别领域的旗舰级学术会议,今年是ICPR创办40余年来第一次走进中国内地。
科大讯飞深耕智能语音与人工智能技术研究和发展已有十九年,在语音合成、语音识别、口语评测、语言翻译、声纹识别、人脸识别、自然语言处理等智能语音与人工智能核心技术上代表国际最高水平。此次,科大讯飞包揽ICPR 2018 MTWI三项冠军,证明科大讯飞不仅在智能语音上国际领先,在计算机视觉领域也具有雄厚实力。

关于ICPR 2018 MTWI
本次MTWI(Multi-Type Web Images,多样式网络图像)识别挑战赛由模式识别领域的国际盛会ICPR举办,吸引了三星中国研究院、商汤科技、网易、清华大学、北京大学、中科院等众多产业界和学术界的著名研究机构参与。
此次比赛共分为三个子任务:
任务一(文本行识别)要求参赛者识别出给定的文本行图像中的文字;

任务二(文本检测)要求参赛者在给定的网络图像中检测出文本行所在的位置;

任务三(端到端文本检测和识别)则需要同时对文本行进行检测并识别。

MTWI挑战赛使用的数据集是由阿里巴巴收集和标注的淘宝商品类图像,其中训练集和测试集各有一万张图像,每支参赛队伍有三次机会提交测试集的测试结果,由比赛举办方评测得分,并按照每支队伍的最优成绩排名。

数据集示例
用新的算法应对新的难题
作为亚太地区最大的智能语音与人工智能上市公司,科大讯飞不仅在智能语音、自然语言处理等领域硕果累累,也在图文识别领域深耕多年,并成功将文字文档识别技术应用在移动终端输入法、教育考试、司法辅助等领域。为了在其他场景中验证图文识别技术的有效性和领先性,科大讯飞与NELSLIP(National Engineering Laboratory for Speech and Language Information Processing,中科大语音及语言国家工程实验室)的杜俊教授、戴礼荣教授团队联合参加了此次场景更为复杂多变的MTWI识别挑战赛。
科大讯飞在图文识别领域的多年经验主要集中在教育、司法、输入法等场景下,已形成一套完备的基于深度神经网络模型的文档图像分析识别的系统。然而,与这些应用场景不同,网络图像识别的主要难点在于其字体变化多样、存在几个到几百像素字号、多种版式,并且还包含较多干扰背景。另外,在本次比赛中,相较于英文和其他字符,结构更复杂的汉字占很大比例,且统计发现在训练集中有75%的汉字出现不到50次,这无疑给识别和检测都带来了很大的困难。
针对上述现象,在识别任务中,科大讯飞与NELSLIP联合团队基于Encoder-Decoder思想,提出了一种新的结构分析算法,该算法将中文拆成多个部件、英文单词拆成单个字符后借助Attention进行识别,在准确识别出多个部件后再利用动态规划策略进行重组,从而得到最终的输出结果,这种依赖分析结构的方法,可以有效地解决字体多样、结构复杂带来的识别率低下的问题。除此之外,还使得模型具备了识别低频词和集外词的能力。在检测任务中,为了解决文字尺度变化大、文本行朝向不一致的问题,科大讯飞与NELSLIP联合团队对输入图像构建空间金字塔,在各个尺度上预测各种朝向文本行所在的任意四边形的顶点,从而完成文本行的准确定位。
技术早已应用在现实
在手写识别应用方向,科大讯飞AI研究院图文识别团队具有行业内领先的在线和离线手写识别系统,可以进行中文、英文、数学公式等多种应用场景下的在线和离线文字字符识别,相关的技术已经成功在讯飞输入法、教育评测、智能辅助评卷等应用场景获得实用;面向公检法等应用场景的文档图像分析与识别系统,目前也已经在自动编目、辅助判案等场景、智慧城市中的文档信息结构化处理等应用场景获得实用。
在科大讯飞的讯飞语记、讯飞阅读、讯飞有声等app中,也有图文识别系统的应用。日常的工作学习中,纸质文献、PDF、老师板书等再也不需要拍下来再逐字敲进文档,比如用讯飞语记就可以将图片中的文字直接转成可编辑的文本,大大提高工作学习效率。
计算机视觉的发展,特别是文档图像的分析与识别应用,和智能语音、智能交互、数据信息分析等多方面的综合应用一样具有十分广阔的前景。未来,相信科大讯飞能够通过的“平台+赛道”的AI落地战略,通过讯飞开放平台,将各项AI能力更好地为改变信息的交流以及互联互通,创造更大价值。
-
下载忆术家苹果版
阅读学习 | 249.9M
忆术家苹果版是一款优质的语言学习app应用,英文名为Memrise,软件由世界著名的记忆教练Ed Cooke运用记忆增强技术为广大语言学习者提供轻松的记忆方式,让你的语言学习之路更加顺畅。忆术家ios版能够为广大用户提供多达几十种语言学习服务。
-
下载讯飞星火电脑版
办公商务 | 123.62M
讯飞星火电脑版是由科大讯飞推出的新一代电脑AI智慧助手,具有先进的语音识别、自然语言处理和机器学习能力,提供语言理解、知识问答、逻辑推理、数学题解答、代码玛理解与编写等多种能力,为用户的工作、学习、生活等方面提供便捷服务。
-
下载木鸟民宿苹果版
生活实用 | 280M
木鸟民宿ios版是针对苹果ios设备用户推出的一款在线房屋预订平台软件。木鸟短租ios版覆盖全国396座城市,共计30万套特色房源,北京、上海、厦门、青岛、三亚等热门旅游城市全覆盖,为用户提供最合适的住宿房源。
- 卢伟冰今日17点户外直播:小米17 Max大爆料,六大AIoT新品齐登场05-17
- 纯电续航220公里,限时10.99万起!奇瑞风云T9长续航版正式上市05-17
- 腾势第50万辆整车下线,N9闪充版旗舰SUV重磅登场05-17
- 2026渣打上海10公里跑开赛,擎天租机器人天团跨界助跑05-17
- iQOO Z11 Lite 5G现身Geekbench 搭载天玑6300芯片05-17
- 更多安卓设备即将支持与苹果设备互传文件 有没有你的?05-17
- 索尼Xperia 1 VIII确认中国制造 生产代工厂与前代一致05-17
- 联想发布ThinkPad P14s Gen 7 最高可选96GB内存05-17
- 苹果华为小米等多个品牌手机开启价格下调 幅度数千元05-17
- 蔚来全国充换电站突破八千八百座 换电服务累计超一亿次05-17
- Brabus最新发布Bodo豪华旅行车:V12动力限量77辆05-17
