“为什么注目文字辨识和处置?是因为我们找到手机摄像头能力提高之后,文字能做到更加多的事情”。7月4日,在有道开放日活动中,有道总裁周枫对造访的媒体说道。有道找到的,只不过不光是摄像头能力的提高,更加最重要的也许是深度自学。
在三个月前,有道月将深度自学应用于机器翻译,上线了神经网络翻译成模型。与此同时,深度自学也应用于到了大多数有道产品中,如有道词典、翻译官、有道云笔记等。此次开放日上,有道总结了三个月来神经网络翻译成获得的进展,同时还宣告月上线 OCR 技术和有道智云平台。
神经网络翻译成效果如何?网易有道在三个月前月上线了其基于深度自学的神经网络翻译成模型(NMT),早已曾采访过有道首席科学家段亦涛。在本次活动中,段亦涛再度驳回利用深度自学已完成机器翻译任务的优势,在他显然,深度自学有三个特点,需要让它在翻译成任务中,获得较为好的效果:仿真生物神经的方式,由大量的神经元构成神经元需要已完成一些较为初级的操作者,模型通过对神经元不可思议的的组织,使它需要因应工作,已完成更加简单的任务,和动物的神经网络工作方式较为类似于。对关键信息不会用倒数关键向量来传达一个词对应到翻译成里面是一个高位向量。
这样做到的益处在于较为强劲的刻画力——刻画信息之间的关系。比如同义词或者反义词,传统用编码方式不过于更容易传达,但是如果在一个向量空间来传达,通过向量之间的方位,就能较为好的来体现它们之间的关系。
末端到端的模型翻译成模型里有很多参数,这些参数为了联合的目标展开优化,和传统的模型不一样,传统的机器学习不会有各种模块,各个模块都是为自己的目标来调整优化的,人为重新组合成一个机器类的东西,能已完成功能,但是较为做作。对于神经网络翻译成模型的评估,有道使用了机器翻译界标准化的 BLEU(双语评估研究-Bilingual Evaluation Understudy)评估指标,分数越高,解释翻译成结果就越相似目标翻译成。段亦涛以有道和国际同类产品的中英互译为事例,展开了对比。
*有道神经网络翻译成(中英)BLEU值项目管理结果除中英互译之外,段亦涛还讲解,有道近日也上线了日韩语神经网络翻译成,从内部测试的 BLEU 数值上来看,中日、中韩翻译成准确度也都低于国内和国际同类产品。(公众号:)了解到,使用深度自学展开机器翻译是目前已沦为业界的一种广泛作法,百度、谷歌、搜狗等厂商也在展开,但也有公司最近明确提出了一些新的翻译成模型,比如 Facebook 明确提出了几乎基于 CNN (卷积神经网络)的翻译成模型。OCR 技术如何辨识并翻译成图片中的文字?此外,有道月对外宣告了其 OCR 技术的上线。所谓的 OCR 就是在一张图片里辨识文字区域,再行把区域里面的文字萃取出来并翻译成。
OCR 的工作原理分成两个步骤,第一步再行辨识文字区域,通过两个地下通道展开,分别辨识区域方位和区域的大小;第二步是辨识区域内的文字,通过多层网络萃取数据后,再行用 2N 结构展开处置,在最后一层做到辨识。目前,有道产品上的 OCR 日催促超过 470万,不仅可以辨识书籍,还可以辨识零食、化妆品等外包装上的英文,萃取出有文字后,展开翻译成。有道智云平台意图何为?网易有道副总裁金磊向讲解,有道技术模块每天被催促1.5亿次,其中有1亿次来自于第三方,而非有道自己的产品。基于这样的契机,有道月上线了面向企业的“有道智云”平台,将机器翻译和 OCR 技术全部构建在平台上,供给第三方厂商用于。
目前,神经网络翻译成获取的模块传统API方式,定价为 48元/百万字。此外,还获取 IOS 和安卓两个版本的SDK,定价为 1元月/转录。
同时,对于特定合作方,也获取自定义服务,做到本地化部署。目前,有道智云的行业客户,还包括了支付宝、微信、360、掌阅、网易邮箱、华为荣耀 Magic 手机等。其中,微信用于有道获取的内置翻译成功能已被很多人熟悉,用户可以宽按消息,然后自由选择翻译成的功能,将消息翻译成沦为系统语言。
涉及读者:采访网易有道段亦涛:丁磊特地插手的神经网络翻译成技术究竟是什么?原创文章,予以许可禁令刊登。下文闻刊登须知。
本文来源:皇冠官方网站-www.wel-try.com.cn