Facebook推出可识别表情包的AI Rosetta

新知榜官方账号

2023-10-30 10:04:15

背景

表情包已经成为我们日常生活中不可或缺的一部分,但是表情包上的文字无法被搜索、无法被计算机监测,不便于识别和使用。因此,Facebook推出了一款名为Rosetta的AI,可以识别表情包上的文字,并能用于照片搜索、识别菜谱、辅助视力障碍者等多个功能。

Rosetta的识别过程

Rosetta的识别过程不同于普通的OCR,它使用FasterR-CNN识别出有字的区域后,再进行文字识别。具体步骤包括训练一个可以将图像表示为卷积特征映射的CNN,训练一个区域提议网络(regionproposalnetwork,RPN),将图片分为宽5高7共35个小特征图作为输入,RPN找到一些看起来有文字的目标区输出,从每个区域特征图中提取信息,用分类器识别,之后按提案置信度排序,选择最靠谱的提案。Rosetta使用的模型结构包括FasterR-CNN检测字符和有CTC损失的ResNet-18完全卷积模型进行文字识别。在训练中,Facebook使用了Caffe2支持的Detectronframework和LSTM来提高模型准确性,并采用特殊的训练技巧来保证模型稳定和准确。

数据集的获取

Rosetta需要学习的语言种类太多,所以Facebook除了用人类手工标注的数据之外,还找了一些机器生成的数据集,也就是,找一个AI数据民工,强行给一些无辜的图片加字。这样,批量生产的带字图片就自带了标注,一个AI生产数据,喂给另一个AI来训练,自给自足。如果以后的模型都用AI生产的数据来喂养的话,估计几十年后不少模型的卖点就变成了:“人类标注,手动调参,纯天然原生态,古早味模型。”

本页网址:https://www.xinzhibang.net/article_detail-18359.html

寻求报道,请 点击这里 微信扫码咨询

关键词

Facebook Rosetta 表情包 AI 识别 文字

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯