fb开发新的神经网络模型,提供更具“吸引力”的照片标题

对于那些对facebook今年在社会中所面临的一系列挑战感到惊叹的人来说,该人工智能团队的最新研究成果提供了一个引人入胜的目标:让ai更有吸引力。facebook国内代理
facebook ai部门的研究人员找到了一种培训机器学习模型的方法,不仅可以标注图像说明,而且可以对照片,采用可能对某个人来说更有趣的多种评论风格进行描述。
传统的机器学习任务成功地将描述自动地放在图像上对于验证机器是否理解图像的内容很有用,他们写道,但它们并没有像人物那样吸引人类。
在这种情况下,人格可以从甜蜜到傲慢到焦虑,以及两者之间的各种安排。例如,一张三明治的图片可以被亲切地标记为这是一个可爱的三明治,或者更具嘲弄性,我做的食物比这更好。
这项工作是对几种最先进技术的混搭,例如如何确定图像的内容,以及如何生成新颖的句子。
redhat?openshift应用程序运行时可帮助企业使用云交付模型,并以redbative方式简化red hat openshift平台上应用程序和服务的持续交付。red hat openshift应用程序运行时基于成熟的开源技术,还为开发团队提供了多种现代化选项,以便为现有应用程序平稳过渡到云。
该论文通过个性吸引图像字幕,并发布在arxiv预印本服务上,由kurt shuster,samuel humeau,胡海良,antoine bordes和facebook ai research的jason weston撰写。
神经网络模型的作者创建的,其中它们进行复制transresnet,依赖于内置于编码的图像数据的几个国家的最先进的方案,包括了resnet152编码器通过sebastian马塞尔和晏rodriguez的发达一块在2010年被称为torchvision的软件。
然后将该编码器的输出给予具有relu [限制线性单位]激活单位的多层感知器。为此,作者添加了一种人格特质的嵌入。接下来,作者训练两个编码器,他们称之为下一个话语检索任务,它利用一个数据库,该数据库包含17亿对话语,其中一个编码上下文,另一个编码下一个话语的候选者。
然后,作者表明transresnet在一系列标准基准测试中具有竞争力,甚至更优越,可以为图像应用标题。但是为了表明一个标题的个性可以产生影响,他们让一群人看到人为创作的标题和自动生成的标题,并说出他们发现更具吸引力。
报告作者:发现以人格为条件的字幕比图像的中性字幕更具吸引力,获胜率为645%,使用二项式双尾检验具有统计学意义。
在将他们的工作与人们撰写的引人入胜字幕进行比较时,研究人员发现我们最好的transresnet模型几乎与人类作者相匹配,获胜率为495%。
作者指出,这是进一步发展其模型的基准,这个领域很快就会出现超人表现的可能性。
有趣的是,作者留下了一些他们无法模仿的人格特征,例如分配中心,无耻,灵活,朴实和不可见,他们写的所有这些都难以解释。
关于这个世界的情绪,所有这些都可能有更广泛的教训。在研究组中,人们被要求评估标题的吸引力,作者写道,当他们被提出两个表达没有特定个性的标题时。一方面,这只是一个事实,一个表达积极观点的标题 - 好猫咪! 或者一些这样的 - 另一方面,人们倾向于发现积极的标题更具吸引力。但是当出现负面字幕时,人们发现它们不像那些只是事实的那样具有吸引力。足够的消极性,可能是外卖。