微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

凯发k8娱乐-凯发娱乐官网让机器会说更生动的句子，阿里巴巴论文入选计算机视觉顶级会议

让机器会说更生动的句子，阿里巴巴论文入选计算机视觉顶级会议 -凯发k8娱乐

作者：cnet科技资讯网

2017-07-28 15:04

今天，阿里巴巴的“nasa大脑”idst（institute of data science technology）表示，《hierarchical multimodal lstm for dense visual-semantic embedding》入选2017年国际计算机视觉大会iccv，即计算机视觉领域的顶级会议之一。

这也是阿里巴巴本月内第三次公布论文入选国际顶级学术会议的好消息。

据了解，这篇论文涉及的是计算机视觉（vision）和自然语言处理（language）两个独立领域结合的学术研究，提出了对图像（或图像显著区域）更为细致精确的描述，显示出阿里巴巴在vision&language研究方向的持续挖掘。

该论文通过创新的多模态、层次化的递归神经网络（hierarchical multimodal lstm）方法，可以将整个句子、句子中的短语、整幅图像及图像中的显著区域同时嵌入语义空间，并且自动学习出“句子-图像”及“短语-图像区域”间的对应关系，生成包含更多形容词的稠密语义空间，对图像或图像区域进行更详细和生动的描述。

也就是说，计算机以后不仅能说“一只鸟站在树枝上”，还能说出“一只羽翼未丰的小鸟站在春天抽芽的树枝上”、“一只张嘴乞食的小鸟”、“一只小鸟站在抽芽的树枝上，扑腾翅膀学习飞翔”这样更为生动复杂的句子。

论文作者介绍，这一研究将被用于“看图说话（image captioning）”任务及其他颇有意义的应用场景。如应用于自动导盲系统，将拍摄的图像转换成文字和语音，以便提示盲人避障。

此外，还能用于“跨模态检索（cross-media retrieval）”任务，当用户在电商搜索引擎中输入一段描述性文字如“夏季宽松波西米亚大摆沙滩裙”，系统就能为用户提供最相关的商品。

iccv全称为ieee international conference on computer vision，与cvpr（计算机视觉模式识别会议）和eccv（欧洲计算机视觉会议）并称计算机视觉方向的三大顶级会议。

在本月早些时候，阿里巴巴先后发布三篇论文入选国际多媒体会议acm mm，四篇论文入选国际计算机视觉与模式识别会议cvpr的消息。

今年3月，阿里巴巴宣布启动nasa计划，要为未来20年研发核心科技。在这一计划的号召下，阿里正在人工智能领域全面发力，在机器学习、视觉识别等领域不断追赶世界顶尖的学术水平。

0赞

好文章，需要你的鼓励

凯发k8娱乐的友情链接

京icp证15039648号京公网安备 11010802021500号

举报电话：010-62641205-5060　涉未成年人举报专线：010-62641208 举报邮箱: 　网上有害信息举报专区：

微信扫一扫，关注公众号

见证连接与计算的「力量」

让机器会说更生动的句子，阿里巴巴论文入选计算机视觉顶级会议 -凯发k8娱乐

小牛电动车

人工智能

小牛电动车：继续玩转酷炫设计，但不让智能“绑架”用户

rpa

uipath

自动化

人物

万字长文 | 对话uipath掌门人：巨头的产品是外卖送的塑料叉子

算力

东数西算

算力网络

云计算

划重点！算力网络是东数西算的『神经中枢』

每刻深思

芯片

每深智能

物联网

模拟芯片

模拟计算

对话科技行者

8年18次流片，每刻深思如何借「模拟计算」做芯片颠覆者？

文化

移动计算

大数据

创新创业

物联网

商业

社交新媒体

智能硬件

移动设备

人工智能

汽车

5g

量子计算

云计算

科学

凯发k8娱乐的友情链接