ChatGPT是2023年最引人关注的科技界新事物之一,它的发布也引发了语言大模型狂潮,
百度、阿里、知乎、商汤、京东等多个公司纷纷推出了其大模型。AI另一个重大领域——视觉GPT也亮相本届中关村
论坛:智源研究院视觉团队正式推出通用分割模型 SegGPT,这是首个利用视觉提示完成任意分割任务的通用视觉模型。
据介绍,SegGPT使用时,摈弃语言类大模型的传统思维,与机器交互时不使用文字而是使用图像。比如用户给出SegGPT一张图并在上面将“彩虹”圈了起来,当用户再给许多张包含有彩虹的图片时,SegGPT就能自动识别上面的彩虹,并将这些部分圈出来。可以说,SegGPT “一通百通”:给出一个或几个示例图像和意图掩码,模型就能get用户意图,“有样学样”地完成类似分割任务。此外,SegGPT还“一触即通”:通过一个点或边界框,在待预测图片上给出交互提示,识别分割画面上的指定物体。利用这个特性,可以实现诸多功能,比如机器人机械手去拿西红柿等物件时,机器人就可以迅速知道西红柿的边缘在哪里,既能拿起西红柿,又不会捏碎,十分精准。
版权申明:本内容来自于互联网,属第三方汇集推荐平台。本文的版权归原作者所有,文章言论不代表链门户的观点,链门户不承担任何法律责任。如有侵权请联系QQ:3341927519进行反馈。