我们正处于一个信息大暴发的时代,每天都能产生数以百万计的新闻资讯!
虽然有大数据推荐,但面对海量数据,通过我们的调研发现,在一个小时的时间里,您通常无法真正有效地获取您感兴趣的资讯!
头条新闻资讯订阅,旨在帮助您收集感兴趣的资讯内容,并且在第一时间通知到您。可以有效节约您获取资讯的时间,避免错过一些关键信息。
IT时报记者 孙妍
香农、图灵、冯·诺依曼……当商汤科技创始人汤晓鸥出现并对大家自然微笑时,现场有不少人泪目。在2024年世界人工智能大会(WAIC2024)商汤科技“大爱无疆·向新力”论坛上,商汤科技董事长兼CEO徐立在开场演讲时用一个AI视频致敬了人工智能行业的几位重要奠基人,而这个视频正是由Vimi生成的。
Vimi是商汤此次发布的一大C端主力产品,国内首个真C端可用、可控的人物视频生成大模型。而更有颠覆性的是国内首个所见即所得的模型——商汤“日日新5o”,实时多模态流式交互对标GPT-4o,开启了全新的AI交互模式。
此外,商汤也加入了大模型价格战,近期推出了“大模型0元Go”计划,凡是“日日新”的新注册用户,都可获得涉及调用、迁徙、训练等多项免费服务。同时,商汤还将免费赠送5000万Tokens包,并且派出专属搬家顾问,帮OpenAI用户实现零服务成本迁移。而且,接入具备“日日新5o”能力的端侧大模型,每台设备9.9元包年。
“日日新5o”对标GPT-4o 实时多模态流式交互
工作人员对着手机镜头说了一句:“你跟大家打个招呼吧。”“日日新5o”就自动识别出工作人员佩戴的胸卡带子上的字眼,判断出现场就是世界人工智能大会,并表示在这个地方可以“好好学习”。
从现场演示效果来看,“日日新5o”已经具备很强的识别物体能力,并能用自然语言来描述自己所看到的物体。“这书叫《反脆弱》,从不确定性中获益,讲的是怎么在混乱里找机会。作者塔勒布,来自土耳其,还写了《黑天鹅》。里面提了不少新词,反脆弱等等,对现在挺有启发的。”
随便翻开一页书,“日日新5o”就能自动用自己的语言来介绍,背后涉及的技术不是简单的OCR识别文字,而是识别图文给出轻松解读和简要总结,而且阅读和总结的速度远远快于人类,几乎在瞬间完成。
能听会看更会找话题,就如同真人聊天一般的交流对话,这种交互模式特别适用于实时对话和语音识别等应用,其多任务适应性强,能够在同一模型中自然处理多种任务,且根据不同上下文自适应调整行为和输出。这些能力到底有什么用?徐立表示,连一个台灯都能调用云和计算资源来实时交互,那么所有智能设备都可以,包括智能音箱、智能车载、智能眼镜等。
“日日新5o”这一多模态大模型以“日日新5.5”为基座大模型,能够实现对标GPT-4o的交互体验,正是源于“日日新5.5”基础模型能力的全面提升。
今年4月,商汤宣布“日日新5.0”成为国内首个对标GPT-4 Turbo的国产大模型,短短两个月,综合性能较“日日新5.0”平均提升30%,在数学推理、英文能力和指令跟随等能力明显增强,交互效果和多项核心指标实现对标GPT-4o。
据了解,“日日新5.5”模型训练是基于超10TB tokens高质量数据,包括大量合成的思维链数据,以提升思维能力。同时,它采用混合端云协同专家架构,最大限度发挥云边端协同,降低推理成本。
这么智能大模型会不会用不起?商汤表示,接入具备“日日新5o”能力的端侧大模型,每台设备9.9元包年。
一张照片稳定输出1分钟视频 Vimi可控人物视频生成大模型
一波接一波的参观者,商汤展台一位工作人员忙得汗流浃背,他负责介绍的展品正是登上“镇馆之宝”的Vimi,它是首个可控人物视频生成大模型,而且是真C端可用。
使用过市面上让照片动起来的AI视频应用后,你会发现,几乎所有AI大模型做不到人物的一致性,动作、表情无法精准控制,人物长相、背景效果变幻莫测,而且有的限制时长在3~4秒,完全没办法满足AI视频创作者的需求。
目前该产品已经对C端开放,在商汤科技官网上预约开通后,用户只需上传一张任意风格的照片,就能生成和目标动作一致的人物类视频,比如写真视频、数字分身、表情包等,头发、服饰、背景变化、光影变化等都能自动生成,而且手势、头发和肢体十分合理、自然、和谐,不会显得呆板和失真。
聊天、唱歌、舞动等娱乐互动场景任意挑选,唯美写真风、奇幻风等多种风格随意切换,写真影楼们是不是胆战心惊了?它的应用场景和市场空间远不止于此。
要知道,Vimi“稳定输出”的时长是1分钟,这和OpenAI的sora基本对齐了。
以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。
快照生成时间:2024-07-09 12:45:01
本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。
信息原文地址: