• 我的订阅
  • 科技

刚刚!字节跳动豆包上线图片理解,大模型走向多模态|钛媒体AGI

类别:科技 发布时间:2024-12-04 09:51:00 来源:钛媒体APP
刚刚!字节跳动豆包上线图片理解,大模型走向多模态|钛媒体AGI

(图片来源:林志佳拍摄)

国内活跃度最高的AI大模型应用正走向“多元化”。

12月3日消息,钛媒体AGI获悉,字节跳动豆包日前上线了一项实用功能——图片理解。目前,豆包APP及豆包PC新增照片及相机按钮,上传图片后可识别图片内容。

相比普通的OCR识别(光学字符识别)技术,豆包的“图片理解”并非识别文字,而是识别图片信息。比如,问一个景点在哪里,问动漫人物是谁,豆包都能流畅进行回答。

刚刚!字节跳动豆包上线图片理解,大模型走向多模态|钛媒体AGI

再比如,早前,马斯克创立的人工智能公司xAI宣布为Grok增加了图像理解功能,而马斯克本人也出来官宣了,并发布以下图片,称“Grok现在能够理解图像了,甚至还可以解释笑话”。

刚刚!字节跳动豆包上线图片理解,大模型走向多模态|钛媒体AGI

这是一幅四格漫画,内容是一个关于物理学家和牛顿的笑话。把这个四格漫画发给豆包,也能看到它对这个笑话的解析。

1. 第一格:文字:“HOW DO WE KNOW IF THEY'RE ACTUALLY DEAD OR JUST PRETENDING”(我们怎么知道他们是真的死了还是只是假装?)图像:两个人站在战场上,周围有许多倒地的士兵。

2. 第二格:文字:“PHYSICISTS”(物理学家),图像:两个人开始观察和思考。

3. 第三格:文字:“Discovered”(发现了),图像:两个人似乎有了某种发现,表情变得兴奋。

4. 第四格:文字:“Isaac Newton invented gravity”(艾萨克·牛顿发明了重力),图像:两个人得出结论,表情满意。

笑话解析:这个笑话讽刺了物理学家有时会提出一些看似荒谬但却基于科学理论的解释。漫画中的两个人在战场上看到士兵倒地,他们没有考虑士兵是死是活,而是思考这背后的科学原理。最后,他们得出结论是牛顿发明了重力,暗示士兵是因为重力而倒地。这种思维方式幽默地表现了物理学家对科学原理的执着和有时不切实际的思考方式。

你认为,上述这个解析结果怎么样?符合事实吗?

事实上,随着AI大模型狂飙两年,企业越来越多瞄向更实用的落地场景,“图片理解”就是其中一项,它可以解决一些搜索、查找评估、文本写作等场景的需求,这使得大模型更加贴近实用场景需求。

QuestMobile最新数据显示,2024年10月,AI原生应用行业月活跃用户规模达到8976万,同比增长373.0%。用于情感陪伴、职场办公、趣味休闲、文案写作、教育学习、生活助手、图像生成、行业顾问等场景中。

公开资料显示,字节跳动的豆包App已经成为中国日活用户最高的AI大模型产品。

同时,截止到2024年10月,在网页端访问量方面,Kimi智能助手、文心一言、豆包、通义千问分别达到2863万、2111万、1688万、1012万;在移动端AI原生应用方面,行业月活规模总数达到8976万,同比增长373%,其中,豆包、Kimi智能助手、文小言月活跃用户分别为4839万、1650万、1179万。

随着AI浪潮的兴起,各大厂商都在积极探索与AI大模型融合发展的新契机,AI有望引领全球新一轮科技创新周期,从而促使效率进一步增长。

据Statista数据显示,预计到2030年,全球AI领域规模将超过1.8万亿美元。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-04 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

字节跳动为企业提供极具性价比的多模态大模型能力
...正式发布豆包视觉理解模型,为企业提供极具性价比的多模态大模型能力。豆包视觉理解模型千tokens输入价格仅为3厘,一元钱就可处理284张720P的图片,比行业价格便宜85%,
2024-12-18 17:35:00
终于拿到内测!豆包-PixelDance真是字节视频生成大杀器
...个面向不同细分领域(视频生成、音乐和同声传译)的多模态大模型,同时给之前已有的通用语言模型、文生图模型、语音模型来了一波大升级。这些模型共同构建起了火山引擎的「豆包全模态大模
2024-09-30 09:51:00
豆包再降价,字节“饱和式”进攻仍在继续
...AGI更进一步,大家都在加速。实际上,字节对视觉化、多模态模型的重视度肉眼可见的提升。12月11日,据智能涌现报道,字节提升了即梦的产品优先级,尝试用新的路径打造AI时代的“
2024-12-20 09:25:00
豆包“王炸”:字节跳动一天发布两款视频生成大模型
...同声传译模型,已全面覆盖语言、语音、图像、视频等全模态,全方位满足不同行业和领域的业务场景需求。在产品能力日益完善的同时,豆包大模型的使用量也在极速增长。据火山引擎披露,截至
2024-09-24 18:15:00
视觉理解、3D生成,豆包这次又玩出了什么新花样?
...做呢,月之暗面Kimi发布视觉思考模型k1;腾讯微信推出多模态大模型POINTS1.5;巨人网络发布千影有声游戏生成大模型,还有不胜枚举的初创公司带着自家模型的新进展试图刷个
2024-12-18 22:49:00
AI视频新战场:字节对决快手、反击Sora
...早。2023年8月,该公司上线首个大语言模型“豆包”及多模态大模型BuboGPT。其抖音云雀大模型通过首批《生成式人工智能服务管理暂行办法》备案,面向公众开放;字节跳动基础模
2024-09-30 13:34:00
字节跳动豆包大模型发布,火山引擎全栈AI服务助力企业智能化转型
...现最佳效果和性价比。为此,豆包大模型提供的是一个多模态模型家族,企业可根据自身业务场景需求灵活选择,实现模型使用及成本控制的正循环。人人用得起 才是好模型谭待认为,降低成本是
2024-05-15 16:16:00
火山引擎丢出视频大模型「王炸」,云厂商从「价格战」回归「卷性能」
...用量超过 1.3 万亿,相比 5 月首次发布时增长超十倍,多模态数据处理量也分别达到每天 5000 万张图片和 85 万小时语音。尽管如此,模型性能掣肘成为了模型调用量进一步
2024-09-26 13:33:00
字节跳动发布豆包大模型 日均处理千亿级Tokens
...最佳效果和性价比。为此,豆包大模型提供的是一个有多模态能力的模型家族,目前主要包括通用模型pro、通用模型lite、语音识别模型、语音合成模型、文生图模型等九款模型。图:豆包
2024-05-15 11:30:00
更多关于科技的资讯: