• 我的订阅
  • 头条热搜
商汤绝影在行业内率先实现了原生多模态大模型的车端部署
...家王晓刚17日宣布,商汤绝影在行业内率先实现了原生多模态大模型的车端部署。车载端侧8B模型首包延迟在300毫秒以内,推理速度40Tokens/秒,覆盖主流算力平台。商汤绝影为多模态大模型打造计算引擎“HyperPPL”,目前扩展并支...……更多
AI也会「刷抖音」!清华领衔发布短视频全模态理解新模型 | ICML 2024
...失函数和混合未配对音视频数据训练。该模型不仅在单一模态任务上表现优异,更在视听联合任务中展现了卓越的性能,证明了其全面性和准确性。想要看懂短视频,除了视觉内容外,语音和音频等听觉信息,如视频音乐、音效...……更多
全国首个 成都创新团队发布机器人多模态模型
中国首个机器人多模态模型,可以相对明确地将水果和非水果进行区分和分拣如果你想吃苹果,根据语音指令,机器人会把苹果送到你手上;如果想收拾干净桌面,机器人就会把桌上所有的东西归置好……这个关于人工智能描...……更多
OpenAI o1模型到博士水平了?复旦教授:没有真正推理能力,学到的还是概率相关性
...超过90%。在启用视觉感知能力的情况下,o1模型在MMMU(多模态理解)测试中获得了78.2%的高分,成为首个能与人类专家展开竞争的AI模型。在 MMLU(大规模多任务语言理解)测试中,在总计57个子类别中,o1在54个类别上都超越了GPT...……更多
云计算一哥终于搞多模态了:一口气6个大模型,还有个3nm芯片!
...—亚马逊CEO Andy Jassy亲自站台re:Invent24,发布自家新款AI多模态系列大模型,名曰Amazon Nova。而且是一口气涵盖文本对话、图片生成、视频生成,甚至直接吐露一个小目标:将来我们不仅要Speech to Speech,更要Any-to-Any!整体而言,Am...……更多
昆仑万维:“天工大模型3.0”将于4月17日正式发布 同步开源4000亿参数MoE超级模型
...型”“天工3.0”是一款集自然语言处理、计算机视觉、多模态、AI搜索、AI智能体等多项尖端技术于一体的人工智能大模型。“超级模型”(Super Model)的概念诞生于“超级应用”(Super App)。互联网时代,超级应用是一种集成了多种...……更多
通义千问再放大招:720亿大模型开源,全尺寸赶上LLaMA-2,还有移动端可用的18亿模型
...阿里云也首次开源了音频理解大模型Qwen-Audio,这是在多模态领域的一次探索。Qwen-Audio能够感知和理解人声、自然声、动物声、音乐声等各类语音信号。用户可以输入一段音频,要求模型给出对音频的理解,甚至基于音频进行文...……更多
支付宝发布多模态医疗大模型:支持千亿级视觉识别
...快科技7月5日消息,在2024世界人工智能大会上,支付宝多模态医疗大模型正式亮相,成为国内首批多模态医疗大模型之一。据悉,该医疗大模型的基石,源自蚂蚁集团自主研发的蚂蚁百灵大模型,这一先进平台不仅拥有“视听言...……更多
...器人应用场景中进行了验证,最新测试结果显示,经过多模态能力扩展的DeepSeek-R1能够让人形机器人在执行任务前结合看到的场景和接收到的指令进行思考验证,零样本推理水平与调优后的同级别大模型推理水平相当。公司将基...……更多
●多模态使人形机器人能融合图像、语义、力感知、环境感知等多种因素,综合判断、生成任务并执行任务,是让人形机器人具有自主思考能力的关键核心技术●标志着成都在我国多模态模型应用于人形机器人领域率先取得突...……更多
人工智能应用场景不断拓展
...业大模型占比七成。大模型已具备文本、语言、视觉的多模态能力,成为推动产业发展与社会进步的重要变量。在阶跃星辰创始人兼首席执行官姜大昕看来,通用人工智能的实现路径可以划分为模拟世界、探索世界和归纳世界3...……更多
神仙打架!谷歌新款大模型Gemini 和GPT-4谁能笑到最后?丨科技观察
...眼镜等更多领域上的应用前景有多广阔。“Gemini是原生多模态打造,是(谷歌)通往Gmeini模型时代的第一步。”谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)表示:Gemini 1.0是目前为止谷歌能力最强的通用人工智能模型。作为谷歌有...……更多
OpenAI没有放弃的机器人梦想
...捕捉到的语音转录文本,输入到一个由OpenAI训练的大型多模态模型中,然后由该模型处理对话的整个历史记录,得出语言响应,然后通过文本到语音的方式将其回复给人类。“同样的模型,也负责决定在机器人上运行哪些学习的...……更多
自我纠错如何使OpenAI o1推理能力大大加强?北大MIT团队理论解释
...的技术,使得模型能够在最终确定回复之前,先检测自身推理的错误并纠正。在实际的执行过程中,这会用到一种名为思考标签(thinking tag)的机制。模型会在这个标签内部进行反思,直到它得到正确答案或认为自己得到了正确...……更多
无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成
...的长依赖任务中的多信息检索、时间重排序、计算、理解推理能力表现均不乐观。比如像Claude3-200k,GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex这种商业模型,平均只有40%的准确率。而像开源模型表现就更不理想了…ChatGLM2-6B、LongLL……更多
OpenAI机器人亮相,大模型有了“肉身”,英伟达微软都有投资
...麦克风捕捉的语音,转录为文本输入到由OpenAI预训练的多模态大模型中,模型能够理解图像和文本。模型会处理整个对话的历史记录,包括以往的图像,以生成语言响应,再通过文本到语音的方式向人类回话。△Figure 01训练方法...……更多
...要物理世界数字化,实现知识找人,能够陪伴执行。而跨模态大模型是其中的技术关键。(记者 黄心怡) ……更多
更快、更强、更可控:智谱“起舞弄清影”,视频生成卷出新高度!
...张鹏则表示,对于Sora的出现,他并不吃惊,因为立足多模态领域的深耕,智谱也正在做这件事。如今,“清影”面世,让外界看到了智谱在视频生成领域的阶段性成果。而“人人可用”的开放姿态,也让没有视频制作基础的小...……更多
Mistral放大招!124B多模态巨无霸登场,免费版ChatGPT震撼突袭
...大招了!一连发布两大更新——Pixtral Large:前沿级124B多模态模型,用于驱动新Le Chat。全新Le Chat:具备网页搜索、Canvas、图像生成、图像理解等功能——而且所有功能免费提供!Mistral的CEO兼联创Arthur Mensch宣布道:「此次发布是...……更多
突发!谷歌发布史上最强大模型Gemini,打爆GPT-4
...萨比斯在谷歌官网联名发文,宣布推出这一万众瞩目的多模态大模型。标题明晃晃写着“最大”、“最强”,主打的就是一个干爆GPT-4。具体来说,此次谷歌一共带来了Gemini的三个版本:Gemini Ultra:谷歌最大、最强模型,适用于...……更多
苹果发布mm1.5-ui模型
10月13日消息,近日,苹果公司推出了300亿参数的多模态AI大模型MM1.5,该版本是在前代MM1的架构基础上发展而来的。该模型继续遵循数据驱动的训练原则,着重探究在不同训练周期中混合各类数据对模型性能产生的影响,相关模...……更多
...机、PC等,张雪薇看好相关产业链机遇。 大模型正在向多模态发展,由之前的文本、语音到现在的图片,包括未来视频,不同的媒介会诞生出新的应用,会把模型通用化能力提升,未来比如广告推荐、用户画像都会像大模型靠拢...……更多
中国也有Sora同款训练架构公司,清华班底,智谱也投了 | 36氪首发
...也出现了大模型独角兽智谱AI的身影。36氪获悉,近日多模态AI模型公司生数科技完成新一轮数亿元融资。该轮融资由启明创投领投,达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲跟投。据介绍,融资主要用于多模...……更多
阿里通义实验室黄斐:开源进入千问时代,即将发布的推理模型会更好用
...包括了更快的响应和更低的成本。全能模型则是指能将多模态混合的模型,在输入输出方面更加自由。黄斐认为,在模型之外,AI Agent(智能体)也是一个需要重点关注的领域:“未来的一段时间内,AI Agent一定也是一个比较火...……更多
从空间智能到具身智能,跨维践行Sim2Real AI最高效路径
...使用双眼感知世界一样,具身智能要求机器人能够通过多模态传感器进行感知、交互和决策,形成综合的空间认知和操作能力。问:空间智能与具身智能的异同点是什么?贾奎:就像前面提到的,空间智能赋予 AI 感知并理解现...……更多
马斯克官宣Grok-2测试版!xAI将继续拥抱开源路线吗?
...来,于今年3、4月陆续推出了Grok-1.5大语言模型和首个多模态模型Grok-1.5 Vision,整体迭代速度已足够惊人。但要超越当前所有AI大模型,Grok-2要面对的问题或许远没想象中简单。所有指标超越当前AI大模型,真的假的?2023年11月,x...……更多
清华提出CharacterGLM;DeepMind联创发全新一代大模型;大模型版“5年高考3年模拟”来了丨AI新零售早报
...大模型版“5年高考3年模拟”来了!6141道数学题,还是多模态的那种|微软&UCLA&UW联合出品》MathVista是一个多模态数学推理基准数据集,由微软、UCLA和UW联合开发,包含6141个数学问题,涵盖丰富的任务类型、推理能力和图...……更多
大模型新趋势之MoE:现状、挑战及研究方向
...模和处理,提升模型的准确性和专业能力,更好地适应多模态数据及复杂/特定任务计算。二是根据任务的需求灵活选择并组合适宜的专家模型,使得模型能够动态地适应不同的输入样本和任务场景,提高模型的灵活性、可解释...……更多
arxiv研究人员:多模态ai模型存在安全隐患
...论文指出,包括GPT-4V、GPT-4o和Gemini1.5在内的大部分主流多模态AI模型,处理用户的多模态输入(例如一起输入图片和文本内容)之后,输出结果并不安全。这项研究标题为《跨模态安全调整》(Cross-ModalitySafetyAlignment),提出了...……更多
ChatGPT o1满血版上线!实测中它竟然败给了国产AI?
...文件上传,而此前是只能进行文字输入,也就是新增了多模态理解,不过网页搜索功能仍未上线,这点倒是让人感到遗憾。对于o1满血版的提升,OpenAI的CEO奥特曼用一个简单的柱状图给出了对比:可以看到o1在数学推理和编程领...……更多
更多关于科技的资讯:
本报讯 (记者 闫 利)罐头行业是我国传统的出口产业,罐头产品也是目前食品工业重要的出口产品。从大家熟知的桃罐头、橘子罐头到蘑菇罐头
2025-02-27 11:14:00
享受以旧换新优惠 消费者“扎堆儿”买手机
本报讯 (记者 史晓菲 文/摄)今年开始,购买手机等3C产品享受以旧换新优惠政策,截至目前,新政策实施两个月,手机等产品销售火爆
2025-02-27 11:14:00
本报讯 (记者 解 磊) 2月20日—22日,由中国眼镜协会、中国中轻国际控股有限公司主办的第23届中国上海国际眼镜业展览会在上海浦东举行
2025-02-27 11:15:00
腾讯元宝入驻微信“九宫格”:便捷下载,深度体验
2月27日消息,腾讯对腾讯元宝的推广又加了大力度。日前有媒体报道称,腾讯内部已协调部署,微信“九宫格”正在灰度测试给腾讯元宝提供下载入口
2025-02-27 11:21:00
国网山东信通公司:视频赋能配电室,智能守护电力安全
在电力系统运维领域,配电室的安全稳定运行至关重要。国网山东信通公司不仅凭借创新建设配电室视频监测系统,为配电室的安全运行带来全方位保障和质的飞跃
2025-02-27 11:22:00
【鲸创焕新】五载深耕积淀,社区家装生态再升级
【鲸创焕新】五载深耕积淀,社区家装生态再升级2019年诞生于常州,我们以革新存量房改造为己任。面对行业长期存在的"改造周期长
2025-02-27 11:34:00
小米SU7 Ultra第三款配色来了:“鹦鹉绿”实车公布
快科技2月27日消息,小米SU7 Ultra将在今晚7点正式发布,刚刚官方公布出了全新配色——鹦鹉绿。自此,小米SU7 Ultra已经公布出了三款配色
2025-02-27 11:36:00
价值48元 《王者荣耀》今天免费送皮肤了
快科技2月27日消息,《王者荣耀》今天上线戈娅新皮肤“玫蓝誓约”,参与游戏内【玫蓝誓约】活动,可免费获取。该限时活动在2月27日版本更新后逐步开启
2025-02-27 11:36:00
造谣对比测试时迈巴赫轮胎被放气 尊界法务:已关注、均充分取证
快科技2月27日消息,近日尊界S800和迈巴赫S级对比测试一事闹得沸沸扬扬,节奏四起。其中有人称迈巴赫S级在测试中被动了手脚——轮胎被放气
2025-02-27 11:36:00
佰维推出全球首款双档EXPO配置内存!DDR5-8000/6400 CL34/28可选
快科技2月27日消息,佰维宣布其DW100 OCLAB联名内存即将上市,这款内存条专为AMD X870 (E)、B850平台优化
2025-02-27 11:36:00
仅限主力薅羊毛!京东外卖开启补贴政策:最高减20元!
快科技2月27日消息,今日,京东外卖宣布推出了“餐补优惠活动”。据了解,京东推出的这一优惠政策包含:“满15元减10元”
2025-02-27 11:36:00
5000只海鸥入侵英国小镇 鸟屎满天飞还高空抛骨头
阿尔弗雷德·希区柯克执导的恐怖电影《群鸟》,电影中鸟群攻击人类的场景,如今照进现实,在英国一小镇上演。据报道,至少有5000只海鸥“入侵”了该地区
2025-02-27 11:36:00
对话商汤王晓刚:自动驾驶借助强化学习将超越人类,今年商业化迎爆发
搜狐科技高端访谈栏目《1号位》与知名企业家、公司高管展开深度对话,本期我们邀请到商汤科技联合创始人&首席科学家
2025-02-27 11:36:00
衢州联通引领智慧医疗新篇章:DeepSeek人工智能系统成功接入当地三甲医院
近日,衢州联通携手衢州市人民医院及生态公司,积极响应国家关于人工智能与医疗健康深度融合的战略部署,成功将DeepSeek人工智能系统全面接入衢州市人民医院(温州医科大学附属衢州医院)
2025-02-27 11:36:00
园区“法人服务总入口”开启公测
从能办可办到好办易办,苏州工业园区以行政审批的“颗粒度”提升企业无感直达体验度。全国首创“AI服务总入口”、在全国率先打造“Person in Enterprise”(PIE)用户体系
2025-02-27 11:39:00