模态,山海,实时,生成,模型,图像头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

推动终端侧AI发展 MWC2024高通带来多项全球首发

...示了全球首个在搭载第三代骁龙8的Android手机上运行的多模态大模型（LMM）。多模态指AI模型不仅能够接受文本输入，还可以接受图像、音频等其它输入数据类型。在这一演示中展示了一个超过70亿参数的LMM，其支持文本、语音和...……更多

2024-02-29 10:14:00高通,终端,发展,全球,高通,模型

不够惊艳？还是更务实？谷歌对上OpenAI，能否打好翻身..

...项目Project Astra、对标Sora的文生视频模型Veo，以及支持多模态输入的AI搜索引擎和第六代Tensor处理器单元（TPU）Trillium芯片等等。其中，Astra是谷歌的AI智能体项目，能够通过手机摄像头或智能眼镜来“看到”用户眼前的内容，响...……更多

2024-05-15 18:31:00不够,还是,生成,模型,文生,图像

生成式AI大爆发后，2024年人工智能行业有哪些新趋势

...（人工智能）发展史的一个转折点，活跃的开源环境和多模态模型一同推动了AI研究的进步。随着生成式AI持续从实验室走入现实，人们对这项技术的态度正在变得越来越成熟。对于2024年的AI发展趋势，行业专家们也给出了一些...……更多

2024-02-12 12:33:00人工智能,人工,生成,趋势,智能,行业

最强开源文生图模型一夜易主！SD原班人马打造，要发SOTA视

...研究员成立。与Stability AI类似，黑森林致力于研发优质多模态模型并开源，目前已完成3100万美元（约合人民币2.25亿元）的种子轮融资。黑森林还预告不久之后将发布SOTA（当前技术指标第一）视频模型。从其放出的Demo来看，无...……更多

2024-08-05 09:39:00文生,人马,模型,生成,视频,模型

2B多模态新SOTA！华科、华南理工发布Mini-Monke

【新智元导读】Mini-Monkey 是一个轻量级的多模态大型语言模型，通过采用多尺度自适应切分策略（MSAC）和尺度压缩机制（SCM），有效缓解了传统图像切分策略带来的锯齿效应，提升了模型在高分辨率图像处理和文档理解任务的...……更多

2024-08-13 09:42:00模态,华南,专治,后遗症,理工,分辨率

本周硅谷发生了什么？| 高通第三代骁龙8；谷歌20亿美元追投

...跑大模型的个人PC。还有谷歌20亿追投Anthropic，并曝光多模态模型Gemini和工具Stubbs，将为用户更多便捷和创新的应用开发方式。Meta公布第三季度财报，实现23%的营收增长，是公司自2021年三季度以来最大的营收增幅，表现亮眼。部...……更多

2023-10-30 15:31:00高通,三代,硅谷,模型,个人,模型

AI应用正面临能耗挑战？分布式算力提供新路径！

...术为医疗诊断、安全监控和娱乐行业提供了强大支持。多模态AI：使AI能够同时处理和理解来自不同来源的信息，如文本、图像、声音和视频等，多模态AI的发展使得机器能够感知、理解甚至预测需求，提供更加个性化和智能化的...……更多

2024-10-29 17:30:00分布式,能耗,路径,应用,模型,分布式

让大模型能听会说,国内机构开源首个端到端语音对话模型Mini

...zhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com本文出自启元世界多模态算法组，共同一作是来自清华大学的一年级硕士生谢之非与启元世界多模态负责人吴昌桥，研究兴趣为多模态大模型、LLM Agents 等。本论文上线几天内在 github 上斩获 1...……更多

2024-09-07 09:44:00模型,语音,对话,机构,语音,文本

全模态对齐框架align-anything来啦：实现跨模态指

... OpenAI o1 技术的深入分析累计点击量已超过 15 万。如何全模态大模型与人类的意图相对齐，已成为一个极具前瞻性且至关重要的挑战。在当前 AI 领域的快速发展中，「有效加速」和「超级对齐」已经成为两个主要的发展动向，...……更多

2024-10-18 09:47:00模态,指令,框架,模态,模型,数据

别只盯着ChatGPT版Her,多模态AI拟人互动上,国内玩

... AI 发起挑战的高规格赛事落下了帷幕！这就是第二届多模态情感识别挑战赛（MER24），它由清华大学陶建华教授、中国科学院自动化研究所连政、帝国理工学院 Björn W.Schuller、奥卢大学赵国英以及南洋理工大学 Erik Cambra 联合在 A...……更多

2024-08-01 09:34:00模态,拟人,玩家,模态,情感,模型

苹果的封闭生态为大模型打开！发布开源多模态大模型、每天为 A

...人员于在 2023 年 10 月低调发布的一个名为 Ferret 的开源多模态大模型也没有收到太多关注。当时，该版本包含代码和权重，但仅供研究使用，而非商业许可。但随着 Mistral 开源模型备受关注、谷歌 Gemini 即将应用于 Pixel Pro 和 Andr...……更多

2023-12-26 14:06:00模型,生态,模态,零碎,苹果,模型

多模态竞技场对标90B Llama 3.2！Pixtral

...客之姿杀入江湖的Mistral AI，在9月份甩出了自家的首款多模态大模型Pixtral 12B，如今，报告之期已至，技术细节全公开。作为欧洲的OpenAI，Mistral最近压力不小。端侧小模型端不出来，对比评测的结果又遭到质疑。上个月震撼登场...……更多

2024-11-20 09:43:00模态,竞技场,竞技,报告,技术,模态

“大模型”时代路凯智行如何Rock AI

...型，随着近几个月SORA的横空出世，融合语言与视觉的多模态模型也已初露峥嵘，但目前市面上的通用大模型并非“万金油”，面向垂直领域内的各类生成式AI应用还需要结合场景需求积累数据和构建定制化的模型。矿山无人驾驶...……更多

2024-04-16 19:33:00模型,时代,模型,矿山,崇宁,驾驶

Meta首款多模态Llama 3.2开源！1B羊驼宝宝，跑在

【新智元导读】Meta首个理解图文的多模态Llama 3.2来了！这次，除了11B和90B两个基础版本，Meta还推出了仅有1B和3B轻量级版本，适配了Arm处理器，手机、AR眼镜边缘设备皆可用。Llama 3.1超大杯405B刚过去两个月，全新升级后的Llama 3....……更多

2024-09-27 13:39:00模态,宝宝,模型,图像,训练,文本

北京人工智能数据运营平台发布

...大量通用数据、行业数据，支持文本、图像、视频等多种模态，并打造了全流程的数据处理工具。超过700万亿字节的通用数据集可以开展通用模型训练，同时，4.33万亿字节的行业垂类数据对模型训练也极为重要。当前已知的全...……更多

2024-06-16 04:14:00人工智能,北京,人工,运营,智能,数据

国网山东电科院打造“空天地”立体智能巡检

...融合监控等多点发力，实现输电线路巡检从感知智能到多模态生成式智能的新跨域，为新型电力系统安全稳定运行提供坚强网架支撑。 ……更多

2024-03-07 17:43:00山东,立体,智能,天地,输电,无人机

只有谷歌受伤的世界达成了，但“全能模型”到底该不该跟？

...对二，谷歌就跟四个王。那么，这一次较量的核心——多模态大模型，国内AI行业是否要跟进呢？如果要跟进，又该提前考量到哪些问题呢？每一次新产品问世，如果只跟着新闻“震惊”是很难进步的。不妨和我们一起，认真给G...……更多

2024-05-19 16:32:00全能,模型,只有,世界,模态,模型

超越扩散模型！自回归新范式仅需2.9秒就生成高质量图像

...VAR指出是因为自回归模型逐个预测token的行为不符合图像模态的特点，提出“next-scale prediction”范式，将视觉自回归建模为逐个预测更大尺度scale的token map。这一方式避免了原始基于next-token的自回归方案难以建模图像模态的问题...……更多

2024-06-27 09:17:00范式,仅需,高质量,生成,模型,图像

高通aihub正式发布：支持75个ai模型

...示了全球首个在搭载第三代骁龙8的安卓手机上运行的多模态大模型（LMM）。在这一演示中，高通展示了一个超过70亿参数的LMM，其支持文本、语音和图像输入，并能够基于输入的内容进行多轮对话。同时高通还在搭载全新骁龙XEl...……更多

2024-02-27 02:14:00高通,模型,支持,高通,模型,开发者

刚刚，我们感受了一波最「像人」的国产AI，模型还是开源的

...择了两条路线分别开拓：一条是 GPT-4o 所代表的端到端多模态大模型的探索，一条是 o1 所代表的关于推理 Scaling Law 的探索。具体到 GPT-4o 上，OpenAI 跨文本、视觉和音频端到端地训练了一个新模型，所有输入和输出都由同一神经...……更多

2024-10-26 09:49:00一波,模型,国产,还是,语音,模型

AIGC工具测评：生成式AI的产品表现如何

...力上也有了重大突破。更值得一提的是，GPT-4引入了“多模态”功能，支持图像和语音输入，甚至可以输出图片，大大拓宽了其应用范围。界面体验ChatGPT-4的用户界面呈现了现代化和直观的设计风格，其简洁的设计语言和优化的...……更多

2024-03-25 13:00:00生成,工具,产品,用户,界面,通义

拓宽行业应用场景多模态大模型加速通用AI进程

...业内分析认为，该项新产品或将促使大模型厂商加大对多模态大模型的研发投入，并进一步推动AGI（通用人工智能）进程。一直以来，视频领域便是被普遍看好的AI应用落脚点之一。继可生成图文的ChatGPT之后，Sora的发布迎合了...……更多

2024-02-26 08:58:00模态,行业应用,模型,进程,场景,应用

Bengio团队提出多模态新基准，直指Claude 3.5和

...灵奖得主Yoshua Bengio教授。博士期间的主要工作聚焦于多模态、GFlowNet、多智能体强化学习、AI于气候变化的应用。目前已在ICML、ICLR、ICASSP等机器学习顶会发表论文。代表作为Large-scale Contrastive Language-Audio Pretrai……更多

2024-06-29 09:37:00模态,基准,弱点,团队,模型,任务