模态,宝宝,模型,图像,训练,文本头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...研究员成立。与Stability AI类似，黑森林致力于研发优质多模态模型并开源，目前已完成3100万美元（约合人民币2.25亿元）的种子轮融资。黑森林还预告不久之后将发布SOTA（当前技术指标第一）视频模型。从其放出的Demo来看，无...……更多

2024-08-05 09:39:00文生,人马,模型,生成,视频,模型

从未见过现实世界数据，MIT在虚拟环境中训练出机器狗，能跑酷

...，与之前extreme parkour，使用 transformer 大大减少了处理多模态输入时控制模型架构的复杂度，如下图 8 所示。以往四足跑酷的相关工作使用复合架构，首先使用 ConvNet 将深度图处理成紧凑的潜在向量，然后使用循环骨干网络。 ...……更多

2024-11-19 09:50:00从未,现实,机器,训练,环境,数据

总说具身智能的数据太贵，鹏城实验室开源百万规模标准化数据集

...力于打造多智能体协同与仿真训练平台、云端协同具身多模态大模型等通用基础平台，赋能工业互联网、社会治理与服务等重大应用需求。今年以来，具身智能正在成为学术界和产业界的热门领域，相关的产品和成果层出不穷。...……更多

2024-08-24 09:32:00太贵,数据,标准化,实验室,规模,实验

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

...来自斯坦福李飞飞吴佳俊团队！HourVideo，一个用于评估多模态模型对长达一小时视频理解能力的基准数据集，包含多种任务。通过与现有模型对比，揭示当前模型在长视频理解上与人类水平的差距。2009年，李飞飞团队在CVPR上首...……更多

2024-11-11 13:31:00团队,智能,空间,视频,模态,模型

现场直击一文总结！OpenAI开发者大会，史上最强GPT-4

...今天起，所有开发者都可以使用 Assistants API 测试版 05多模态交互新版本增加了新的多模态功能，包括视觉、图像创建（DALL·E 3）和文本转语音 (TTS)。Turbo版GPT-4 可以接受图像作为Chat Completions API中的输入，从而实现生成标题、...……更多

2023-11-07 09:18:00一文,开发者,地震,大会,开发,用户

通义千问再放大招：720亿大模型开源，全尺寸赶上LLaMA-

...阿里云也首次开源了音频理解大模型Qwen-Audio，这是在多模态领域的一次探索。Qwen-Audio能够感知和理解人声、自然声、动物声、音乐声等各类语音信号。用户可以输入一段音频，要求模型给出对音频的理解，甚至基于音频进行文...……更多

2023-12-01 21:07:00通义,模型,尺寸,移动,模型,阿里

vivo自研大模型全家桶炸场，亮出PhoneGPT智能体，蓝

...幕的力度、圈搜文字或图片、还是拖拽一段地址信息，多模态大模型都可以深度解读你的意图，进而给你需要的反馈和服务。依托文本大模型，结合自监督学习语音编解码、多语音任务学习和模态对齐等技术，蓝心小V在文本能...……更多

2024-10-11 09:55:00一键,衣食,全家,模型,智能,模型

智谱AI发布基座大模型GLM-4，发起大模型开源基金

...优秀开源开发者提供1000亿免费API tokens。GLM-4文生图和多模态理解得到增强。1月16日，在智谱AI（即北京智谱华章科技有限公司）首届技术开放日上，智谱AI发布新一代基座大模型GLM-4，支持128K的上下文窗口长度，单次提示词能处...……更多

2024-01-17 16:47:00模型,基座,基金,模型,文生,模态

创新奇智大模型工业落地初显成效，探索工业智能机器人新方向

...达到 750 亿参数，性能获得了大幅升级。AInno-75B 增加了多模态处理能力，支持输入文本、图像、视频以及工业场景中的行为（Action）模态，如 CAD 等。通过引入高参数量大模型 AInno-75B，创新奇智的主推产品 ChatDoc、ChatBI 获得了...……更多

2024-09-03 10:00:00工业,机器人,成效,落地,模型,方向

本周（4.8-4.14）AI界发生了什么？

...源：论文论文链接：AI界前线马斯克旗下xAI发布其首款多模态大模型4月13日消息，马斯克AI初创公司xAI推出了其首款多模态大模型Grok-1.5V。除文本功能外，Grok现在可以处理各种各样的视觉信息，包括文档、图表、图表、屏幕截图...……更多

2024-04-14 20:33:00模型,特斯,马斯,芯片,融资,英特

21.5万张X光，78万个问题！德州大学NIH等联合发布医学

【新智元导读】多模态大语言模型（MLLM）在医学视觉问答（VQA）领域展现出巨大潜力，通过提供针对医学图像的具体临床问题的回答，有助于提高医疗专业人员的工作效率。然而，现有医学VQA数据集规模较小且问题过于简单，...……更多

2024-08-10 09:47:00德州,问答,视觉,医学,联合,数据

AI翻译界杀手诞生！阿里国际翻译大模型吊打谷歌和GPT-4

...rcoPolo由此诞生。并且，实现了更低成本更优效果。在多模态方面，多模态大模型MarcoPolo-VL能够用「眼睛」精准识别，进行推荐。还有团队最新发布的多模态大模型Ovi，直接拿下开源第一。在ICCV 2023顶会上，一向低调的阿里国际...……更多

2024-10-17 09:49:00阿里,模型,杀手,国际,电商,模型

软通智慧数智成果发布暨战略合作签约仪式举行

...算力灵畅服务体系、卧龙策渊人工智能平台，以及基于多模态感知的多元共治产品体系。活动现场。软通智慧供图正式发布“AI算力灵畅服务体系”，助力算力从“可用”走向“好用”，为人工智能产业区域发展带来全新解决方...……更多

2024-08-30 13:23:00成果发布,仪式,成果,智慧,战略,合作

入选高工人形机器人优质企业链，银牛微电子3D空间计算解决方案

...现具身智能。该方案不仅融合了语音、文本和图像等基础模态，还加入了3D点云模态，通过强化的多模态关联技术，显著提升人形机器人的智能水平和逻辑自洽性。与此同时，银牛还拥有丰富的三维空间多模态大模型数据库，可...……更多

2024-04-19 11:00:00高工,微电子,人形,机器人,认可,高度

杨幂+小兰会是什么样？中山大学新AI成果，实现人脸个性化SO

...山大学、联想的研究团队推出了ConsistentID，可在细粒度多模态面部提示下，仅利用单张参考图像生成多样的肖像，且保持五官的一致性。最终在人脸个性化任务处理上，相比腾讯的photomaker和小红书的instantID，在五官一致性保持...……更多

2024-05-22 15:47:00小兰,中山大学,人脸,中山,成果,个性

720亿参数模型开源通义千问已实现“全尺寸、全模态”开源

...参数的4款大语言模型，以及视觉理解、音频理解两款多模态大模型，实现“全尺寸、全模态”开源。用户可在魔搭社区直接体验Qwen系列模型效果，也可通过阿里云灵积平台调用模型API，或基于阿里云百炼平台定制大模型应用。...……更多

2023-12-01 13:33:00通义,模态,模型,尺寸,参数,模型

千行百业加速拥抱大模型（AI前沿观察）

...语料数据联盟成员单位共同开源发布“书生·万卷”1.0多模态预训练语料。本次开源的数据总量超过2TB，包含超5亿个文本、2200万个图文交错文档、1000个影像视频。在11月举行的2023人工智能计算大会上，智源研究院联合阿里云、...……更多

2023-12-22 03:26:00百业,模型,观察,模型,语料,数据

AWS搭载“最强大模型”！40亿美元投向OpenAI竞对

...Anthropic合作的最新进展，并现场演示了Claude 3大模型的多模态、长文本、语境理解等能力。AWS近日宣布向Anthropic追加投资27.5亿美元，截至目前已经向这家OpenAI强力竞对累计注资40亿美元。此外，双方的合作关系也再次加深，Amazon ...……更多

2024-04-03 16:49:00模型,模型,能力,演示,模态,生成

多模态模型评测框架lmms-eval发布！全面覆盖，低成本，

...qizhixin.com随着大模型研究的深入，如何将其推广到更多的模态上已经成为了学术界和产业界的热点。最近发布的闭源大模型如 GPT-4o、Claude 3.5 等都已经具备了超强的图像理解能力，LLaVA-NeXT、MiniCPM、InternVL 等开源领域模型也展现...……更多

2024-08-22 09:50:00模态,框架,模型,评测,污染,成本

生成式人工智能新时代

...？张亚林介绍，文本、音频、图像、视频、游戏生成，跨模态、多模态的生成，虚拟人的生成等，都可以通过各种素材的生成进行互换，这对我们周围的传统媒体带来巨大冲击。怎样支撑生成式AI大模型的发展？张亚林说，我们...……更多

2023-12-22 00:26:00人工智能,新时代,人工,生成,智能,庆阳

国产AI可以拍微电影了！4K、60帧高清画质，自带音效

...，其架构如下图所示：CogSound的核心技术依托于GLM-4V的多模态理解能力，能够精确解析视频中的语义和情感，并生成匹配的音效。例如，在展示森林景观的视频中，CogSound能够生成鸟鸣和风吹树叶的声音；而在城市街景中，则会...……更多

2024-11-09 09:54:00画质,音效,高清,国产,电影,生成

Gemini 超越 GPT-4 靠作弊？谷歌承认：是的，演示

...竟发生了 180° 转变。昨天，谷歌在 X 上展示 Gemini 原生多模态能力的 6 分半钟视频下，几乎是清一色的赞扬：而到了今天，Gemini 还是那个 Gemini，但网友已经不买账了：发生了什么，才会让人们的态度一夜转变？原因在于那个 6 ...……更多

2023-12-08 22:02:00剪辑,演示,是的,视频,视频,模态

高通aihub正式发布：支持75个ai模型

...示了全球首个在搭载第三代骁龙8的安卓手机上运行的多模态大模型（LMM）。在这一演示中，高通展示了一个超过70亿参数的LMM，其支持文本、语音和图像输入，并能够基于输入的内容进行多轮对话。同时高通还在搭载全新骁龙XEl...……更多

2024-02-27 02:14:00高通,模型,支持,高通,模型,开发者

数据驱动未来：AI大模型在多场景应用中的挑战与机遇

...。随着人工智能的应用场景越来越多元化,需要处理多种模态的数据,例如文本、图像、语音等。未来,大模型将更加注重多模态的融合,以处理更加复杂的应用场景。返回搜狐，查看更多责任编辑： ……更多

2024-02-18 21:00:00机遇,模型,场景,驱动,应用,数据

Meta版Sora深夜横空出世，小扎放出16秒高清大片！92

...、上传图像生成个性化视频。甚至Meta还放出了92页论文，模型架构、训练细节一并公开，干货满满！毫无预兆地，Meta版Sora——Movie Gen，就在刚刚抢先上线了！Meta将其称为「迄今最先进的媒体基础模型」。全新上线的大杀器Movie ...……更多

2024-10-08 09:52:00高清,架构,大片,细节,论文,技术

比Stable Diffusion便宜118倍！1890美元

...研究人员，利用延迟掩蔽、MoE、分层扩展等策略，将扩散模型的训练成本降到了1890美元。训练一个扩散模型要多少钱？之前最便宜的方法（Wuerstchen）用了28400美元，而像Stable Diffusion这样的模型还要再贵一个数量级。大模型时代...……更多

2024-08-13 09:42:00文生,高质量,模型,参数,模型,训练

生成式AI在金融行业的应用及思考

...金融行业也有广泛应用。值得一提的是,张呈刚强调了多模态场景在金融行业的应用趋势。传统的人机交互方式是文本,但现在人们越来越倾向于使用图像、语音等多模态方式与生成式人工智能进行交互,这给金融行业带来了新的机...……更多

2024-04-22 13:21:00生成,金融,应用,行业,生成,人工智能

4090笔记本0.37秒直出大片！英伟达联手MIT清华祭出S

...合成高分辨率、高质量，且具有强文本-图像对其能力的模型。而且，它还能高效生成高达4096×4096像素的图像。项目主页：https://nvlabs.github.io/Sana/论文地址：https://arxiv.org/abs/2410.10629Sana的核心设计包含了以下几个要素：深……更多

2024-10-18 09:49:00英伟,清华,架构,大片,性能,笔记本