• 我的订阅
  • 头条热搜
GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集
...lief(人们所认为的),也考察 goal(人们的目标)。为了生成这些视频,该团队使用 VirtualHome-Social 模拟器来中生成一系列人物动作,并渲染合成视频。接下来,使用一个模型来跟踪记录在视频的每个时刻中 agent 所有可能的目标...……更多
昆仑万维SkyReels团队正式发布并开源SkyReels-V2
...—首个使用扩散强迫(Diffusion-forcing)框架的无限时长电影生成模型,其通过结合多模态大语言模型(MLLM)、多阶段预训练(Multi-stage Pretraining)、强化学习(Reinforcement Learning)和扩散强迫(Diffusion-forcing)框……更多
千行百业加速拥抱大模型(AI前沿观察)
...。在11月举行的2023人工智能计算大会上,智源研究院联合阿里云、中科创达、蚂蚁集团等17家企业发布《“中文互联网语料库”共建共享倡议书》。数据交易日益兴起,为大模型获取语料资源提供了新途径。《上海市推动人工智...……更多
突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源
...态的视频。为了保持注释的多样性,我们建立了一条能够生成任何长度视频的详细描述的流水线。此外,我们定义了 16 种问题类型,指导 GPT-4o 生成问答对,以训练视频语言模型的感知和推理能力。视频来源我们注意到,尽管不...……更多
清华教授唐杰:Scaling Laws虽被质疑,但至今仍是提高大模型性能的重要方法
...落地元年。时至今日,OpenAI在2024年初推出了文本到视频生成模型Sora,被认为是目前最好的视频生成模型,让大家看到了构建物理世界通用模型的可能路径。唐杰分析,“OpenAI极有可能在2024年推出下一代模型GPT-5,也许会有全新...……更多
视觉理解、3D生成,豆包这次又玩出了什么新花样?
...布在搜索、文库、地图等各种应用中全部植入了AI能力;阿里的通义千问已经到了2.0版本;就连一批资源不多的AI初创团队也已经陆续登上台面。但或许是因为技术积累、厚积薄发的缘故,豆包AI生态在2024年实现了高速发展,甚...……更多
出门问问亮相2024世界人工智能大会,再掀AIGC新审美浪潮
...、沉浸式的AIGC探索之旅。 出门问问成立于2012年,是一家生成式AIGC和语音交互为核心的人工智能公司,为全球多个国家和地区提供AI智能硬件、AI政企服务,以及面向创作者的AIGC产品。出门问问以「MakeAGIAccessibleandAICoPiloteverywhere...……更多
“一核引领・四化协同” 泰山实验中学英语学科探索数智技术与教育教学的深度融合
...虚实联动”的“以学为主”课堂教学闭环。通过即梦 AI 生成文化主题视频激发学生的学习兴趣,DeepSeek智能题库推送跨文化阅读材料、SmartSchool语音测评系统提供个性化反馈等技术应用,了解学生的学习状态和学习进度,及时调...……更多
本周硅谷发生了什么?|OpenAI推出5项更新;微软组建新的AI团队;Googe发布文生视频模型Lumiere
...David Luan。通义千问视觉语言模型Qwen-VL系列升级1月22日,阿里云通义千问团队公布了视觉语言模型Qwen-VL系列的更新。此次更新包含Qwen-VL-Plus和Qwen-VL-Max两个版本,模型在图像相关的推理能力、图中文字识别和提取能力,以及支持...……更多
...视频的理解。“Emu3从设计之初就瞄准了多模态融合,其生成和理解能力也得到统一,还具备更多模态的可扩展性。”王仲远说,基于智源研究院自研的多模态自回归技术路径,图像、视频、文字等模态可以进行联合训练。这一...……更多
...AI,形成围绕智舱服务的AI插件生态。”蔡明介绍,基于阿里巴巴最新的通义大模型技术,“元神AI”为智能座舱场景设计,构建了“1+3”的AI技术体系。“1”指代以自然交流为第一交互方式,“3”则代表感知不同场景、组织各...……更多
高通aihub正式发布:支持75个ai模型
...以为开发者提供全面优化的AI模型库,包括传统AI模型和生成式AI模型,能够支持在骁龙和高通平台上进行部署。开发者只需选择应用所需的模型以及其开发应用所使用的框架,然后确定目标平台,例如一款特定型号的手机、或者...……更多
日前,2024中国生成式AI大会成功举办,大会以“重构世界 奔赴未来”为主题,邀请50+位重量级嘉宾同台分享,以前瞻性视野全景式解构生成式AI的时与势、危与机、破与立。百融云创AI创新负责人于会上发表演讲,畅谈大模型的...……更多
本文转自:新华网12月1日,阿里云通义千问720亿参数模型Qwen-72B宣布开源。该模型基于3T tokens高质量数据训练,在10个权威基准测评中夺得开源模型优异成绩。基于Qwen-72B,大中型企业可开发商业应用,高校、科研院所可开展AI fo...……更多
阿里通义听悟发布“高校公益计划”,向所有国内高校师生赠送500小时教育福利
3月19日,阿里大模型产品“通义听悟”发布多项新功能。音视频问答助手“小悟”上线,在业界首次实现单记录、跨记录、多语言自由问,支持对单个最长6小时、一次性上百条音视频的内容理解问答,用户可对超长音视频随心...……更多
江南观察|MCP协议赋能人机协同研究新机遇
...速抓住关键信息,并组织出最符合的语言表达。然而,其生成内容本质上是基于词频概率统计的随机结果,存在固有的“随机性”。AI只能遵从逻辑、语言的连贯性,无法自行验证事实的准确性。倘若训练数据质量不佳与算法存...……更多
刚刚,三名谷歌Vision Transformer作者官宣加入OpenAI
...ormer(ViT)论文,其中提出可以使用 Transformer 来大规模地生成图像,机器之心也曾做过报道,参阅《NLP/CV 模型跨界进行到底,视觉 Transformer 要赶超 CNN?》。目前,这篇论文的引用量已经接近 5 万,这三位研究者均是共同技术一...……更多
vivo自研大模型全家桶炸场,亮出PhoneGPT智能体,蓝心小V一键搞定衣食住行
...小V在文本能力外,进一步具备了强大的语音表征理解与生成能力,进而让手机能够与人自然对话、翻译语言、模拟人声甚至理解对话中的情绪。 第二个方面是重构人与数字世界的服务体验,让智能更加个人化,也就是构建简单...……更多
阿里达摩院发布业内首个遥感ai大模型,支持多模态交互
10月20日消息,据达摩院DAMO官方公众号发文显示,阿里达摩院今天发布业内首个遥感AI大模型(AIE-SEG),号称“率先在遥感领域实现了图像分割的任务统一”、“一个模型实现‘万物零样本’的快速提取”,并可识别农田、水域...……更多
...。该模型实现了视频、图像、文本三种模态的统一理解与生成,成功验证了基于下一个token(词元)预测的多模态技术范式,释放其在大规模训练和推理上的潜力。据了解Emu3只基于下一个token预测,无需扩散模型或组合式方法,...……更多
AI视频生成技术爆发 标贝科技虚拟数字人构建未来互动新体验
...年刚开局,先有OpenAI的AI视频生成模型Sora惊艳全网,随后阿里巴巴发布EMO,一张照片+音频,就能生成具有生动表情和各种头部姿势、口型完全匹配高保真的人声头像动态视频。技术的革新不仅为内容创作者打开了新世界的大门...……更多
IDC权威评测:文心快码位居国内代码生成产品评估第一
...面上主流的 AI 编码工具进行评测,谷歌、微软、百度、阿里、字节、腾讯等数十家海内外头部企业均参评。在涉及的 9 项评分维度中,百度智能代码助手文心快码(Baidu Comate)在 8 项评分维度(共9项)获得满分,满分数量排名...……更多
21.5万张X光,78万个问题!德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA
...ultimodal Large Language Moodel, MLLM) 以其强大的语言理解能力和生成能力,在各个领域取得了巨大成功。在医学领域上,视觉问答 (VQA) 是医学多模态大语言模型的一项重要任务,它可以通过回答针对医学图像的具体临床问题,有效提...……更多
AI智能体引擎加持:天玑9400让「完全体」AI手机提前问世了
... 9400 与很多科技公司、AI 创业公司进行了深度合作,包括阿里云、百川智能、Google、面壁智能、Meta、微软、零一万物、腾讯混元、百度文心等,实现了对主流大模型的大面积优化。 9 月 26 日,在 Meta 发布开源大模型标杆 Llama3.2...……更多
最强多模态模型GTP-4o问世,OpenAI继续开启人工智能创新之路
...其最大的亮点之一。该模型可以接受文本和图像输入,并生成自然语言、代码等文本输出。在给定文本和图像输入的情况下,GPT-4o能够迅速捕捉关键信息,进行深度分析和总结,为用户提供全面、准确的解答。 在图像理解方面...……更多
阿里云推出“通义灵码”AI编程工具,支持VSCode、JetBrains等主流IDE
11 月 1 日消息,阿里云目前推出了一款 AI 编程工具“通义灵码”,号称基于自家通义大模型打造,IT之家的小伙伴们可以点击此处访问项目官网。据悉,“通义灵码”兼容 Visual Studio Code、JetBrains IDEs 等主流 IDE;支持 Java、Python...……更多
世优科技携手人民中科打造AI数字人智能体助力智慧校园
...息进行统一理解、统一表达、统一度量,从而实现跨模态生成、跨模态搜索、跨模态对话等功能。 AI数字人智能体与大模型的结合,通过情感识别技术分析师生语音、表情判断情绪,情感表达技术调整数字人的语音语调、面部...……更多
“下一个原神”启动,“AI版米哈游”公布游戏预告片
...温度以及信号强度。值得一提的是,Stella的对话由AI实时生成,官方称“你的每一次对话选择都可能左右她的命运”。这是由于,该游戏采用了多模态AI技术,能够处理玩家的多种输入方式并生成相应反馈。公开资料显示,《Whisp...……更多
荣耀Magic V5发布,一文看懂YOYO到底有多强大
...MCP和A2A协议,携手合作伙伴开启智能体服务新生态,联合阿里巴巴、美的、比亚迪等各行业头部伙伴,打造最佳的AI智慧体验。例如,YOYO智能体携手飞猪旅行、高德地图智能体,可一句话实现个人化旅行方案定制、多场景出行路...……更多
联通元景大模型亮相2024年中国品牌日 打造产业智能化新范式
...能基于模型自身知识和能力回答问题,如常识百科、文案生成、逻辑推理、数学计算、语言翻译等,还能自动调用联网搜索、数学计算增强插件等工具,提供互联网实时资讯问答以及更好的数学计算等服务。在多模态大模型的视觉能...……更多
更多关于科技的资讯:
厦门半导体显示产业孵化器揭牌
天马微电子已在厦建设5条先进生产线,助推厦门形成主流显示技术全覆盖的布局。图为参会代表参观天马微电子的展出产品。(厦门日报记者 林铭鸿 摄)厦门网讯(厦门日报记者 林露虹 通讯员 管轩 雷飏)打造新型显示产业高地
2025-12-11 08:18:00
Meta使用阿里千问优化其最新AI模型
12月10日晚间消息,据彭博社报道,美国科技巨头Meta在训练其代号为“牛油果”的新模型时,使用了阿里巴巴Qwen模型进行蒸馏优化
2025-12-11 08:34:00
当iPhone屏幕突然冻结在苹果标志上无法启动,或是在系统更新后陷入无限重启的循环,很多用户的第一反应是连接电脑使用iTunes恢复
2025-12-11 08:38:00
鲁网12月9日讯深耕新能源与电力装备产业20余年的制造业单项冠军企业——特锐德集团,顺应国家“双碳”战略与产业转型升级需求
2025-12-11 08:39:00
近日,华夏基金旗下股权投资平台——华夏股权宣布完成对杭州云深处科技的联合领投。此次投资不仅是华夏股权在机器人及智能装备产业链的关键战略布局
2025-12-11 09:42:00
纵览宠粉计划丨集福卡赢好礼!纵览新闻宠粉活动放大招啦~
纵览宠粉计划第四轮来啦!12月11日至18日福利拉满集齐八张福卡超多好礼带回家点击上图直达活动不管你是纵览的老粉还是刚加入的新朋友这场专属活动千万别错过在前两场活动广受欢迎的演出票
2025-12-11 09:48:00
近日,记者调查发现,美颜生鲜灯并未完全退出市场,而是以隐蔽姿态继续“发光”。在沿街商铺、小区周边门店内,有不少商家使用明令禁止的红罩红光生鲜灯
2025-12-11 09:53:00
以时光炼技能,以热爱赴荣光:华润万家第二届“万家工匠”全国技能大赛总决赛颁奖典礼温暖落幕
聚光灯照亮领奖台,掌声致敬每一份坚守,12月8日下午,第二届“万家工匠”全国技能大赛总决赛颁奖典礼圆满落幕。历经赛场的激烈角逐与专业的层层考量
2025-12-11 10:51:00
在心理健康日益受到全社会重视的背景下,广州勤圣伊科技有限公司(以下简称“勤圣伊科技”)凭借其“科技融合专业”的创新模式
2025-12-11 11:02:00
近日,专注于心理健康领域的广州勤圣亦科技有限公司(以下简称“勤圣亦科技”)宣布,其通过“科技+专业服务”的创新模式,在心理咨询服务数字化与普惠化方面取得显著进展
2025-12-11 11:04:00
12月9日,云深处科技宣布完成超5亿元人民币C轮融资。本轮融资由招银国际和华夏基金联合领投,中国电信、中国联通旗下基金参与战略投资
2025-12-11 11:15:00
以融资租赁之力,赋能产业升级 ——2025 PA“租赁节”拉开帷幕
2025年是“十四五”规划收官之年,我国产业结构转型进入深化攻坚阶段,融资租赁作为服务实体经济、产业转型升级中的重要力量
2025-12-11 11:22:00
依靠学习 走向未来——好书推荐书单:以书为帆 智行致远
01、《电动中国》作者:杨旭东、黄郑出版社:新华出版社书中将中国新能源科技发展置于能源革命与国际竞争的双重视角下,分析动力电池
2025-12-11 12:43:00
近年来,AI驱动的修复视频清晰度软件逐渐普及,无论是老旧的VHS录像、噪点明显的夜间视频,还是压缩导致的画质损失,都有机会被修复
2025-12-11 11:06:00
二手平台价格水涨船高 便利带来隐私权限风险商报讯 今年最火的行业是什么?无疑就是AI。现在不仅仅是下载AI App
2025-12-11 11:46:00