• 我的订阅
  • 头条热搜
神仙打架!谷歌新款大模型Gemini 和GPT-4谁能笑到最后?丨科技观察
...称Gemini Ultra 在大型语言模型研发被广泛使用的 32 个学术基准测试集中,在其中 30 个测试集的性能超过当前 SOTA 结果。 Gemini是谷歌各个团队大规模合作的成果,包括谷歌研究院的研究者,这个模型从发布之初就定位为原生多模...……更多
史上最严中文真实性评估:OpenAI o1第1豆包第2,其它全部不及格
...提高大语言模型的真实性,并探索将中文简短问答扩展到多语言和多模态设置。论文地址:https://arxiv.org/abs/2411.07140 ……更多
谷歌推出其最先进AI模型Gemini,希望击败GPT-4
...总裁艾力·柯林斯(Eli Collins)表示:“事实上,Gemini在多语言能力方面表现相当出色。”与新模型一起亮相的,还有新版本的TPU芯片TPU v5p,旨在减少训练大语言模型相关的时间投入。TPU是谷歌为神经网络设计的专用芯片,经过...……更多
o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回
...为了评估o1系列模型的规划能力,作者使用了PlanBench评估基准。该基准的提出者中也正好包含了本文三名作者中的两名——共同一作Karthik Valmeekam,以及他的导师Subbarao Kambhampati。PlanBench专门为评估大模型规划能力而设计,任务类...……更多
多个中国团队斩获EMNLP\'24最佳论文!UCLA华人学者中三篇杰出论文
...表现优异,在 ML-SUPERB 基准测试中超越了其他模型,如在多语言自动语音识别任务中实现SOTA,且在语音翻译、语音合成等任务中也表现出色。该团队超半数都是华人,其中一作William Chen目前是CMU语言技术研究所的硕士生,此前获...……更多
ibm开源“最先进”和高性能的granite代码模型
...模型进行比较IBM表示,Granite代码模型在所有模型尺寸和基准测试中整体表现非常出色,通常优于其他开源代码模型,尽管这些模型的规模是Granite的两倍。Granite代码模型在代码合成、修复、解释、编辑和翻译方面表现出色,涵盖...……更多
仅用4块GPU、不到3天训练出开源版GPT-4o,这是国内团队最新研究
...TS) 、 Qwen2-Audio (+TTS) 。主要结果表 1 给出了 InstructS2S-Eval 基准测试主要结果。首先,在 S2TIF 任务中,从内容(content)角度来看,LLaMA-Omni 相比之前的模型有了显著提升,这主要是因为 LLaMA-Omni 是基于最新的 L……更多
LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
...化的合成数据。经过合成数据微调后的模型Orca-3,在多项基准上刷新了SOTA。全世界高质量数据几乎枯竭。AI科学家们为了解决这一难题,可谓是绞尽脑汁。目前来看,合成数据或许就是大模型的未来,也成为业界公认的解决之法...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...要好。 最后,与开源模型一起,Mistral还贡献了一个开源基准测试MM-MT-Bench,用于在实际场景中评估视觉语言模型。技术细节当前的多模态大模型基本上都是:模态编码器 + 投影模块 + 大语言模型主干。如果需要多模态输出,后...……更多
李飞飞团队ReKep荣获CoRL-LEAP研讨会最佳论文奖,具身智能又下一城!
...臂平台,各个组件如何导致系统的故障情况?衡量标准和基准作者设定了对于倒茶、放置书籍、回收罐子、打包盒子、折叠衣物、打包鞋子以及协作折叠七项任务的实验评估,并且还通过在执行过程中改变任务对象的姿态位置,...……更多
思必驰亮相NexTech Week 2025日本东京人工智能展
...驰的出海战略提供了坚实的技术支撑。不仅如此,思必驰AI多语种技术注重多语言、多方言的语音识别和合成技术的开发,支持英语、泰语、法语、德语、日语、韩语、越南语、俄语、西班牙语、挪威语、印尼语等20多种语言,覆盖...……更多
Meta首款多模态Llama 3.2开源!1B羊驼宝宝,跑在手机上了
...并迅速给出答案。轻量级的1B和3B模型则可以帮助不仅在多语言文本生成和工具调用能力方面表现出色,而且具有强大的隐私保护,数据永远不会离开设备。之所以在本地运行模型备受大家的青睐,主要在于以下两个主要优势:...……更多
自动化机器学习研究MLR-Copilot:利用大型语言模型进行研究加速
...研究中的广泛应用场景,其数据集包括:SemRel:一个包含多语言语义文本关联任务的数据集,使用 Pearson 相关系数作为评估标准。 IMDB 数据集:用于情感分析的电影评论数据集。 Spaceship-Titanic 数据集:用于分类任务的数据集,...……更多
思必驰天琴语音助手全面接入DeepSeek:中枢大模型驱动车载交互持续进化
...化与车辆状况;语言智能:支持长文本理解、上下文拼接与多语种交互,具备更强的语言理解和生成能力;生态智能:通过多Agent调度系统,无缝连接多媒体、导航、资讯、创作等生态,提供丰富车载服务和应用;群体智能:依托车端、云端...……更多
Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人
...型Falcon Mamba 7B,性能与Transformer架构模型相媲美,在多个基准测试上的均分超过了Llama 3.1 8B和Mistral 7B。今天,阿布扎比支持的技术创新研究所(TII) 开源了全球第一个通用的大型Mamba架构模型——Falcon Mamba 7B。虽然之前,但仅……更多
扣子OpenAPI突进智能语音战场!点满低延时、定制化、随时打断
...侧语音端的处理依然有待改进。一方面是 ASR 还很难应对多语言混合输入的场景,另一方面 TTS 也无法准确实现多语言输出。用户得到的语音反馈更像是毫无特色和情感的「棒读」。到了今年,智能语音交互进入了变革之年,代...……更多
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
...entGoogle DeepMind:利用运动轨迹控制视频生成大模型数学新基准:成功率最高 2%Meta 推出「高效追踪一切」模型SOLAMI:首个端到端社交视觉-语言-动作建模框架RevThink:使用逆向思维增强 LLM 推理想要第一时间获取每日最新大模型热...……更多
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...入设置)更严格地评估模型的多模态理解能力;模型在新基准上的性能下降明显,表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型(MLLMs)在各个排行榜上展现的性能不断提升,例如GPT-4o在大学水平...……更多
全球首个多模态地理科学大模型“坤元”发布:可据指令生成专业地理图表
...领域知识及语言模式上的熟悉度显著提升,使得在地理学基准测试集上的准确性跃升了31.3%,展现出对地理科学领域的深刻理解与精准把握。在解答地理学问题的同时,“坤元”还具备强大的图像检索与匹配能力。它能够根据文...……更多
国产模型指令跟随全球第一!来自LeCun亲推的最难作弊LLM新榜单
...大学等在今年6月推出。号称是“全球首个无法作弊的LLM基准测试”。而这次冷不丁杀出来的黑马,其实比较熟悉国内大模型竞争格局的朋友们已经猜到了——Step系列,背后是大模型六小虎之一的阶跃星辰。指令跟随高分拿下全...……更多
首次突破4W ops/s、第二名的3000倍!华为云图引擎服务GES大幅刷新世界纪录
快科技9月26日消息,国际关联数据基准委员会(LDBC)公布的最新社交网络测试交互式负载(SNB)结果显示,华为云图引擎服务GES成功通过所有声明式查询语言基准测试。GES作为以声明式查询语言为接口的通用图数据库引擎,首...……更多
openai推出mle-bench新基准
...日(10月11日)发布博文,报道称OpenAI公司推出MLE-bench新基准,旨在评估AI智能体在开发机器学习解决方案方面的能力。该基准包括75个Kaggle竞赛,旨在衡量自主AI系统在机器学习工程中的进展。这些竞赛涵盖了多个领域,包括自...……更多
《黄金的遗产》将于7月2日正式发布
...出《最终幻想14:黄金的遗产》免费基准测试工具,支持多语言和4K画面,大小约3.92GB。游戏《最终幻想14》最新资料片《黄金的遗产》将于7月2日正式发布,将迎来自2013年以来的首次重大画面升级。官方称,该基准测试工具使用...……更多
用过GPT-4 Turbo以后,我们再也回不去了
...了不到十分钟。GPT-4 Turbo 具有创纪录的准确率,在 PyLLM 基准上,GPT-4 Turbo 的准确率是 87%,而 GPT-4 的准确率是 52%,这是在速度几乎快了四倍多的情况下(每秒 48 token)实现的。至此,生成式 AI 的竞争似乎进入了新的阶段。很多...……更多
不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用
...于所有标记语言的通用规则来格式化网页,无需依赖测试基准中的任务相关信息。网络智能体的行动空间规定了可以用来与网络环境交互的有效命令。研究团队从智能体常见的失败中得出总结:想要成功完成任务,需要编辑行动...……更多
...与世界各地的事件相结合,增加外宣翻译的吸引力。三、多语言翻译传播,扩大企业外宣语言服务受众在当今全球化的商业环境中,多语言传播已经成为企业成功的重要因素之一,不同国家和地区拥有各自的语言和文化。因此,...……更多
海天瑞声:2024年净利润1121.5万元,同比扭亏
...能终端、内容生成等领域的AI能力建设。在此背景下,以多语种、多音色等为代表的智能语音业务需求、以及以指令微调、偏好对齐等为代表的自然语言业务需求同比均呈现大幅增长,整体上驱动公司营业收入同比显著增加。/阅...……更多
苹果的封闭生态为大模型打开!发布开源多模态大模型、每天为 AI 烧百万美元,零碎的 Android 生态打得过吗?
...对话内定位。团队表示,通过对现有多模态大模型进行了基准测试,发现 Ferret 的平均性能较最出色的原有大模型高 20.4%,而且在物体识别的幻觉方面也有所减轻。 概括来讲,Ferret 项目论文的贡献主要为以下三个方面:结束语...……更多
廊坊师范学院:书写跨文化交流青春答卷
...《AllFallsDown》《Arcade》等经典曲目为载体,用英语、日语多语种演绎跨文化情感共鸣。莎士比亚戏剧展演中,《第十二夜》《仲夏夜之梦》《摩登爱情》等经典剧目被重新编排,融入现代舞美设计等元素,展现“文化互鉴”生动...……更多
北京外国语大学法学院:培养多语种复合型涉外法律人才
...法治中国”建设所需要的法律人才,结合北京外国语大学多语种的专业优势,把培养型、复语复合型涉外法律人才作为特色,采取一系列举措,获得良好效果。通过近年来的探索,学院构建了中国法模块(双语)、英美法模块(...……更多
更多关于科技的资讯:
为切实履行金融机构反洗钱义务,富德生命人寿曹妃甸支公司创新宣传形式,将反洗钱知识融入客户服务全过程,取得了良好成效。在曹妃甸支公司服务大厅内
2025-11-17 10:19:00
近日,富德生命人寿涉县支公司的保险代理人带着精心准备的生日礼物,前往VIP客户家中慰问。这不仅是一场简单的生日拜访,更是富德生命人寿长期坚持“以客户为中心
2025-11-17 10:15:00
奋进的河北·“十四五”答卷丨身边的“十四五”(一):上下楼里的“上下游”
雄安新区之新,贵在创新,成在创新。“十四五”期间,雄安新区建成科创中心、中关村科技园等一批创新平台载体,智能网联、空天信息
2025-11-17 08:09:00
在山西焦煤西山煤电官地矿深邃的井下巷道中,23602工作面的转载机正以平稳强劲的动力输送着乌金。与以往不同的是,驱动这台关键设备的“心脏”已完成全新升级——沿用多年的传统“磁力启动器驱动”革新为“变频器驱动”
2025-11-17 07:09:00
厦门网讯(厦门日报记者 林露虹)电子数据取证领域的顶尖人才齐聚厦门,以赛促训强本领。昨日,“美亚杯”第十一届中国电子数据取证大赛(以下简称“美亚杯”)在厦门举行
2025-11-16 08:34:00
“原子级制造:前沿与应用”自然国际会议在宁举行操控原子可“按需造物”,南京已“先行一步”□南京日报/紫金山新闻记者张安琪11月11日至14日
2025-11-16 08:43:00
谁说养老只能慢节奏?记者带您解锁雄安颐养・智慧养老展示馆,三大科技彩蛋让你忍不住竖起大拇指!彩蛋1:AI健康管理机器人
2025-11-16 14:45:00
“先导杯”决赛在合肥打响 全国大学生比拼“智能计算”
大皖新闻讯 AI正在加速改变世界,但其根基仍在“算”。11月15日-16日,2025全国大学生计算机系统能力大赛——智能计算创新设计赛(先导杯)线下决赛及颁奖典礼在合肥举行
2025-11-16 14:46:00
从好房子到好生活:海尔智家以智慧重新定义未来人居
《晏子春秋》云:“君子居必择居,游必择士。”安居乐业,始终是中国人最朴素的向往。过去,一处遮风避雨的“安身之所”已是百姓慰藉
2025-11-16 15:16:00
海尔智慧家庭与小度达成全面战略合作
当智能家居行业从各自分散走向共创融合,一场新的家庭生活变革正在悄然发生。11月13日,百度世界2025于北京召开。现场
2025-11-16 15:18:00
张宣科技金属制品公司研发锌铝镁合金新产品
河北新闻网讯(董佳倩)近日,在张宣科技金属制品公司镀锌丝厂房里,一根根钢丝平稳浸入锌锅,然后裹着“银装”出锅上行,穿越配药箱之后
2025-11-16 16:19:00
东南网11月16日讯(本网记者 卢金福)随着AI技术的普及,电商平台上AI展示商品的现象日益增多。AI模特穿AI衣服做AI直播
2025-11-16 22:09:00
海尔智慧家庭与小度战略合作:双向控制,生态互通
伴随市场需求从单品向全屋智能深入,智能家居生态正从过去单一入口向着多入口、多圈层的生态体系迈进。特别是互联平台的兼容性方面
2025-11-16 15:16:00
摘要:本文围绕企业绩效管理体系的构建与完善展开研究,首先明确该体系的核心构成,包含目标设定、过程监控、评估实施与结果应用四个相互衔接的环节
2025-11-15 05:22:00
厦门软件园健康马拉松赛开跑 引入AI陪跑员
厦门网讯(厦门日报记者 林露虹 摄影报道)“我的‘跑友’是机器人!”昨日,厦门软件园第十七届健康马拉松赛在软件园二期热力开跑
2025-11-15 08:20:00