• 我的订阅
  • 头条热搜
精准狙击Llama 3.1?Mistral AI开源Large 2,123B媲美Llama 405B
...所未有的速度加速,继 Meta 昨天推出其新的开源 Llama 3.1 模型之后,法国 AI 初创公司 Mistral AI 也加入了竞争。刚刚,Mistral AI 宣布其旗舰开源模型的下一代产品:Mistral Large 2,该模型拥有 1230 亿个参数,在代码生成、数学、推理...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...这是该团队在继 PMC-LLaMA 后,在持续构建开源医疗语言大模型的最新进展。该项目受到科创 2030—“新一代人工智能” 重大项目支持。在医疗领域中,大语言模型已经有了广泛的研究。然而,这些进展主要依赖于英语的基座模型...……更多
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
【新智元导读】Playground Research推出了新一代文本到图像模型PGv3,具备240亿参数量,采用深度融合的大型语言模型,实现了在图形设计和遵循文本提示指令上甚至超越了人类设计师,同时支持精确的RGB颜色控制和多语言识别。自...……更多
开源大模型新的里程碑!Llama 3.1 模型准时发布
...KER科技7月24日消息,今日凌晨,Meta官方正式发布了Llama3.1模型。本次Llama3.1模型共有三个版本,分别是8B、70B和405B。从基准测试结果来看,超大杯Llama3.1405B与OpenAI的GPT-4o和Claude3.5Sonnet在多个项目上能够媲美。在GSM8K任……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
【新智元导读】谷歌DeepMind推出LLM自动评估模型FLAMe系列,FLAMe-RM-24B模型在RewardBench上表现卓越,以87.8%准确率领先GPT-4o。大语言模型都卷起来了,模型越做越大,token越来越多,输出越来越长。那么问题来了,如何有效地评估大...……更多
openai发布多语言大规模多任务语言理解
...言大规模多任务语言理解(MMMLU)数据集。背景随着语言模型日益强大,评估其在不同语言、认知和文化背景下的能力已成为当务之急。OpenAI决定推出MMMLU数据集,通过提供强大的多语言和多任务数据集,来评估大型语言模型(LL...……更多
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
...东西8月21日消息,今天,微软一口气甩出3款超强轻量级模型!微软本次发布的轻量级模型系列名为Phi-3.5,适合在内存和算力受限的环境中运行,均支持128k上下文长度。Phi-3.5-mini-instruct主要面向基础快速推理任务,Phi-3.5-MoE-instru...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
就在刚刚,Meta 发布了其最先进开源大型语言模型的下一代产品——Llama 3。据介绍,Llama 3 在 24K GPU 集群上训练,使用了 15T 的数据,提供了 8B 和 70B 的预训练和指令微调版本,可以支持广泛的应用。同时,Llama 3 在广泛的行业...……更多
GPT-4最强对手出现!Claude-3 AI模型发布
...凌晨Anthropic公司宣布Claude-3正式发布,带有三个高性能的模型形态,并宣布在AI逻辑基准测试中超过了ChatGPT-4。可能国内的小伙伴很少知道Claude,这是一个在海外备受关注且用户基数较大的一个AI模型,其从诞生以来就一直与GPT相...……更多
谷歌推出其最先进AI模型Gemini,希望击败GPT-4
...谷歌公司宣布推出其规模最大、功能最强大的新大型语言模型Gemini,其最强大的TPU(张量处理单元)系统“Cloud TPU v5p”以及来自谷歌云的人工智能超级计算机。v5p是今年早些时候全面推出的Cloud TPU v5e的更新版本,谷歌承诺其速...……更多
阿里大模型,再次开源大放送
阿里大模型,再次开源大放送——发布Qwen1.5版本,直接放出六种尺寸。最大的Qwen1.5-72B-Chat模型,在MT-Bench和Alpaca-Evalv2上,超越Claude-2.1、GPT-3.5-Turbo-0613。甚至在部分任务中,得分已经超过前几个版本的GPT-4。各地的开发者前……更多
LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
...动创建大量、多样化的合成数据。经过合成数据微调后的模型Orca-3,在多项基准上刷新了SOTA。全世界高质量数据几乎枯竭。AI科学家们为了解决这一难题,可谓是绞尽脑汁。目前来看,合成数据或许就是大模型的未来,也成为业...……更多
LLM仍然不能规划,刷屏的OpenAI o1远未达到饱和
实验证明,大模型的 System 2 能力还有待开发。规划行动方案以实现所需状态的能力一直被认为是智能体的核心能力。随着大型语言模型(LLM)的出现,人们对 LLM 是否具有这种规划能力产生了极大的兴趣。最近,OpenAI 发布了 o1 ...……更多
无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成
在长文本理解能力这块,竟然没有一个大模型及格!北大联合北京通用人工智能研究院提出了一个新基准数据集:LooGLE,专门用于测试和评估大语言模型(LLMs)长上下文理解能力。该数据集既能够评估LLMs对长文本的处理和检索...……更多
RTX 40系GPU AI性能首测
...把玩家输入的语音转化为文字,然后上传至云端的大语言模型给出对应的对话回复,接着在云端把这答复转换为语音回传本地,在本地利用NVIDIAAudio2Face为游戏角色创建脸部表情动画,让嘴型对得上声音,最后通过游戏引擎输出...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...的关注,但最近浙大、中科院等机构的学者们提出,先进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层...……更多
CMU&清华:让LLM自己合成数据来学习,特定任务性能同样大幅提升
...赵晨阳,卡内基梅隆大学硕士生贾雪莹。虽然大规模语言模型(LLM)在许多自然语言处理任务中表现优异,但在具体任务中的效果却不尽如人意。为了提升模型在特定自然语言任务上的表现,现有的方法主要依赖于高质量的人工...……更多
GPT-4劲敌,谷歌进入高能+高产模式
...争相拼臂力秀肌肉。Gemini 1.5 Pro的横空出世,将多模态大模型的标准提到了一个新高度。一、极致性能背后的模型架构当地时间2月15日,Alphabet与Google公司首席执行官Sundar Pichai携首席科学家Jeff Dean等众高管在X平台发布了多模态模...……更多
「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」
...后,开发者们甚至还发现,Reflection可能就是个「套壳」模型,而且还是连套三家的那种(Claude/GPT/Llama)。这下子,Reddit和X等平台上,立刻掀起了质疑的声浪。 左右滑动查看为此,Shumer承诺将和Glaive创始人Sahil Chaudhary一起调查...……更多
openai更新gpt-4turbo预览模型
1月27日消息,OpenAI近日发布新闻稿,在更新GPT-4Turbo预览模型之外,还下调API调用价格,优化现有模型性能,并发布全新嵌入性模型。OpenAI今天一口气宣布了5个新模型,包括两个文本嵌入模型、升级的GPT-4Turbo预览版和GPT-3.5Turbo...……更多
OpenAI o1 模型 PlanBench 规划能力实测:准确率 97.8%
...州立大学的科研团队利用 PlanBench 基准,测试了 OpenAI o1 模型的规划能力。研究结果表明 o1 模型取得了长足的进步,但仍然存在很大的局限性。PlanBench 基准简介PlanBench 开发于 2022 年,用于评估人工智能系统的规划能力,包括 600 ...……更多
GPT-4o:“更像人”的人工智能模型
...基准测试,GPT-4o的性能对比GPT-4 Turbo处于优势,对比其他模型更是大幅领先。GPT-4o可通过呼吸来辨别情绪,它甚至可以指导使用者怎么深吸慢呼平复心情,在分析用户喘气声后进行呼吸指导。 GPT-4o响应时间越来越短。它可以在...……更多
PyTorch官宣:告别CUDA,GPU推理迎来Triton加速新时代
...0%的Triton内核Pytorch最近发表了一篇技术博客,他们以两个模型——Llama3-8B和IBM的Granite-8B Code为例,100%使用Triton内核实现了FP16推理。Granite-8B Code是由IBM开发的一种仅限解码器的代码模型,专为代码生成任务设计。仓库地址:……更多
用过GPT-4 Turbo以后,我们再也回不去了
...,OpenAI CEO 山姆・奥特曼向我们介绍了迄今为止最强的大模型,和基于它的一系列应用,一切似乎就像当初 ChatGPT 一样令人震撼。OpenAI 在本周一的首个开发者日上推出了 GPT-4 Turbo,新的大模型更聪明,文本处理上限更高,价格也...……更多
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
...功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分,实现了更好的上下文理解。然而,注意力机制的缺点是计算开销大,会随输入规模而二次增长,Transformer 也因此难以处理非常长的文本。...……更多
昆仑万维发布开源13B高质量商用大模型 领先Llama2和Baichuan2
10月30日,昆仑万维宣布开源百亿级大语言模型「天工」Skywork-13B系列,并配套开源了600GB、150B Tokens的超大高质量开源中文数据集。昆仑万维「天工」Skywork-13B系列目前包括130亿参数的两大模型:Skywork-13B-Base模型、Skywork-13B-Mat……更多
科学家建立新评价基准,助力评估大模型数据分析能力
...术背景人员不可或缺的工具。以 GPT-4 为代表的大型语言模型,它们已经能够理解自然语言查询,并能生成相应的代码或分析,让自动数据分析变得更加接近现实。例如,Devin 的成功,激发了人们对基于大语言模型的自动数据分...……更多
击败GPT-4o的开源模型如何炼成?关于Llama 3.1 405B都写在论文里
...拥有 8B、70B 和 405B 三个版本,再次以一已之力抬高了大模型赛道的竞争标准。对 AI 社区来说,Llama 3.1 405B 最重要的意义是刷新了开源基础模型的能力上限,Meta 官方称,在一系列任务中,其性能可与最好的闭源模型相媲美。下...……更多
《黄金的遗产》将于7月2日正式发布
...斯(SquareEnix)昨日推出《最终幻想14:黄金的遗产》免费基准测试工具,支持多语言和4K画面,大小约3.92GB。游戏《最终幻想14》最新资料片《黄金的遗产》将于7月2日正式发布,将迎来自2013年以来的首次重大画面升级。官方称...……更多
刚刚,Llama 3.2 来了!支持图像推理,还有可在手机上运行的版本
...又又动荡了,另一边被誉为「真・Open AI」的 Meta 对 Llama 模型来了一波大更新:不仅推出了支持图像推理任务的新一代 Llama 11B 和 90B 模型,还发布了可在边缘和移动设备上的运行的轻量级模型 Llama 3.2 1B 和 3B。不仅如此,Meta 还...……更多
更多关于科技的资讯:
从乡村直播间的农特产品,到城市商场的促销热潮,再到物流行业的高效运转……记者从太原市税务局获悉,随着“双11”将下半年消费市场带入旺季
2025-11-21 08:12:00
天阳科技发布“量子增强计划”,多方聚力共筑“量子金融”新生态
近日,以 “量子计算+AI:重塑金融科技新范式” 为主题的前沿科技研讨会在北京召开,本次研讨会由天阳宏业科技股份有限公司(以下简称 “天阳科技”)主办
2025-11-21 08:29:00
奋进的河北·“十四五”答卷丨身边的“十四五”(四):车间里的“智变”
向智而行,新型工业化加速跑——河钢集团唐钢公司构建全流程一体化生产计划排程系统,实现订单与产能高效匹配;石家庄四药集团应用生产执行系统
2025-11-21 08:36:00
“看见”,是新闻工作的起点。守护新闻工作者的清晰视野,就是守护社会公器的明亮窗口。11月18日,在厦门市新闻工作者协会指导下
2025-11-21 09:40:00
网易 UU 远程 Mac 被控功能上线,提升 macOS高效办公体验
网易 UU 远程全新版本上线,在已有 Mac 控制 PC 功能的基础上,正式开放 Mac 设备被控功能,自此 Mac 实现控制与被控的双向协作
2025-11-21 09:47:00
中新经纬11月21日电 “小米公司发言人”微博21日发布关于Xiaomi Watch S4 Sport潜水功能的说明。小米公司表示
2025-11-21 11:11:00
阿里巴巴承办COP30中国角边会 展示AI驱动气候治理新成果
第30届联合国气候变化大会(COP30)于11月10日至21日在巴西帕拉州首府贝伦市举办,这是2015年《巴黎协定》签署以来最受瞩目的气候大会
2025-11-21 11:36:00
数绘星云与腾讯云达成战略合作,共同推动AI出海电商智能化升级
11月18日,数绘星云(深圳)科技有限责任公司与腾讯云正式签订战略合作协议,双方将在云计算、大数据、AIGC等核心领域开展深度合作
2025-11-21 11:48:00
中新经纬11月21日电 据彭博社报道,当地时间20日,谷歌宣布了一款名为Nano Banana Pro的新型图像生成和编辑模型
2025-11-21 11:53:00
回望“十四五”,西安交通大学方涛教授说,他们团队倍感振奋。“在国家能源结构转型关键期,我们扎根国家‘双碳’战略,依托西安交大强大科研平台
2025-11-21 13:29:00
舒朗秋11月19日,工业和信息化部举行新闻发布会,介绍GB6675《玩具安全》系列强制性国家标准修订情况。据介绍,我国建成了全球最为完善的玩具产业链
2025-11-21 14:19:00
向长河英国剑桥大学出版社近日宣布,与追星相关的词语“准社交”(parasocial)成为2025年《剑桥词典》年度词汇
2025-11-21 14:19:00
2025世界计算大会发布全球计算十大创新成就
20日,2025世界计算大会在湖南长沙开幕。大会发布了2025全球计算十大创新成就及2026十大发展趋势。此次发布的全球计算十大创新成就包括
2025-11-21 15:35:00
系统创业 自由人生|首届雨大王大健康私域 IP 创业峰会在深圆满落幕
2025年11月1日-2日,为期两天一夜的首届雨大王大健康私域IP创业峰会在深圳成功举办。本次峰会以"系统创业,自由人生"为主题
2025-11-21 15:41:00
《保险AI智能体应用白皮书》发布,四层架构+七大场景定义行业智能新范式
随着人工智能技术加速重塑千行百业,以AI智能体为代表的AI技术正成为推动产业智能化转型的核心引擎。在保险行业,伴随数字化进程的深入推进
2025-11-21 15:42:00