• 我的订阅
  • 头条热搜
全球AI安全评估测试有了新基准
...型安全领域两项国际标准发布全球AI安全评估测试有了新基准随着人工智能系统,特别是大语言模型成为社会各方面不可或缺的一部分,以一个全面的标准来解决它们的安全挑战变得至关重要。◎本报记者 崔 爽第27届联合国科技...……更多
2024可信云大会成功召开,天翼云携手产业各界共绘AI未来!
...标准化协会主办,中国信息通信研究院(以下简称“中国信通院”)承办的2024可信云大会在北京成功召开。大会主论坛上,中国信通院携手天翼云共同发布《央国企云上数智实践指南(2024)》,天翼云科技有限公司助理总经理...……更多
多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染
...,执行这些数据集的全面评估变得非常耗时。此外,这些基准在训练期间也容易受到污染的影响。为此, LMMs-Eval 提出了 LMMs-Eval-Lite 来兼顾广覆盖和低成本。他们也设计了 LiveBench 来做到低成本和零数据泄露。LMMs-Eval-Lite: 广覆盖...……更多
反击OpenAI,谷歌放出最强悍大模型Gemini
...指领先水平的大模型)。 图源:谷歌技术报告在权威MMMU基准测试中,Gemini Ultra获得了59.4%的SOTA分数。这项基准测试是经典的多模态测试,由跨不同领域的多模式任务组成,能够体现大模型的深度推理能力,而推理过程本身,需...……更多
【产业互联网周报】字节回应被曝秘密利用OpenAI;英特尔预告Gaudi 3将超越H100;阿里云M7蔡英华离职;马斯克回应Grok抄ChatGPT作业
...的经济价值,其中我国将突破30万亿元,占比超过四成。信通院启动《大模型数据开发管理能力评价方法总体要求》编制工作12月12日,为破解大模型训练数据发展瓶颈,深入推进人工智能数据高质量发展,由中国信息通信研究院...……更多
精准狙击Llama 3.1?Mistral AI开源Large 2,123B媲美Llama 405B
...量低于 Llama 3.1 的 4050 亿,但两者性能接近。并且在多个基准测试中与 GPT-4o、Anthropic 的 Claude 3.5 Sonnet 媲美。今年 2 月,Mistral AI 推出了最初的 Large 模型,其上下文窗口包含 32,000 个 token,新版模型在此……更多
AI+隐私计算助力保险创新,“隐语”入选信通院大数据优秀案例
AI+隐私计算助力保险创新,“隐语”入选信通院大数据优秀案例近日,中国信通院发布了2023 大数据“星河”案例榜单,蚂蚁集团“基于‘隐语联合定价方案’实现新能源车险精算定价”项目获得数据要素流通优秀案例。(图:...……更多
商汤又“夺金”!SuperCLUE-V多模态大模型基准发布10月榜单
...日新·商量”又拿了金牌!今日,中文多模态大模型测评基准SuperCLUE-V发布10月榜单:商汤日日新·商量多模态大模型(SenseChat-Vision5.5)凭借多个任务上的出色表现,总得分位列国内大模型第一梯队,智夺金牌。商量多模态大模型...……更多
钉钉入选信通院首批“企业级数智化AI融合推进计划”成员单位
...0发布暨企业级数智化AI应用研讨会”在京召开。会上中国信通院发布企业数智化成熟度IOMM3.0标准、《央国企数智化转型发展研究报告(2024)》,正式启动“企业级数智化AI融合推进计划”,钉钉作为首批成员单位入选该计划,...……更多
AMD跑大模型终于Yes!MI300X对比NVIDIA H100/200毫不逊色
...The Information发布的评测报告,AMD的Instinct MI300X GPU在AI推理基准测试中的表现与NVIDIA的H100 GPU相当,显示出AMD在高性能AI计算领域的进步。这份评测报告由MLCommons提供数据,在测试中,AMD的MI300X GPU以及NVIDIA的……更多
GPT-4劲敌,谷歌进入高能+高产模式
....5 Pro官方测试数据Gemini 1.5 Pro大大超过Gemini 1.0 Pro,在27项基准(共31项)上表现更好,特别是在数学、科学和推理(+28.9%),多语言(+22.3%),视频理解(+11.2%)和代码(+8.9%)等领域。即使是对比Gemini 系列的高端产品Gemini……更多
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
...草莓大模型。它拥有真正的通用推理能力。在一系列高难基准测试中展现出了超强实力,相比 GPT-4o 有巨大提升,让大模型的上限从「没法看」直接上升到优秀水平,不专门训练直接数学奥赛金牌,甚至能在博士级别的科学问答...……更多
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...入设置)更严格地评估模型的多模态理解能力;模型在新基准上的性能下降明显,表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型(MLLMs)在各个排行榜上展现的性能不断提升,例如GPT-4o在大学水平...……更多
AMD的GPU跑AI模型终于Yes了?PK英伟达H100不带怕的
...比评测报告,声称是首个直接对比 AMD 和英伟达 AI 集群的基准评测。该报告的数据来自 MLCommons,这是一个由供应商主导的评测机构。他们构建了一套 MLPerf AI 训练和推理基准。AMD Instinct 「Antares」 MI300X GPU 以及英伟达的「Hopper」H.……更多
本文转自:中国工业报行业 资讯中国信通院发布信息通信业(ICT)十大趋势 ■ 中国工业报记者 曹雅丽近日,中国信息通信研究院 (以下简称中国信通院)主办的2023中国信通院ICT+深度观察报告会主论坛在京举办,中国信...……更多
国产ai大模型首批评估名单公布
...IA/PG0110-2023)标准于2024年1月25日正式发布,该标准由中国信通院与中国工商银行联合牵头发起,涵盖通用能力、专用场景能力和应用成熟度三大部分,包括100多个能力要求。此次验证,依据标准开展,评价指标覆盖6大通用能力...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说了,但是依旧算...……更多
微软发布旗下最小语言模型phi-2
...代码等等场景。该模型完全基于高质量数据进行训练,在基准测试中的表现比同类模型高出10倍。微软今年9月更新发布了Phi-1.5版本,同样为13亿参数,可以写诗、写电子邮件和故事,以及总结文本。在常识、语言理解和推理的基...……更多
谷歌 AI 推出 CardBench 评估框架
...之家 9 月 3 日消息,谷歌 AI 研究人员最新推出了 CardBench 基准,主要为学习型基数估计(cardinality estimation)满足系统评估框架需求。CardBench 基准是个综合评估框架,包含 20 个不同真实数据库中的数千次查询,大大超过了以往的...……更多
用过GPT-4 Turbo以后,我们再也回不去了
...了不到十分钟。GPT-4 Turbo 具有创纪录的准确率,在 PyLLM 基准上,GPT-4 Turbo 的准确率是 87%,而 GPT-4 的准确率是 52%,这是在速度几乎快了四倍多的情况下(每秒 48 token)实现的。至此,生成式 AI 的竞争似乎进入了新的阶段。很多...……更多
智慧芽垂直领域大模型通过国家网信办“双备案”
...、C-Eval,以及智慧芽面向业内首次提出的专利大模型测试基准(Patent-bench)的测评结果显示,智慧芽垂直领域大模型在问答、总结、写作、翻译、分类等方面能力整体优于商业通用大模型。图:智慧芽垂直领域大模型专业考试成...……更多
首批!蔚领时代完成大模型数字人基础能力分级测试
...。近日,蔚领时代的蔚领AI互动数字人系统顺利完成中国信通院人工智能研究所组织的大模型数字人基础能力分级测试。蔚领时代也成为首批完成相关测试的元宇宙企业。数字人是通过人工智能技术生成的虚拟人物,具有人类的...……更多
...北京首都在线科技股份有限公司负责提供性能测试与测评基准设计和执行不同大模型在不同硬件平台的性能测试,输出性能测试评估报告;建立性能测评基准,成为行业通用参考标准。庆阳市政府根据《庆阳市“东数西算”算力...……更多
Databricks推出目前最强开源 AI
...大语言模型DBRX,号称是“目前最强开源AI”,据称在各种基准测试中都超越了“市面上所有的开源模型”。从官方新闻稿中得知,DBRX是一个基于Transformer的大语言模型,采用MoE(MixtureofExperts)架构,具备1320亿个参数,并在12TToke...……更多
菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM
...-4o开刀,去解决动物过河难题。在此,他给出了一个新的基准——废话比率(crapness ratio),即LLM给出的总答案与正确答案之间的比率。经过测试,Gowers发现大模型的废话比率可以达到5倍。一开始,他先给出了一个农民带2只鸡...……更多
马斯克官宣Grok-2测试版!xAI将继续拥抱开源路线吗?
...价比。根据xAI公布的数据,在GSM8K、HumanEval和MMLU等一系列基准测试中,Grok-1的表现超过了Llama-2-70B和GPT-3.5,不过与第一梯队的GPT-4差距还很明显。图源:xAI来到Grok-1.5,情况已大为改观。Grok-1.5不仅具有改进的推理能力和128k的……更多
英伟达h100gpu在mlperf基准测试创造6项新记录
...消息,英伟达今天发布新闻稿,表示旗下的H100GPU在MLPerf基准测试中创造了6项新记录。IT之家今年6月报道,3584 个H100GPU群在短短11分钟内完成了基于GPT-3的大规模基准测试。MLPerfLLM基准测试是基于OpenAI的GPT-3模型进行的,包含1750亿...……更多
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
...。由此产生的混合模型包含四分之一的注意力层,在聊天基准测试中实现了与原始 Transformer 相当的性能,并且在聊天基准测试和一般基准测试中优于使用数万亿 token 从头开始训练的开源混合 Mamba 模型。此外,该研究还提出了一...……更多
...字化转型,各行各业对数字人才的需求正大幅增长。中国信通院企业数智人才标准特聘专家、帆软数据应用研究院院长梅杰在接受中新网采访时提到,如何让具备数字化能力的人能应用数字工具进行产出,是当前企业培养数字人...……更多
马斯克 xAI 推出 Grok-1.5 大语言模型
...员和现有的 Grok 用户推出。在官方测试中,Grok-1.5 在 MATH 基准上取得了 50.6% 的成绩,在 GSM8K 基准上取得了 90% 的成绩,这两个数学基准涵盖了广泛的小学到高中竞赛问题。此外,它在评估代码生成和解决问题能力的 HumanEval 基准...……更多
更多关于科技的资讯:
奇瑞车主在广西旅游用海水洗车 网友:看到车牌明白了
快科技2月4日消息,有网友发布视频显示,一位游客竟然在海边用海水洗车。视频中,这位奇瑞车主在广西防城港海边游玩时,一时兴起竟把车辆开到了海边
2025-02-04 09:41:00
GPU-Z升级正式支持RTX 50:最烫的热点温度消失了
快科技2月4日消息,RTX 5090/5080发布多日之后,GPU-Z终于升级了,最新的2.62.0版本已经完整支持新卡
2025-02-04 09:41:00
新春走基层 | 新年数码市场涌“新”潮
本文转自:人民网-广西频道人民网南宁2月4日电 (冯肖慧)年轻消费者拿着刚领到的红包来换新手机、给老人换购大屏手机、销售人员每天从早忙到闭店……这个春节
2025-02-04 09:57:00
黄仁勋喊话年轻人:学会用AI 才能更出色
快科技2月4日消息,据媒体报道,英伟达创始人兼CEO黄仁勋在近期的一次公开报道中向年轻人提出了明确建议。他指出:“如果我是学生
2025-02-04 10:11:00
全球第一台可扩展光量子计算机问世:35颗光子芯片、13公里光纤
快科技2月4日消息,量子计算机被视为计算的未来,各种突破也是接连不断。加拿大创业公司Xanadu就宣布,他们打造了全球第一台可扩展联网的
2025-02-04 10:11:00
免费绕过Win11系统要求:第三方工具Flyby11被微软视为潜在恶意软件
快科技2月4日消息,随着Windows 10系统即将在8个月后正式停止支持,许多用户面临升级到Windows 11的需求
2025-02-04 10:41:00
全球第一例!中国完成卫星超远程手术 拉萨-北京3000公里
快科技2月4日消息,近日,由中国人民解放军总医院肝胆胰外科医学部主任刘荣主刀,我国完成了全球第一例给予通信卫星的超远程手术
2025-02-04 11:11:00
告别复杂操作!微软PowerToys新增神技能:快捷转换视频和音频
快科技2月4消息,PowerToys是微软推出的一款免费的Windows辅助工具集,包含多种实用功能,如窗口布局调整、快速截图等
2025-02-04 11:11:00
印度将罚大众14亿美元 博主:非雁过拔毛、实雁过炖了!
快科技2月4日消息,去年11月就有海外媒体报道,印度已向大众汽车公司发出通知,指控其“故意”少缴奥迪、大众和斯柯达汽车零部件的进口税
2025-02-04 11:41:00
大摩为美国科技巨头打气:DeepSeek不会导致AI资本开支崩盘!
快科技2月4日消息,据媒体报道,摩根士丹利(大摩)全球定量研究主管Vishwanath Tirupattur近日对DeepSeek的突破发表了看法
2025-02-04 11:41:00
堵麻了!返程高峰杀到!网友:18个小时的车程 铁屁股已练成
快科技2月4日消息,据媒体报道,近日,随着春节假期结束,全国各地迎来了返程高峰,交通拥堵情况尤为严重。不少网友在社交媒体上纷纷晒出自己的返程经历
2025-02-04 12:41:00
OpenAI CEO表态:无意起诉DeepSeek 会继续打造优异产品
快科技2月4日消息,据媒体报道,OpenAI CEO Sam Altman在接受媒体采访时表示,OpenAI没有计划起诉DeepSeek
2025-02-04 12:41:00
香港维尔利科技集团宣布将在成都与山东设立医疗科技体验中心
香港维尔利科技集团今日正式宣布,将在中国内地的成都和山东两地设立医疗科技体验中心。这标志着维尔利集团在中国市场的进一步深耕
2025-02-04 15:08:00
RTX 5090太缺货!黄牛3倍价格倒卖
快科技2月4日消息,英伟达最新推出的RTX 50系列显卡,特别是RTX 5090,在全球范围内都是一卡难求,在中国台湾RTX 5090显卡同样也是供不应求
2025-02-04 20:11:00
传台积电将在台南建6座晶圆厂:3座1nm 3座0.7nm
据业内传闻称,台积电最先进的1nm制程晶圆厂将落户台南沙仑,预计规划打造可容纳六座12英寸生产线的超大型晶圆厂(Giga-Fab)
2025-02-04 20:11:00