• 我的订阅
  • 头条热搜
智源研究院发布FlagEval“百模”评测结果
...觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。智源评测发现,2024年下半年大模型发展更聚焦综合能力提升与实际应用。多模态模型发展迅速,涌现了不少新的厂商与新模型,语言模型发展相对放缓。模型...……更多
智源评测体系发布 国内外“百模”评估结果出炉
...140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。本次智源评测,分别从主观、客观两个维度考察了语言模型的简单理解、知识运用、推理能力、数学能力、代码能力、任务解决、安全与价值观七大能力;针对...……更多
全球几十种大模型评测,如何甄别可信度?
...中使用这些数据,从而让模型对测试内容有所准备,导致评测结果不能真实反映模型的能力。更有甚者会针对特定评测数据集进行过度拟合,使得模型在这个特定的数据集上表现得非常好,但在实际应用中却无法达到同样的性能...……更多
...度和广度。此外,缺乏统一的评测标准,也让不同机构的评测结果缺乏可比性。林咏华在谈及这一问题时表示,“评测体系的开放性和科学性是关键,要实现统一标准,仍需克服多方利益博弈的障碍。”在林咏华看来,随着技术...……更多
AI安全守护计划启动!信通院牵头,AIIA安全治理委员会发布三类模型安全评测
...情况,并启动了AI安全守护计划,发布了三大类别的安全评测结果。AIIA安全治理委员会成立于2023年12月底,经过半年运营,现有治理组、安全组两个工作组,近百家单位加入,主任单位由中国信通院牵头,副主任单位包括多家知...……更多
港中文团队提出大模型元推理范式,革新大模型的评价体系
...计意义思考不足,起码会带来以下几个潜在危害:其一,评测结果能否真实反映大模型的能力?如果对此认识不足,往往会过分夸大模型的效果。其二,会让人以为指标的提升,等价于大模型能力的提升、以及等价于真实场景的...……更多
AI大模型“国标”首批测试结果公布,人工智能成市场新焦点
...达到国家相关标准。该测试由工信部中国电子技术标准化研究院发起,从大模型的通用性、智能性、安全性等多个维度开展,涵盖语言、语音、视觉等多模态领域,旨在建立大模型标准符合性名录,是基于官方大模型测试基准的...……更多
国内首个官方“大模型标准符合性评测”公布
...介绍,“大模型标准符合性评测”由中国电子技术标准化研究院发起,旨在建立中国大模型标准符合性名录,引领人工智能产业健康有序发展。该评测对外征集了学术界、产业界几十家头部单位意见,覆盖评估语言大模型通用性...……更多
国家大模型标准测试结果公布 首批仅四家企业产品通过
...业大模型产品通过。该测试由工信部中国电子技术标准化研究院(简称“工信部电子标准院”)发起,评测围绕多领域多维度模型评测框架与指标体系,从大模型的通用性、智能性、安全性等维度开展,涵盖语言、语音、视觉等...……更多
...技术生态、产业生态和开放性等多个维度进行评估,确保评测结果客观真实。此次评测结果将形成针对特定应用场景的综合报告和产品推荐目录,为政府、企业和研究机构建设智算中心提供芯片选型的重要参考和决策依据。在评...……更多
...。经过微调的对话模型进行了客观、自动化的能力评测,评测结果显示,总分上Tele-FLM完成了对GPT-3.5-Turbo的超越。在分项得分中,Tele-FLM在总共的11个分项中有十项达到或超过GPT-3.5-Turbo水平。仅今年,中国电信人工智能研究院便...……更多
中国信通院发布大模型安全基准测试报告 360智脑综合排名第一
本文转自:中国新闻网近日,中国信息通信研究院发布大模型安全基准测试AI Safety Bench 2024年Q1的首轮测评报告(下称“测评报告”),结果显示,三六零集团自研的认知通用大模型360智脑综合排名第一。大模型安全基准测试AI Safet...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
...统的安全交互与价值对齐,指导老师为北京大学人工智能研究院杨耀东助理教授。核心成员包括吉嘉铭、周嘉懿、邱天异、陈博远、王恺乐、洪东海、楼翰涛、王旭尧、陈文琦、张钊为、汪明志、钟伊凡等。团队就强化学习方法...……更多
AI界新晋王者被曝抄袭、作弊、做假,脸都丢光了
...型。Gemini/androidayuda据科技媒体《品玩》报道,北京智源研究院副院长林咏华曾透露,当下世界大模型评测C-Eval、MMLU以及CMMLU等几个测评集,已经被各路模型过度训练。一些测评榜单完全可以靠定向的训练数据拔高分数。而不少...……更多
...豹研究院发布《2023年中国大模型行研能力评测报告》。评测结果显示,商汤语言大模型“日日新·商量”以总分7.73(满分10分)斩获总榜第一,并在报告撰写能力、模型基础能力两个子榜位居第一。 ……更多
云从科技从容大模型荣登中国大模型第一梯队
...台OpenCompass的多模态评测领域中也取得了重大进展。最新评测结果显示,从容大模型在该体系中的平均得分为65.5,这一成绩使其跻身全球前三,超越了谷歌的Gemini-1.5-Pro和GPT-4v,仅次于GPT-4o(69.9)和Claude3.5-Sonnet(67.9)。在国内...……更多
重磅!TeleAI 完成首个全国产化万卡万参大模型训练
近日,中国电信人工智能研究院(TeleAI)成功完成国内首个基于全国产化万卡集群训练的万亿参数大模型(万卡万参),并正式对外开源首个基于全国产化万卡集群和国产深度学习框架训练的千亿参数大模型——星辰语义大模...……更多
...考语、数、外全卷能力测试。据OpenCompass于6月19日发布的评测结果,大模型的语文、英语考试水平还不错,但数学都不及格,最高分只有75分(满分150分)。参加OpenCompass此次高考测试的大模型,分别是来自阿里巴巴、零一万物、...……更多
“整活”保险业务,AI大模型哪家强?
...意度和服务质量。”中国信息协会常务理事、国研新经济研究院创始院长朱克力表示,大模型在知识问答方面的表现相对较好,因为其可以通过学习大量的数据和语料库来提供准确的答案。大模型不仅适合作为智能机器人用以服...……更多
媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格
...特定需求的模型。目前 o1-preview 模型表现最为全面,但是评测结果展示了许多其他模型在特定垂直领域的强有力的表现(具体详见论文和榜单)。最后,欢迎广大研究者使用我们的评测集进行实验和研究。淘天集团算法技术 - 未...……更多
首个AI高考全卷评测结果发布:最高分303,数学全不及格
...能力测试。6月19日, OpenCompass发布了首个大模型高考全卷评测结果。语数外三科加起来的满分为420分,此次高考测试结果显示,阿里通义千问2-72B排名第一,为303分,OpenAI的GPT-4o排名第二,得分296分,上海人工智能实验室的书生...……更多
两大AI模型性能提升 登上国际榜单
...体框架登上GAIA基准测试排行榜榜首;其旗下的天桥脑科学研究院(TCCI)与国际学术杂志《Science》合作推出全球AI驱动科学大奖,举办和支持包括“AI+精神健康”在内的各种高水平国际会议和夏校项目,助力培养跨学科青年AI人才等...……更多
多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染
...模态大型模型设计的评估框架,为多模态模型(LMMs)的评测提供了一站式、高效的解决方案。代码仓库: https://github.com/EvolvingLMMs-Lab/lmms-eval 官方主页: https://lmms-lab.github.io/ 论文地址: https://arxiv……更多
2023移动网络质量“百城”专项评测:打造高质量的5G服务
...百城”专项评测活动11月7日正式开启,来自中国信息通信研究院泰尔系统实验室5支专业的网络质量评测团队奔赴全国百余个城市,对重点和热点区域开展移动网络测试。其实“移动网络质量专项评测活动”已经开展了4年了,中...……更多
昆仑万维发布开源13B高质量商用大模型 领先Llama2和Baichuan2
...亚辉一起出任天工智能联席CEO,并兼任昆仑万维2050全球研究院院长,负责前沿技术的研究。9月5日,昆仑万维天工大模型在腾讯优图实验室联合厦门大学开展的多模态大语言模型测评中,综合得分排名第一。9月25日,昆仑万维正...……更多
清华发布2024年3月版《SuperBench大模型综合能力评测报告》
...究中心联合中关村实验室研制的SuperBench大模型综合能力评测框架,正式对外发布2024年3月版《SuperBench大模型综合能力评测报告》。评测共包含了14个海内外具有代表性的模型,结果显示:文心一言4.0表现亮眼。例如在人类对齐能...……更多
...脸识别安全合规专家观点及实践分享。发布“护脸计划”评测结果和评估规范解读成为本次大会焦点。会上,中国信通院云大所副所长闵栋公布了通过“人脸识别安全专项评测”“金融APP人脸识别安全能力评测”“人脸识别系统...……更多
当技术越来越智能,我们如何守护安全?
...可能会在对抗攻击的情况下被误导。”清华大学人工智能研究院副院长、计算机系教授朱军在论坛的主旨演讲中举例,监控摄像头的人脸识别验证的安全,其实在之前应用之前,就已经开始做很多的学术研究和应用,“一方面去...……更多
国产ai大模型首批评估名单公布
...表现优秀,获得4+评级。以阿里云通义灵码为例,信通院评测结果显示:在通用能力方面,通义灵码在代码转换、代码检查及修复、代码优化等方面表现突出;在专用场景方面,通义灵码提供网站开发、数据库开发、大数据开发...……更多
首个AI高考全卷评测结果发布:数学全都不及格
6月19日,上海人工智能实验室发布首个AI高考全卷评测结果,月初开源的阿里通义千问大模型Qwen2-72B排名第一,在语数外三科420分的满分中获得303分,OpenAI的GPT-4o和上海人工智能实验室的书生·浦语2.0文曲星(InternLM2-20B-WQX)排...……更多
更多关于科技的资讯:
中国冷链物流行业全览 现状剖析与2025年发展趋势预测
中国冷链物流行业现状市场规模持续扩大:据中国物流与采购联合会发布的数据显示,2024年我国冷链物流市场规模持续扩大,全年冷链物流需求总量达到3
2025-01-21 16:57:00
河北隆尧:“信誉”也是“生产力”
本文转自:人民网-河北频道1月15日,笔者走进河北隆尧县今旭面业有限公司正在施工的控糖食品车间,看到全方位的不锈钢墙壁装修光洁亮丽
2025-01-21 17:00:00
提前泄露新车,知名汽车博主晒出500万转账记录,发视频诚恳道歉,并称将引以为戒
近日,知名汽车博主陈震因为在领克新款车型领克900发布前泄露了评测视频,严重扰乱了品牌的市场计划,因此需向领克支付500万元人民币的违约金
2025-01-21 17:00:00
销量销额双第一,海信电视百吋大屏2025迎开门红!
2024年是电视市场变革的一年,百吋大屏一跃成为市场焦点。据奥维云网数据显示,百吋大屏电视整体销量同比增长2.8倍,其中海信系电视销售量占有率41
2025-01-21 17:02:00
打造人工智能产业蓬勃发展的新热土
本文转自:人民雄安网雄安新区党工委委员、管委会副主任于国义作人工智能产业推介。人民网记者 周博摄人民网雄安1月21日电 (商帆)“目前
2025-01-21 17:03:00
山东移动滨州分公司圆满完成全市低空经济产业发展推进会无线网络专项保障
鲁网1月21日讯近日,滨州市成功举办了一场聚焦低空经济产业发展的推进会,这一盛会汇聚了行业精英,见证了科技创新的璀璨时刻
2025-01-21 17:05:00
高德地图上线AED数字地图 北京、郑州用户可一键查询身边AED
本文转自:人民网近日,高德地图与中国红十字基金会、阿里巴巴公益基金会共同宣布,就“自动体外除颤器(AED)数字地图”达成合作
2025-01-21 17:06:00
本文转自:人民网-江西频道“在我这购买农业无人机后,首先接受了技术培训,拿到了合格证,还签订购买协议,明确个人防护、飞行安全等内容
2025-01-21 17:21:00
中国消费者报北京讯(记者孙蔚)近日,微信将“礼物”功能添加到微信个人聊天界面,与红包功能并列。第三方数据显示,近日各大品牌的微信小店销量呈上升趋势
2025-01-21 17:22:00
24小时旅行用品可购,名创优品助力春节无忧出行
近一周,旅行攻略平台马蜂窝中,“春节旅行目的地”的热度环比上涨171%。在这一背景下,名创优品的线上、线下多店态共同提供24小时一站式旅行用品购物服务
2025-01-21 17:32:00
B站员工被曝对用户进行恶意报复封杀账号,涉事员工已公示处罚
近日,哔哩哔哩(以下简称“B站”)一名员工滥用权限,让某用户使用B站网页端观看视频时,被错误提示“账号已被封禁”,引发广泛关注
2025-01-21 17:34:00
深耕专业,持续友好丨图森股份2024年终会议圆满落幕
2025年1月17日-2024年1月18日,浙江图森定制家居股份有限公司经销商年终会于中国嵊州正式召开,来自全国各地的图森家人们齐聚一堂
2025-01-21 17:46:00
安徽省首台“国补”手机在安庆苏宁广场电信营业厅售出
本文转自:人民网-安徽频道1月20日上午,由安庆市人民政府主办,中国电信安庆分公司、苏宁易购承办的“灵蛇迎春 焕新生活”2025年安庆市消费品以旧换新启动仪式在安庆市人民路苏宁电信营业厅召开
2025-01-21 17:48:00
白电冲高端,美的、格力还得学海尔?
2024年的中国家电行业,跌宕起伏。经历了上半年消费疲软带来的萎靡后,下半年随着国补等政策利好的释放迎来了一波升温。奥维云网推总数据显示
2025-01-21 18:16:00
新干县邮政分公司:“智”动分拣 助力箱包产业“腾飞”
江西手机报讯(彭欢萍、谭建波) 近日,新干县邮政分公司积极投入使用全新的邮件自动分拣设备,开启了更好满足人民群众用邮需求的新篇章
2025-01-21 19:20:00