• 我的订阅
  • 头条热搜
上海人工智能实验室公布首个ai高考全卷评测结果
...20日消息,上海人工智能实验室19日公布了首个AI高考全卷评测结果。据介绍,2024年全国高考甫一结束,该实验室旗下司南评测体系OpenCompass选取6个开源模型及GPT-4o进行高考“语数外”全卷能力测试。评测采用全国新课标I卷,参...……更多
首个AI高考全卷评测结果发布:最高分303,数学全不及格
...能力测试。6月19日, OpenCompass发布了首个大模型高考全卷评测结果。语数外三科加起来的满分为420分,此次高考测试结果显示,阿里通义千问2-72B排名第一,为303分,OpenAI的GPT-4o排名第二,得分296分,上海人工智能实验室的书生...……更多
首个AI高考全卷评测结果发布:数学全都不及格
6月19日,上海人工智能实验室发布首个AI高考全卷评测结果,月初开源的阿里通义千问大模型Qwen2-72B排名第一,在语数外三科420分的满分中获得303分,OpenAI的GPT-4o和上海人工智能实验室的书生·浦语2.0文曲星(InternLM2-20B-WQX)排...……更多
国内首个官方“大模型标准符合性评测”公布
...方公众号,在12月22日的全国信息技术标准化技术委员会人工智能分委会全体会议期间,国内首个官方“大模型标准符合性评测”结果公布,腾讯混元大模型、阿里通义千问等大模型成为首批通过评测的四款国产大模型的其中之...……更多
智源评测体系发布 国内外“百模”评估结果出炉
...140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。本次智源评测,分别从主观、客观两个维度考察了语言模型的简单理解、知识运用、推理能力、数学能力、代码能力、任务解决、安全与价值观七大能力;针对...……更多
...技术生态、产业生态和开放性等多个维度进行评估,确保评测结果客观真实。此次评测结果将形成针对特定应用场景的综合报告和产品推荐目录,为政府、企业和研究机构建设智算中心提供芯片选型的重要参考和决策依据。在评...……更多
...考语、数、外全卷能力测试。据OpenCompass于6月19日发布的评测结果,大模型的语文、英语考试水平还不错,但数学都不及格,最高分只有75分(满分150分)。参加OpenCompass此次高考测试的大模型,分别是来自阿里巴巴、零一万物、...……更多
击败Gemini-1.5-Pro、GPT-4V,从容大模型多模态能力跻身全球前三
...平台 OpenCompass 的多模态评测领域中取得重大进展。最新评测结果显示,云从科技的从容大模型在该体系中的平均得分为 65.5,这一成绩使得从容大模型跻身全球前三,超越了谷歌的 Gemini-1.5-Pro 和 GPT-4v,仅次于 GPT-4o(69.9)和 Clau...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...或者联系报道。本文的主要作者来自上海交通大学和上海人工智能实验室智慧医疗联合团队,共同第一作者为上海交通大学博士生邱芃铖和吴超逸,共同通讯作者为上海交通大学人工智能学院王延峰教授和谢伟迪副教授,这是该...……更多
用AI来做全国高考试卷,真的有人试了!结果:成绩偏科很严重
...代替学生去高考,会怎么样?欸,还真的有人试了。上海人工智能实验室近日公布了司南评测体系OpenCompass选取开源大模型测试今年高考的全国新课标I卷“语数外”的结果,为了确保“闭卷”考试,大模型的开源时间早于高考,...……更多
云从科技从容大模型荣登中国大模型第一梯队
...台OpenCompass的多模态评测领域中也取得了重大进展。最新评测结果显示,从容大模型在该体系中的平均得分为65.5,这一成绩使其跻身全球前三,超越了谷歌的Gemini-1.5-Pro和GPT-4v,仅次于GPT-4o(69.9)和Claude3.5-Sonnet(67.9)。在国内...……更多
媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格
...特定需求的模型。目前 o1-preview 模型表现最为全面,但是评测结果展示了许多其他模型在特定垂直领域的强有力的表现(具体详见论文和榜单)。最后,欢迎广大研究者使用我们的评测集进行实验和研究。淘天集团算法技术 - 未...……更多
当技术越来越智能,我们如何守护安全?
...数字取证、异常检测技术的关注,到最近3年又扩展到了人工智能、深度学习和隐私保护的相关的技术上。“随着人工智能的发展,我们已经很重视相关的安全问题,比如像人工智能算法可能会在对抗攻击的情况下被误导。”清...……更多
大模型像“文科生”?业内人士在沪“论战”
...型自我学习和迭代能力还不足,计算效率还不高。不管是人工智能整体发展,还是大模型具体“升级”,业内人士适逢人工智能时代,看到的希望重重,遇到的挑战也重重。另外,在罗璇看来,人工智能的未来总体方向是通用的...……更多
云从科技:大模型五虎与AI智能体的领航者
...型的步伐。 此外,在综合评测权威平台OpenCompass公布的评测结果显示,云从科技的从容大模型在该体系中的平均得分为65.5,这一成绩使得从容大模型跻身全球前三,超越了谷歌的Gemini-1.5-Pro和GPT-4v,仅次于GPT-4o(69.9)和Claude3.5-...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
...目由北京大学对齐小组开发并进行长期维护,团队专注于人工智能系统的安全交互与价值对齐,指导老师为北京大学人工智能研究院杨耀东助理教授。核心成员包括吉嘉铭、周嘉懿、邱天异、陈博远、王恺乐、洪东海、楼翰涛、...……更多
人工智能的偏见——基于全球大语言模型情商与智商偏见测试
...及百川模型。本次测试提供了一个有趣的视角来观察当前人工智能大模型的发展状况。偏见测试结果得分以绝对值形式呈现,旨在凸显不同大语言模型在性别视角下处理问题的偏见程度,也揭示了它们在不同领域的优势和不足。...……更多
中关村科金1+N新品系列亮相,为企业打造大模型强人工智能应用
本文转自:新华网作为人工智能领域最重要的突破性进展之一,大模型正日益成为推动全球科技进步和经济增长的强劲动力。11月23日,在由中关村科金与中国信息通信研究院人工智能研究中心、人工智能关键技术和应用评测工...……更多
“整活”保险业务,AI大模型哪家强?
...的AI大模型能否完美“适配”保险行业?10月10日发布的《人工智能大模型保险行业应用评测报告》(以下简称《报告》)便揭晓了答案。根据《报告》,10个主流大模型在知识问答领域表现普遍较好,在智能核保、智能理赔、话...……更多
昆仑万维发布开源13B高质量商用大模型 领先Llama2和Baichuan2
...社区发展提供最佳技术支持,降低大模型商业门槛,推动人工智能技术落地千行百业,为人工智能生态建设添砖加瓦,携手开源社区探索未知世界、创造美好未来。两大模型 领先行业昆仑万维「天工」Skywork-13B系列包括两大模型...……更多
AI安全守护计划启动!信通院牵头,AIIA安全治理委员会发布三类模型安全评测
...情况,并启动了AI安全守护计划,发布了三大类别的安全评测结果。AIIA安全治理委员会成立于2023年12月底,经过半年运营,现有治理组、安全组两个工作组,近百家单位加入,主任单位由中国信通院牵头,副主任单位包括多家知...……更多
AI潮起 共筑数智之基
...0+项评测指标、200+项评测场景、100多万专属评测数据集,评测结果客观性跻身国内外主流基准第一阵营。依托自研大模型评测智能体,支持评测数据自学习、用例自编排、执行自适应,同比评测周期缩短90%以上,已服务政府部委...……更多
AI大模型“国标”首批测试结果公布,人工智能成市场新焦点
...大模型首批通过测试。测试结果称,上述四款模型符合《人工智能大规模预训练模型第2部分:评测指标与方法》语言大模型的相关技术要求,通用性、智能性等维度达到国家相关标准。该测试由工信部中国电子技术标准化研究...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...一致时,就会推翻 “假设”,重新尝试新的假设。 人类评测结果人类在 VCR 任务下的水平如何呢?下图中展示了母语者或各语言的流利使用者在英 / 中两种语言的简单 / 困难设定下的准确度:如果考虑包含时间、地名、人名的...……更多
中国信通院发布大模型安全基准测试报告 360智脑综合排名第一
...安全基准测试AI Safety Bench是中国信息通信研究院依托中国人工智能产业发展联盟(AIIA)安全治理委员会,联合17家单位发起的,秉持公平公正、产业应用和场景导向的原则,目标建立业内权威大模型安全中文基准测试体系。以提高...……更多
清华郑纬民院士:AI for Science的出现,让高性能计算与AI的融合成为刚需|MEET2023
...玩笑说法,但实际上也是一种趋势。除此之外,他还谈到人工智能计算机设计的三大平衡性原则、AI基准设计四大目标以及如何通过并行方法加速大规模预训练模型。为了完整体现郑纬民院士的分享及思考,在不改变原意的基础...……更多
...。经过微调的对话模型进行了客观、自动化的能力评测,评测结果显示,总分上Tele-FLM完成了对GPT-3.5-Turbo的超越。在分项得分中,Tele-FLM在总共的11个分项中有十项达到或超过GPT-3.5-Turbo水平。仅今年,中国电信人工智能研究院便...……更多
中科大/华为诺亚出手!芯片性能≠布局评分,EDA设计框架全面开源
...专家先验知识。因此,许多设计自动化方法,尤其是基于人工智能的算法,被开发出来以实现这一过程的自动化。 然而,由于芯片设计的工作流程较长,对这些算法的评估通常集中在易于计算的中间代理指标上(例如半周长线...……更多
融资超25亿元,他们的目标和OpenAI很像
...大模型的元年不是2023年,而是2020年。因为2020年6月美国人工智能研究公司OpenAI发布了GPT-3(生成式预训练模型),曾被业界认为是当时的技术巅峰之作。 “2015年成立的OpenAI最开始是一家人工智能研究实验室,主要关注强化学习...……更多
...领域中的未知问题,加速天文发现。“传统天文研究亟需人工智能技术赋能,以突破天文数据处理困境。”国家天文台台长、党委副书记刘继峰说,“天文学界常说‘以天之语,解物之道’,但‘天籁之声’非常嘈杂,信息量巨...……更多
更多关于科技的资讯:
《哪吒2》票房破146亿!冲击全球第6 距《复联3》一步之遥
快科技3月6日消息,今日,据网络平台数据显示,动画电影《哪吒之魔童闹海》(以下简称《哪吒2》)总票房(包含港澳台及海外票房)突破146亿元
2025-03-06 19:43:00
智界R7车主称开智驾出严重事故:事发原因公布看呆网友
快科技3月6日消息,近日有小红书用户,同时也是智界R7车主发帖称,自己新提的车才1个月,结果在高速路上出事故导致车辆被撞报废
2025-03-06 19:43:00
顺鑫农业牛栏山持续引领行业品牌创新,让中国白酒融入烟火气
2024年度,中国白酒行业风云变幻、竞争激烈,而顺鑫农业旗下的牛栏山酒厂在这一年中的表现则可圈可点。牛栏山酒厂在其2024年度厂务公开暨总结表彰大会上
2025-03-06 20:13:00
雷军:小米汽车已交付超18万辆 还有15万台在排队
快科技3月6日消息,据报道,全国人大代表、小米集团董事长雷军在大会上表示:去年我在全国人代会上表态,一定会把小米汽车干好
2025-03-06 20:13:00
12万的“青春版奥迪” 奇瑞艾瑞泽8 PRO值得买吗
在12万级家用轿车市场,消费者常常面临“选国产还是合资”“要配置还是品牌”的纠结。如今,随着奇瑞艾瑞泽8 PRO的预售开启(起售价11
2025-03-06 20:13:00
五菱汽车发布正面盈利预告:净利润1.04亿同比增长约50%
快科技3月6日消息,五菱汽车在港交所发布正面盈利预告,预计截至2024年12月31日止年度将录得净利润约1.04亿元人民币
2025-03-06 20:13:00
刷新岛城春天的N种打开方式!上抖音,焕新青岛春日生活
摘要:相约青岛“过春天”,上抖音,焕新春日生活!春回大地,万象更新。褪去厚重的衣物,换上轻盈的春装,和三五好友围坐小马扎
2025-03-06 20:25:00
东科克诺尔:做好节能降耗 “加减法” 打造绿色工厂
十堰广电讯(全媒体记者 吕行 李昀翔)企业践行绿色发展,节能降耗是关键。东科克诺尔商用车制动有限公司通过调整生产工艺、科技化手段利用等方式
2025-03-06 20:28:00
护眼台灯哪个牌子好?掌握这三个挑选诀窍,远离智商税!
每当孩子写作业、看书的时候,我们总会担忧不良光线伤害孩子的眼睛。可想要挑个合适的护眼台灯,简直比解数学难题还让人头疼!市面上五花八门的牌子
2025-03-06 20:30:00
3月6日阳曲县消息,健康阳曲平台通过接入DeepSeek大语言模型,全面升级县域慢病AI辅诊能力,阳曲县在智慧医疗领域迈入全新阶段
2025-03-06 20:32:00
Manus创始人是中国90后:毕业于华中科技大学
快科技3月6日消息,继DeepSeek之后,科技圈又迎来一款全新的通用型AI Agent产品Manus,它由中国团队打造
2025-03-06 20:43:00
“英伟达小弟”上市风波不断:创始人巨额套现遭质疑 大客户被传撤单
随着本周被称为“英伟达小弟”的美国云计算平台CoreWeave递交上市招股书,这份充满“金融交易智慧”的文件令吃瓜群众大开眼界
2025-03-06 21:13:00
聚焦9大领域打造60+应用新场景 重庆发布人工智能赋能超大城市现代化治理三年行动计划
3月6日,上游新闻记者从重庆市城市治理委员会办公室获悉,为深入推进国家“人工智能+”战略部署,创新探索人工智能赋能超大城市现代化治理新路径
2025-03-06 21:14:00
车位到车位全程自主通行!广汽NDA4.0高阶智驾官宣:首搭昊铂HL
快科技3月6日消息,广汽昊铂宣布其NDA 4.0城市领航高阶智驾系统将率先应用于中大型SUV昊铂HL,该车型将于3月18日启动预售
2025-03-06 21:43:00
人民日报下场降温:DeepSeek最大的价值是被超越!
快科技3月6日消息,DeepSeek自春节前成为国内“顶流”之后,犹如一声惊雷劈开垄断,跻身世界最强大模型行列,开启中国人工智能崭新的春天
2025-03-06 17:13:00