• 我的订阅
  • 头条热搜
无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成
...型及格!北大联合北京通用人工智能研究院提出了一个新基准数据集:LooGLE,专门用于测试和评估大语言模型(LLMs)长上下文理解能力。该数据集既能够评估LLMs对长文本的处理和检索能力,又可以评估其对文本长程依赖的建模...……更多
OpenAI o1太贵?那就自己做一个!纯提示方法让普通LLM进化出复杂推理能力
...之地。人们可以利用这种推理能力来构建强大的工作流程自动化,以解决IT、网络安全、汽车等各个领域的问题。组织可以使用较小的开源模型来替代GPT-4o等成本较高的模型,用于需要复杂推理能力来解决的任务。参考资料:http...……更多
智源评测体系发布 国内外“百模”评估结果出炉
...史萍教授表示,相较文本,视频的主观评价复杂度极高。自动化指标无法完全捕捉模型生成的质量,更无法对生成视频的真实性、图文语义一致性等进行量化。因此,需要系统化构建针对文生视频模型的主观评价体系。该评价体...……更多
语言、机器人破壁,MIT等用GPT-4生成模拟任务,并迁移到真实世界
...Sim,它为设计和验证任务资产安排、任务进展提供了一种自动化机制。更重要的是,生成的任务表现出了极大的多样性,促进了机器人策略的任务级泛化。此外从概念上讲,利用 GenSim,LLM 的推理和编码能力通过中间合成的模拟...……更多
全球AI安全评估测试有了新基准
...型安全领域两项国际标准发布全球AI安全评估测试有了新基准随着人工智能系统,特别是大语言模型成为社会各方面不可或缺的一部分,以一个全面的标准来解决它们的安全挑战变得至关重要。◎本报记者 崔 爽第27届联合国科技...……更多
LLM群体智能崛起,数学性能暴增11.6%!谷歌DeepMind四大机构联手新作
...解方程、掌握函数的概念),到复杂的(定理和证明)。自动化技能发现如下图所示,研究人员描述了,让GPT-4根据数学问题,所需的特定技能对数学问题进行分类的自动化过程。这里一共划分为两个阶段:首先,创建技能示例...……更多
《全球工程前沿2022》发布  九大领域188个项目入选
...术、超低功耗物联网技术及芯片制造、人工智能电子设计自动化(EDA)技术、基于强化学习的无人系统进化算法、中低轨空间通信网络技术。 ——化工、冶金与材料工程领域,12项研究前沿分别是高性能超导储能材料研究、...……更多
2022-12-15 19:13领域,项目,工程,全球
初创公司推出全球首个ai软件工程师devin
...功能齐全的网络应用程序,根据用户反馈逐步增加功能。自动化查找BUG:Devin擅长识别、调试和修复代码问题,同时为开源和生产级软件仓库作出贡献。AI培训:从研究资料库中获取指令,建立并微调大型语言模型。官方对其的...……更多
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...入设置)更严格地评估模型的多模态理解能力;模型在新基准上的性能下降明显,表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型(MLLMs)在各个排行榜上展现的性能不断提升,例如GPT-4o在大学水平...……更多
什么影响大模型安全?NeurIPS\\\'24新研究提出大模型越狱攻击新基准
全新大语言模型越狱攻击基准与评估体系来了。来自香港科技大学(Guangzhou)USAIL研究团队,从攻击者和防御者的角度探讨了什么因素会影响大模型的安全。提出攻击分析系统性框架JailTrackBench。JailTrackBench研究重点分析了不同...……更多
史上最严中文真实性评估:OpenAI o1第1豆包第2,其它全部不及格
新的大语言模型(LLM)评估基准对于跟上大语言模型的快速发展至关重要。近日,淘宝天猫集团的研究者们提出了中文简短问答(Chinese SimpleQA),这是首个全面的中文基准,具有“中文、多样性、高质量、静态、易于评估”五...……更多
...和优化“展业小助手”程序建设,进一步实现重复性劳动自动化处理,强化科技赋能,深化业务营销支持,进一步将平台优势转化为业务动能,服务客户、赋能基层、创新发展,实现用户体验、业务效率和经营价值的同步提升。...……更多
五大数字员工已上岗!讯飞星火让每个岗位都用上大模型
...快速构建可落地的智能体应用。反过来看企业端,企业对自动化、智能化工具的需求旺盛也在推动大模型应用落地的加速。目前,很多企业的现状是,大量有效数据被存储在企业内部但无法真正作为决策者选择的支撑,因此在技...……更多
科学家建立新评价基准,助力评估大模型数据分析能力
...更加符合预期的结果。整体来看,缺乏交互式数据分析的基准——是本次研究面临的最大问题之一。为了解决这一问题,他们以“斯坦福小镇”项目为启发,创建了“DECISION COMPANY”。“DECISION COMPANY”是数据分析领域的首个多代...……更多
传openai全球招外包大军手把手训练chatgpt取代码农
...高级的编程技能。他们的作用是,编写OpenAI期待实现的「自动化」基本代码。具体来说,其中的60%从事「数据标注」工作——创建大量的图像、音频片段等信息,用来训练人工智能工具或自动驾驶汽车。 另外的40%则是实打实的...……更多
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
...草莓大模型。它拥有真正的通用推理能力。在一系列高难基准测试中展现出了超强实力,相比 GPT-4o 有巨大提升,让大模型的上限从「没法看」直接上升到优秀水平,不专门训练直接数学奥赛金牌,甚至能在博士级别的科学问答...……更多
六维力/力矩传感器的结构
...AGR)为4.54%。由于电动车(EV)销量的成长、各种制造流程的自动化程度不断提高以提高效率和生产力,以及消费性电子产品和穿戴式装置的日益普及,该市场正在经历稳定成长。高工机器人产业研究所(GGII)数据显示,2022年中国...……更多
AI卷翻科研!DeepMind 36页报告:全球实验室被「AI科学家」指数级接管
...真正瓶颈问题;而非企图让人类科学家已擅长的任务实现自动化。随着AI推动科学变得更经济高效,社会对于科学和科学家的需求也会随之增加。和其他行业不同,科学的需求几乎是无限的,而科技也并不会降低对科学家的需求...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...一款名为 MMed-Llama 3 的全新基座模型,以 8B 的尺寸在多项基准测试中超越了现有的开源模型,更加适合通过医学指令微调,适配到各种医学场景。 所有数据和代码、模型均已开源。MMedBench 上的准确率,图 d 展⽰了在 MMedC 上进...……更多
位列第一梯队,腾讯混元再度领跑国内大模型
...模型在学术、产业与用户侧的广泛应用,构建了多层次、多维度的综合性测评基准,由十大基础任务组成,包括逻辑推理、代码、语言理解、长文本、角色扮演等。本次报告选取了国内外具有代表性的32个大模型4月份的版本,通...……更多
「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」
...性消息——结果没多久,Reflection 70B就被打假了:公布的基准测试结果和他们的独立测试之间存在显著差异。无论是AI研究者,还是第三方评估者,都无法复现Matt Shumer所声称的结果。根据Artificial Analysis的数据,Reflection 70B在基准...……更多
NeurIPS 2024 Oral | 小参数,大作为!揭秘非对称 LoRA 架构性能
...是,HydraLoRA 的非对称架构摆脱了手动干预的需求,通过自动化的方式优化了任务间的学习过程。 ……更多
月狐数据发布中国市场首份《AIGC应用app智能化评测报告》
...及23个二级指标构成,采用了500道封闭题和开放题,结合自动化测试和专家评分的形式对各大AIGC应用产品进行打分。评估结果显示,文心一言app智能化综合指数位居第一,其次是讯飞星火app、豆包app。拆分二级指标来看,文心一...……更多
精准狙击Llama 3.1?Mistral AI开源Large 2,123B媲美Llama 405B
...量低于 Llama 3.1 的 4050 亿,但两者性能接近。并且在多个基准测试中与 GPT-4o、Anthropic 的 Claude 3.5 Sonnet 媲美。今年 2 月,Mistral AI 推出了最初的 Large 模型,其上下文窗口包含 32,000 个 token,新版模型在此……更多
指令跟随大比拼!Meta发布多轮多语言基准Multi-IF:覆盖8种语言,超4500种任务
【新智元导读】Meta全新发布的基准Multi-IF涵盖八种语言、4501个三轮对话任务,全面揭示了当前LLM在复杂多轮、多语言场景中的挑战。所有模型在多轮对话中表现显著衰减,表现最佳的o1-preview模型在三轮对话的准确率从87.7%下降...……更多
这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct
...lu 3 系列模型明显优于同等规模的其它模型。8B 模型在各基准上的表现70B 模型在各基准上的表现 Tülu 3 是如何炼成的?Ai2 在预训练语言模型的基础上,通过四个阶段的后训练方法生成 Tülu 3 模型(见图 1)。这套训练流程结合...……更多
CMU清华教LLM练成数学高手,LeanSTaR训练模型边思考边证明,登顶新SOTA
...会在简单的算术上犯蠢。然而,LLM的数学能力弱,不代表自动化的定理证明器对数学没用。前段时间陶哲轩也曾在采访中强调,使用。这是一股不可小觑的力量。最近,CMU和清华的一项研究就致力于让LLM的「自然语言思维链」和...……更多
企企通:AI赋能,重塑未来供应链与采购新生态
...供了技术支持,有力驱动采购流程从传统模式向智能化、自动化、高效化的形态转变,提升供应链的透明度、灵动性和响应速度。1、AI技术赋能供应链智能化升级,实现效率提升与成本优化人工智能(AI)以其卓越的数据处理能...……更多
比瓴科技荣获2023年度网络安全新星企业代表
...库为核心,增强式LLM、需求识别及决策引擎为驱动,通过自动化安全需求识别、标签筛选的方式向用户提供轻量化、便捷式的安全威胁建模能力,为企业安全开发活动赋能。安全专家知识库基于核心内容交付团队十数年安全行业...……更多
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
...。由此产生的混合模型包含四分之一的注意力层,在聊天基准测试中实现了与原始 Transformer 相当的性能,并且在聊天基准测试和一般基准测试中优于使用数万亿 token 从头开始训练的开源混合 Mamba 模型。此外,该研究还提出了一...……更多
更多关于科技的资讯:
劳力士手表价格暴跌 有人卖块表赔了一台保时捷
快科技3月10日消息,据报道,二手劳力士手表价格近期正在持续下跌。“熊猫迪”已从40万元跌到19万元,一些型号更是跌破了劳力士发行的公价
2025-03-10 19:48:00
182.3米世界坝体最高!江苏句容抽水蓄能电站3号机组并网发电
快科技3月10日消息,据央视新闻报道,今天位于江苏句容市的国网新源江苏句容抽水蓄能电站3号机组正式并网发电。至此,该站首批3台机组已全部投运
2025-03-10 19:48:00
出色影像加持,华为nova 13 Pro氛围感照片触手可得
在这个时代,一张好看的照片胜过千言万语。你是否曾经因为拍不出美照而错失记录生活的机会?是否曾因为不会给女朋友拍照而被嫌弃
2025-03-10 19:48:00
网友买到三只松鼠发霉面包要求道歉 客服:赔偿2000元 道歉信没有
近日,据媒体报道,有网友买到三只松鼠发霉面包。该网友称,该发霉面包是从三只松鼠电商旗舰店购得,入口后闻到臭味,发现面包发霉现象
2025-03-10 19:48:00
网友脑洞大开!华为Pura 80鬼才设计图曝光
快科技3月10日消息,有网友放出了一张华为Pura 80的“鬼才设计图”,其最大看点是镜头模组是四分之一圆,四台手机组合在一起就能拼成一个完成的圆形
2025-03-10 19:48:00
对话全国政协委员、康希诺朱涛:疫苗出海需创新与差异化,国家免疫规划扩容是必然趋势
“我们不可能一天就把免疫计划扩容到跟发达国家一样多的品种。随着国内企业在疫苗供给、疫苗质量和技术水平方面的逐步提高,国家免疫规划扩容必然会来临
2025-03-10 19:54:00
秒“算”神机,西部大山为“哪吒”生出澎湃算力|贵州有“数”
据网络平台数据:《哪吒之魔童闹海》(《哪吒2》)全球电影票房(含预售及海外)超越《复仇者联盟3:无限战争》进入全球票房榜前6名
2025-03-10 20:15:00
13万就有激光雷达智驾!零跑B10搭同级唯一高通8650智驾芯片
快科技3月10日消息,零跑汽车今日晚间举办零跑B10预售发布会。零跑汽车介绍,B10为13万级首搭激光雷达高阶智驾的车型
2025-03-10 20:18:00
“县城贵妇”们开始纷纷加入二手经济
快科技3月10日消息,近日,转转集团发布2024女性二手消费洞察。数据显示,2024年转转平台女性用户同比增长70%,女性用户在高价值品类的交易中占比显著提升
2025-03-10 20:18:00
10倍长!微信正式官宣:朋友圈可以发5分钟视频了
快科技3月10日消息,微信,作为我们日常生活中不可或缺的社交工具,一直在不断创新和优化,为用户带来更加丰富的使用体验。以往
2025-03-10 20:18:00
鲁网3月10日讯(记者 陈珊珊 通讯员 韩巧苓)在人工智能技术飞速发展的当下,楼宇经济作为城市产业的关键支撑,正面临着数字化
2025-03-10 20:43:00
本文转自:人民日报客户端全国政协委员、中国载人航天工程副总设计师杨利伟接受人民日报“两会面对面”系列访谈时提到,从登月载人飞船梦舟到着陆器
2025-03-10 21:30:00
调查显示:超七成宁波女性消费者每年都出游
中国消费者报报道(记者郑铁峰)在“她经济”持续崛起的背景下,女性消费者正以多元化的需求重塑消费市场格局。近日,浙江省宁波市消保委面向18至60周岁的宁波女性消费者开展消费调查
2025-03-10 21:59:00
警惕!伪装成学习工具的色情软件威胁孩子健康成长
在数字化时代,手机应用为孩子们的学习和娱乐提供了便利。然而,网络中潜伏的危险却不容忽视。近日,河南郑州的一则事件敲响警钟
2025-03-10 22:32:00
长城汽车:坦克300是一台可以载入全球汽车编年史的越野车 女性用户占比35%
快科技3月10日消息,今日晚间,坦克300 2025款上市发布会正式举办。发布会一开始,坦克品牌执行副总经理谷玉坤率先回顾了坦克300上市4年来取得的成绩
2025-03-10 20:48:00