• 我的订阅
  • 头条热搜
「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」
...源新王」Reflection 70B,才坐上王座没几天就被打假,跌落神坛了!甚至有人质疑,它莫不是套壳的Sonnet 3.5?发布者Matt Shumer和Sahil Chaudhary经过一番挣扎,已经光速「滑跪」,po出的复盘长文也是亮点满满。「开源新王」Reflection 70B...……更多
铠侠exceriaplus极至光速g3ssd测试
...对消费级市场推出了自家的主流级新品——EXCERIAPLUS极至光速G31TBSSD(代号SD10)。铠侠EXCERIAPLUS极至光速G3SSD是标准的M.2规格,支持PCIe4.0x4速率、NVMe1.4技术,我们收到的版本为1TB。它用的是铠侠自研的BiCSTLC原厂颗粒,顺序读写速度.……更多
LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
...的研究比比皆是。那么,我们该怎么办呢? 最近,微软团队提出了可扩展的智能体框架——AgentInstruct,可自动创建大量多样化、高质量的合成数据。它最大的优势在于,仅只用原始数据源,就能创建完整的提示和回应。论文地...……更多
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...答案?为了解决这一问题并推动多模态AI评估的边界,MMMU团队对MMMU基准在健壮性和问题难度上进行提升,新基准MMMU-Pro能够更准确、更严格地评估模型在广泛的学科领域内真正的多模态理解和推理能力。论文链接:https://arxiv.org/...……更多
什么影响大模型安全?NeurIPS\\\'24新研究提出大模型越狱攻击新基准
...与评估体系来了。来自香港科技大学(Guangzhou)USAIL研究团队,从攻击者和防御者的角度探讨了什么因素会影响大模型的安全。提出攻击分析系统性框架JailTrackBench。JailTrackBench研究重点分析了不同攻击配置对LLMs性能的影响,包...……更多
自动化、可复现,基于大语言模型群体智能的多维评估基准
...社区信赖的基准。 图 3 展示了最终排行榜的截图。研究团队正在继续添加更多的模型和维度,欢迎来自社区的贡献和提交!图 3:Decentralized Arena 排行榜,包括不同维度的排名。方法:通过大语言模型的群体智能进行基准测试去...……更多
超越光速,是能看到过去,还是能回到过去?
在我们深入探讨超越光速的可能性之前,让我们先来聊聊光速本身。光速,通常用字母c表示,在真空中的速度约为每秒299,792,458米,这个数值不仅精确无比,还被用来定义了公里和秒的标准。但光速的意义远不止于此,它是宇...……更多
GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集
...的重要基础。近日,来自 JHU, NYU, MIT, Harvard 等机构的研究团队开创了第一个多模态的 ToM 测试基准,发现现有的多模态模型和 LLM 都表现存在系统性缺陷,同时他们提出了一种有效的新方法。在刚结束的 ACL 2024 会议中,这篇论文...……更多
向具有光速能力的计算机的一次充满希望的飞跃
该团队的可重新编程的基于光的处理器。图片来源:Will Wright,皇家墨尔本理工大学科学家们创造了一种世界首创的可重新编程的基于光的处理器,他们说这可能会开创量子计算和通信的新时代。这些在原子水平上运行的新兴领...……更多
怎样证明光速在宇宙的任何地方任意时刻都是一样的?
...宙中,有一种速度穿梭于星际,贯穿时间和空间,它就是光速。作为现代物理学的核心原则之一,光速不变原理引人入胜,它告诉我们,在宇宙的任何地方,光速在真空中的速度总是恒定不变,这个速度大约是每秒299,792公里。...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...者来自上海交通大学和上海人工智能实验室智慧医疗联合团队,共同第一作者为上海交通大学博士生邱芃铖和吴超逸,共同通讯作者为上海交通大学人工智能学院王延峰教授和谢伟迪副教授,这是该团队在继 PMC-LLaMA 后,在持续...……更多
苹果AI震撼上线iPhone,进化版Siri却没有ChatGPT!47页技术报告揭秘自研模型
....正如开头所述,能够把苹果AI装进终端设备,背后是来自团队自研的基础模型,在发光发热。iPhone的AI革命:30亿参数装进口袋具体来说,AFM是一款基于Transformer架构的仅解码器稠密模型。其设计思路如下:共享输入/输出嵌入矩...……更多
指令跟随大比拼!Meta发布多轮多语言基准Multi-IF:覆盖8种语言,超4500种任务
...任务,难以揭示复杂场景中的模型表现。最近,Meta GenAI团队发布了一个全新基准Multi-IF,专门用于评估LLM在多轮对话和多语言指令遵循(instruction following)中的表现,包含了4501个三轮对话的多语言指令任务,覆盖英语、中文、法语...……更多
马斯克打脸OpenAI!全球最大模型Grok-1开源
...价称,这是有史以来最大的开放大型语言模型,由世界级团队训练,通过磁力链接发布。Apache 2.0。314B,专家混合(8个活跃中的2个)。就连活动参数仅(86B)就超过了最大的Llama。迫不及待地想看到基准测试结果以及人们用它构...……更多
o1金牌团队揭秘AI超越人类惊人时刻!22分完整版视频全公开
【新智元导读】o1诞生,对于OpenAI团队来说,是最具革命性的时刻。在22分钟完整版采访视频中,他们分享了自己对新模型的思考,以及背后的开发故事。OpenAI o1团队采访的完整版视频,终于上线了!全程22分钟,o1研发团队在项...……更多
下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用
...不足,并进一步提升它们呢?为解决这一问题,CMU和Meta团队联合推出了全新的评估指标VQAScore及基准GenAI-Bench,用于自动评估图像、视频和3D生成模型在复杂提示词下的表现。 ECCV’24论文链接::https://arxiv.org/abs/2404.01291CVPR’……更多
田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判,成本暴跌97%
【新智元导读】AI评估AI可靠吗?来自Meta、KAUST团队的最新研究中,提出了Agent-as-a-Judge框架,证实了智能体系统能够以类人的方式评估。它不仅减少97%成本和时间,还提供丰富的中间反馈。AI智能体,能否像人类一样有效地评估...……更多
​首个自主机器学习AI工程师,刚问世就秒了o1,Kaggle大师拿到饱
...数据集能够更好地用于训练:那么它的跑分如何呢?研究团队在 MLE 基准测试(MLE-bench)上对 NEO 进行了全面评估。MLE-bench 是一种创新的基准测试,专注于将 AI 智能体应用于真实世界的机器学习工程任务。与其他人工设计的挑战...……更多
杰斐逊实验室用创纪录的电子自旋测量揭开物理学的新前沿
...莉森-泽克(Allison Zec)说:\"当你计算出两个物体以接近光速相互撞击的基本运动学原理时,会有一个最大能量。\"她曾在弗吉尼亚大学物理教授肯特-帕施克(Kent Paschke)的团队工作,现在是新罕布什尔大学的博士后研究员。她...……更多
...(编辑 史正丞)北京时间周日午后,社交媒体平台X的AI团队发布公告,正式推出Grok大语言模型。(来源:xAI)Grok一词,是英国作家道格拉斯·亚当斯在知名科幻小说《异乡异客》造出来的概念。《牛津英语词典》对这个词的解...……更多
苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果
...近Llama 3 8B 使用PyTorch和OpenLM框架进行训练具体而言,研究团队先是提出了一个语言模型数据比较新基准——DCLM。之所以提出这一基准,是因为团队发现:由机器学习 (ML) 模型从较大的数据集中自动过滤和选择高质量数据,可能...……更多
无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成
...别组成,旨在评估LLMs理解短程和长程依赖内容的能力。团队设计了5种类型的长期依赖任务,包括理解与推理、计算、时间线重新排序、多重信息检索和摘要。通过人工标注精心生成了超过1100对高质量的长依赖问答对,以满足长...……更多
2023 AI现状报告:GPT-4仍最强,监管方向缺乏全球共识
...大选期间违法而受到调查。·生成式AI扩展热潮导致一个团队花费超过10亿美元来训练单个大型模型。·除了高层的自愿承诺之外,全球人工智能治理的进展有限。·一首AI生成的歌曲跻身Billboard榜单前10名或Spotify 2024年热门歌曲排...……更多
突发!谷歌发布史上最强大模型Gemini,打爆GPT-4
...ni Pro从今天起,就会在Bard中实装上线。 同时,谷歌Gemini团队还公布了一份60页的详细技术报告。消息一出,社交媒体瞬间炸了锅。英伟达AI科学家Jim Fan就第一时间转发评论:这是OpenAI王座的有力竞争者。 话不多说,一起来看...……更多
商汤又“夺金”!SuperCLUE-V多模态大模型基准发布10月榜单
...此前就提出三层架构(KRE)理论,即:第一层知识(Knowledge),世界知识的全面灌注;第二层推理(Reasoning),理性思维的质变提升;第三层执行(Execution),世界内容的互动变革。这三层可以组成一个对于世界提供生产力工具模型的完备能...……更多
本文转自:福州晚报福州大学超算团队连续五次获全球一等奖本科生这样“攻克”世界级难题福州晚报讯 喜讯从上海传来!记者昨日从福州大学获悉,福州大学团队在2024ASC世界大学生超级计算机竞赛(简称“ASC24”)总决赛中...……更多
重要突破!西湖大学团队和浙二医院共同实现脑机接口中文解码
先进神经芯片中心默罕默德·萨万教授团队,自然语言处理实验室张岳教授团队和朱君明教授团队联合发布了他们最新的研究结果:“A high-performance brain-sentence communication designed for logosyllabic language”.该研究实现脑……更多
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
...5 倍。如何使用 OpenAI o1?ChatGPT Plus 和 Team(个人付费版与团队版)用户马上就可以在该公司的聊天机器人产品 ChatGPT 中开始使用 o1 模型了。你可以手动选取使用 o1-preview 或 o1-mini。不过,用户的使用量有限。目前,每位用户每周...……更多
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
...研。不过现有科研辅助相关的基准测试都太简单,跟现实世界的任务差距还是比较大的。最近,普林斯顿大学的研究人员发布了一个新的基准测试CORE-Bench(Computational Reproducibility Agent Benchmark,计算可重复性智能体基准测试),...……更多
RNN回归!Bengio新作大道至简与Transformer一较高下
...艳。直到后来遭遇了反向训练的瓶颈,因Scaling Law而跌落神坛。然而,人们并没有忘记RNN。RWKV、Mamba、xLSTM等RNN衍生模型接连出现,欲挑战Transformer之霸主地位。就在近日,又有重量级人物下场——深度学习三巨头之一的Yoshua Bengi...……更多
更多关于科技的资讯:
华为与支付宝联合优化,Mate 70“碰一下支付”比其他手机更快
11 月 26 日消息,备受关注的华为新机 Mate 70 和 Mate X6 今日已正式发布,据华为在发布上介绍,基于 HarmonyOS NEXT 原生系统和支付宝联合优化
2024-11-28 14:12:00
LG向vivo出售46项美国标准专利 已退出手机业务多年
从韩媒获悉,继中国的OPPO和TCL王牌电器之后,LG电子又将其美国标准专利出售给了vivo。LG电子在2021年退出手机业务后
2024-11-28 14:12:00
北斗定位技术助力智慧管理,提升人员管理效率
北斗定位技术在人员智慧管理场景中的应用主要体现在以下几个方面:• 实时定位追踪与安全管理:• 北斗定位技术可以实时追踪人员位置
2024-11-28 14:13:00
品质前行!怪兽充电以实力保障驱动品牌前行
在科技飞速发展的今天,智能手机已经成为人们生活中不可或缺的一部分。然而,手机电量不足的问题也时常困扰着人们。正是在这样的背景下
2024-11-28 14:14:00
多功能数字罗盘的陀螺仪:0.4°/hr
罗盘作为导航的重要工具,已经存在很多年了,它的历史能追溯到上古时期,随着各个时代技术的发展罗盘的样式不断改变,到如今罗盘已经发展成多功能数字罗盘
2024-11-28 14:14:00
NAS市场迎来“黄金发展期”,绿联科技锁定个人用户需求
近些年来,由于云计算、人工智能等技术为NAS行业注入新活力、数据价值的不断提升以及国人数据存储需求的提高,NAS市场也迎来了一个“黄金发展期”
2024-11-28 14:14:00
AI眼镜革新潮流,YSO131LR晶振助力技术飞跃
近期,随着科技巨头们纷纷发布新款AI眼镜,这一领域再次成为公众和媒体关注的焦点。AI眼镜不仅以其独特的设计理念和前沿的技术应用吸引了大量关注
2024-11-28 14:14:00
瑞萨携多款先进解决方案再次亮相进博会
在近期盛大开幕的第七届中国国际进口博览会(简称:进博会)上,全球半导体解决方案供应商瑞萨电子携多款面向智能工业、物联网
2024-11-28 14:15:00
华为Mate 70系列实测:全新通信技术让网速翻倍,体验如何?
华为最新旗舰Mate 70系列手机于昨日震撼发布,成为科技界关注的焦点。发布会上,华为消费者业务CEO余承东对Mate 70系列的通信技术大加赞赏
2024-11-28 14:15:00
9800X3D轻松拿捏4K畅玩黑神话:悟空,AMD平台最佳游戏配置推荐
在游戏的世界里,追求极致的画面与流畅的体验一直是玩家们的不懈追求。如今,随着游戏技术的不断进步,像《黑神话:悟空》这样的大作更是对电脑配置提出了极高的要求
2024-11-28 14:15:00
地质勘探新篇章:顶坚单北斗定位手持终端提升野外作业效率
地质勘探是一项复杂而艰巨的任务,传统方式往往依赖于人工勘探和地面设备,但这种方式在野外作业时面临诸多挑战,如地形复杂、天气多变
2024-11-28 14:16:00
顶佳医疗成功举办《互联网+智慧居家养老系统技术规范》研讨会,加速行业标准化步伐
11月21日,深圳市顶佳医疗科技有限公司携手中国国际科技促进会标准化工作委员会及广东中正标准技术服务有限公司,在顶佳工业园隆重举行《互联网+智慧居家养老系统技术规范》团体标准研讨会
2024-11-28 14:18:00
阿里云宣布进一步加大香港市场的云基础设施建设投入
IT之家 11 月 28 日消息,阿里云于 11 月 27 日宣布推出“香港科技创未来”计划,将进一步加大香港市场的云基础设施建设投入
2024-11-28 14:18:00
西安小程序开发软件公司,多年研发经验服务有保障
西安小程序开发软件公司,有的公司想要做一款自己的微信小程序,因为现在移动端的流量已经大于PC端了,人们使用手机的越来越频繁
2024-11-28 14:18:00
马斯克做人类增强梦更近一步:脑机接口突破来了!
2024-11-27 15:00:18 作者:姚立伟近日,马斯克创办的脑机接口(BCI)公司Neuralink宣布已获得批准启动一项新的可行性研究
2024-11-28 14:21:00