• 我的订阅
  • 头条热搜
清华UCSD提出全新微调方法,8B小模型媲美GPT-4o!科学问题正确率提高28%
【新智元导读】最近,一支来自UCSD和清华的研究团队提出了一种全新的微调方法。经过这种微调后,一个仅80亿参数的小模型,在科学问题上也能和GPT-4o一较高下!或许,单纯地卷AI计算能力并不是唯一的出路。我们都知道,在...……更多
Kimi概念股继续暴涨!多家上市公司回应,月之暗面致歉系...
...线。 此前3月18日,月之暗面宣布其AI产品Kimi,在大模型长上下文窗口技术上取得新的突破,Kimi智能助手已支持200万字超长无损上下文,并于即日起开启产品内测。据了解,月之暗面成立于2023年4月,法定代表人杨植麟毕业于清...……更多
谷歌推出datagemma开放权重语言模型新版本
...从数据共享平台检索相关信息来进一步提高回复的质量。长上下文窗口由Gemini1.5Pro实现,确保了回答的全面性和清晰度,同时引入了表格和脚注以提供更深层次的上下文。研究团队强调这些技术如何帮助大语言模型判断何时依赖...……更多
chatgpt背后模型被证实具有人类心智
...的心智理论(TheoryofMind,ToM),已经出现在ChatGPT背后的AI模型上。”这是来自斯坦福大学的最新研究结论,一经发出就造成了学术圈的轰动:这一天终于猝不及防地来了。所谓心智理论,就是理解他人或自己心理状态的能力,包...……更多
Google 创始人谢尔盖·布林回归,直面 Gemini、Google、AGI 若干问题
...。我想我们可以尝试一下。尽管今天我们更期待的是试验长上下文和一些技术特性。深入模型技术与安全在现场,布林多次提及了他对AI大模型发展的兴奋与期待。他的再次公开露面,将他对AI的热情尽现,他表示自己很热衷于...……更多
微软开源 OmniParser 纯视觉 GUI 智能体:让 GPT-4V秒懂屏幕截图
...前屏幕解析技术中的空白。该工具并不需要依赖额外的上下文数据,可以理解更复杂的图形用户界面(GUI),是智能 GUI 自动化领域的一项令人兴奋的进展。 OmniParser 结合可交互区域检测模型、图标描述模型和 OCR 模块等,不需...……更多
常见电子邮件分类算法的性能分析
...)。从图1可看出,随着训练量(Train examples)的增大,训练集正确率下降,测试集正确率上升,最后稳定在0.84左右,准确率一般,但方差较小,具有较强的抗过拟合能力。图2.决策树图2为决策树学习曲线,红色线代表测试集(学习过...……更多
OpenAI GPT-4 AI 模型无需额外训练可通过日本理疗师考试
...格的问题时显得有些吃力。该模型在常规问题上的表现(正确率为 80.1%)远远好于实际问题(正确率为 46.6%)。 同样,GPT-4 在处理纯文本问题(正确率为 80.5%)时的表现也远好于那些带有图片和表格的问题(正确率为 35.4%)。...……更多
...工智能创业公司“月之暗面”(Moonshot AI)宣布在大模型长上下文窗口技术上取得新的突破,Kimi智能助手已支持200万字超长无损上下文,并于即日起开启产品“内测”。苹果正在商谈让谷歌的大模型Gemini为iPhone的AI功能提供支持...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...这是该团队在继 PMC-LLaMA 后,在持续构建开源医疗语言大模型的最新进展。该项目受到科创 2030—“新一代人工智能” 重大项目支持。在医疗领域中,大语言模型已经有了广泛的研究。然而,这些进展主要依赖于英语的基座模型...……更多
首个AI程序员上岗,码农们暂且不必过度焦虑
...人工智能)程序员已经宣布正式上岗。据报道,国内某大模型企业近期正在内部推行AI编程,使用大模型辅助程序员写代码、读代码、查BUG(漏洞)、优化代码等。这一AI程序,还被分配了正式的员工工号,据企业相关人士透露...……更多
鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆
...写入过程不涉及训练。每个引用都是独立处理的,避免了长上下文注意力的成本。读取成本:在推理过程中,显式记忆从驱动器中检索,并与通常的上下文键值一起由自注意力读取。每个记忆由来自少量注意力头的极少量键值组...……更多
AI大模型也高考?成绩单出来了,星火综合第一
...科技的数学评测中,讯飞星火、文心一言、豆包均以63%的正确率位列第一梯队,智谱清言、阿里通义则以50%的正确率位居第二梯队,其他大模型相对落后。 在量子位的高考数学评测中,虽然没有给出详细成绩单,但展示了各家...……更多
将偏好学习引入模型训练,北大李戈团队提出代码生成优化新框架
代码模型SFT对齐后,缺少进一步偏好学习的问题有解了。北大李戈教授团队与字节合作,在模型训练过程中引入偏好学习,提出了一个全新的代码生成优化框架——CodeDPO。在部分模型上,相比于单独使用SFT,CodeDPO能够将模型的...……更多
DeepSeek/o3的弱点找到了!三心二意 明明对了又改错了
...种“无效努力”不仅浪费计算资源,还显著降低了答案的正确率。“三心二意”是罪魁祸首这一现象在解决数学竞赛题等更为复杂任务时尤为明显。为了系统分析,团队在三个具有挑战性的测试集MATH500、GPQA Diamond和AIME2024上,对...……更多
全面叫板OpenAI!谷歌发布多模态大模型全家桶:从AI助手到文生视频模型
...规模、大批量的高配任务进行了优化,也具有100万token的长上下文窗口。谷歌也在发布会上带来了旗下开源大模型Gemma的最新版本Gemma 2。据介绍,Gemma 2采用全新架构,参数上达到27B,拥有突破性的性能和效率。AI助手Project Astra叫...……更多
谷歌没开源的 PaLM,网友给开源了
... conceptofmind/PaLM这三种模型在谷歌C4数据集进行了训练,上下文长度为8k。未来,还有20亿参数的模型正在训练中。谷歌C4数据集开源PaLM使用4.1亿参数模型生成的示例:Mydogisverycute,butnotverygoodatsocializingwithotherdogs……更多
媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格
...闭源大模型。目前在评测集上 o1-preview 都仅刚过及格线 (正确率 63.8), 其他大部分模型都处于低分状态,其中 GPT-4o mini 仅 37.6 分,ChatGLM3-6B 和 Qwen2.5-1.5B 仅 11.2 和 11.1 的准确率。基于中文 SimpleQA,我们对……更多
科学家推出大模型数据集,涵盖奥赛数学题,有望让AI辅导数学课程
...随后,他们开始进行大量的测试。期间发现,如果只使用正确率作为最终的测试结果,并不能完全体现本次算法的优势。由于对大模型的请求是有成本的,所以当算法在使用大模型解决数学问题时,算法会设置一个针对大模型的...……更多
阿里大模型,再次开源大放送
...试中可以看到,Qwen1.5-72B一些分数上已经超过了GPT-4。在长上下文支持上,全系列模型的能力都有一定的拓展。尤其Chat模型,像Qwen1.5-7B-Chat这样的小模型,在5个任务中有4个表现与GPT-3.5相当。 而Qwen1.5-72B-Chat的性能,则明显优于G...……更多
...由谷歌DeepMind和Isomorphic Labs团队研发的最新迭代人工智能模型AlphaFold3,能以较高准确率预测蛋白质与其他生物分子相互作用的结构,其准确率比之前的专用工具显著提升。AlphaFold3能预测含有蛋白质数据银行(Protein Data Bank)内几乎...……更多
...挑战。参考文献:1.机器之心,《大模型的最大bug,回答正确率几乎为零》,2023.92.飞哥说AI,《大模型的下半场:多模态、Agent、ToPC/ToSMB商业模式》,2023.93.甲子光年,《稚晖君独家撰文:具身智能即将为通用机器人补全最后一...……更多
DeepSeek发布最新NSA技术论文!创始人梁文锋参与引人注目
...二。根据论文摘要,DeepSeek团队认为,业界越来越认识到长上下文建模对于下一代大型语言模型的重要性。然而,随着序列长度的增加,标准注意力机制的高复杂度成为了关键的延迟瓶颈。据了解,NSA通过高效的长序列处理能力...……更多
...型的自学习、自完善、自更新,提高各料型自动判级综合正确率,为废钢采购全流程智能化验质提供技术保障。该公司根据现场需求,积极展开靶向技术攻关。权万红带领技术团队认真查看废钢定级系统中的车次分层拍照质检情...……更多
谷歌AlphaFold 3在《自然》杂志刊登:准确率超50%
...歌旗下公司DeepMind创建的基于深度学习的人工智能测序式模型AlphaFold解决了这个问题。北京时间5月8日(周三)晚间,《自然》杂志刊登了DeepMind的AlphaFold团队和伦敦药物研发公司IsomorphicLabs共同署名的论文,介绍了AlphaFold3,这是...……更多
指数全线调整 调整目标位在哪里?
...之暗面推出的AI产品。近日月之暗面宣布Kimi 智能助手在长上下文窗口技术上再次取得突破,Kimi更适用于高效阅读、专业文件解读、资料查询、资料整理总结等方面。申万宏源认为,Kimi在长文本单点能力上实现突破,支持200万汉...……更多
搜题更精准、难题都有解 夸克“AI搜题”提升用户学习能力与效率
...新评测中,夸克 “灵知” 学习大模型在考研数学题上的正确率和得分率已经可以比肩OpenAI最新发布的o1模型,且远超国内其他模型。另外,在多个国内数学竞赛与高考等重要测试中,夸克的正确率和得分率也处于绝对领先地位...……更多
游戏bug帮大模型学物理!准确率超GPT4o近4个百分点
融合物理知识的大型视频语言模型PhysVLM,开源了!它不仅在 PhysGame 基准上展现出最先进的性能,还在通用视频理解基准上(Video-MME, VCG)表现出领先的性能。在这项研究之前,想让AI像人类儿童一样,通过观察世界理解基本的...……更多
广东汕头90后,1年造出200亿独角兽
...关键是什么?了解的人可能知道,是Kimi推出了200万字的长上下文处理能力,但是在这之后,阿里、百度、360也是在纷纷跟进,甚至推出了更多的500字能力。这样来看,月之暗面的技术能力似乎很容易被复制,技术壁垒并不坚硬...……更多
腾讯推出PDF识别神器:复杂文档解析准确率超98%
快科技6月21日消息,腾讯云大模型知识引擎新鲜出炉,它有一项新能力——大模型知识引擎文档解析!基于腾讯优图实验室自研新一代多模态文档解析大模型,它能先通过版面分析定位文档所有内容的位置和类型,再对文本表...……更多
更多关于科技的资讯:
送100辆车被指责拉人头套路多 周鸿祎正式道歉
快科技2月22日消息,今天,周鸿祎因送100辆车活动被吐槽套路多而正式道歉。他坦诚地表示:“对不起,我错了,我想公开给我的粉丝道个歉
2025-02-22 16:01:00
18岁小伙在鳌太线失联10天后幸存 付费8万 救援者:收费为震慑
快科技2月22日消息,据媒体报道,日前一名18岁小伙在穿越秦岭鳌太线时失联多日,最终获救。被发现时,他已4天未进食,身上还带有伤痕
2025-02-22 17:01:00
Intel酷睿Ultra 5 230F处理器评测:高频率低功耗 办公首选
一、前言:新一代主流处理器 NPU开始普及Intel酷睿Ultra 200S系列处理器上市以来,以高端酷睿Ultra 9 285K
2025-02-22 17:01:00
小米手环丢外面一年竟还能充电 雷军:质量是小米的生命线
快科技2月22日消息,前两天,小米举行了质量奖表彰大会,这是集团内部质量最高荣誉,专门奖励在追求卓越质量和体验中做出突出贡献的团队
2025-02-22 17:31:00
白蚁咬烂上海百年楼板 女子一脚踩穿跌落到楼下邻居家
快科技2月22日消息,据国家应急广播报道,近日,上海万航渡路中行小区发生了一件令人惊愕的离奇事件,而背后的“元凶”更是让人意想不到
2025-02-22 18:01:00
200斤女生cos石矶娘娘被小孩当真:美不需要被定义
2月22日消息,据媒体报道,《哪吒之魔童闹海》爆火后,电影中“石矶娘娘”这一角色因形象和台词圈粉无数。陕西90后女生身披粉红披肩
2025-02-22 18:01:00
全球最薄折叠屏!OPPO Find N5缺货严重:8999元供不应求
快科技2月22日消息,OPPO周意保表示,感谢大家对OPPO Find N5的喜欢和支持,一上班就在讨论紧急加单的事情
2025-02-22 18:01:00
替身女演员受伤 《漂白》剧组致歉:演员已康复
2月22日消息,据媒体报道,有网友发布视频称,在电视剧《漂白》拍摄现场,替身女演员头部疑似被车撞到。对此,电视剧《漂白》官方微博发文表示
2025-02-22 18:31:00
DeepSeek回答存多少钱有安全感:最低标准是存够3-6个月的生活开支
快科技2月22日消息,有网友问Deepseek:存多少钱会有安全感呢?DeepSeek给出答案:最低标准是存够3-6个月的生活开支作为应急基金
2025-02-22 19:01:00
比传统豪车更舒适更安全 尊界S800自主黑科技有多牛
当我们谈豪华车时,常常会想到精致的内饰、经典的动力系统、出色的驾驶体验。然而这些传统的“豪华”标准如今正被一种全新的定义所取代——智能化
2025-02-22 19:01:00
全球最薄折叠屏!OPPO Find N5下周首销:8999元起
快科技2月22日消息,OPPO京东自营店显示,OPPO Find N5将于2月26日上午10点正式发售,起售价是8999元
2025-02-22 19:31:00
回忆杀!盘点手机厂商整过的影像狠活:如今再也看不到了
如今,手机正在成为普通人唯一的拍摄工具,相比于相机,它更为轻便、操作简单,再加上出色的软件算法,拍摄的照片基本无需后期就有着非常不错的效果
2025-02-22 19:31:00
全球开发者先锋大会:宇树科技机器人“遛”机器狗,移动数字人融合DeepSeek
用大模型产品短短几秒生成可视化图表,与数字人对话交流获得信息……AI技术如同一把智慧的钥匙,用科技的力量重塑着人们工作生活的方式
2025-02-22 20:11:00
今年伊始,DeepSeek大模型凭借强大的自然语言处理和逻辑推理能力迅速火爆全球。目前,阳光保险已完成了DeepSeek-R1模型私有化部署
2025-02-22 20:24:00
2025年智能手表「零差评」双王评测:学生党&商务精英闭眼入指南
在科技飞速发展的今天,智能手表已经成为了许多人日常生活中不可或缺的一部分。无论是学生党还是商务精英,智能手表不仅能提升生活便利性
2025-02-22 20:26:00