• 我的订阅
  • 头条热搜
中国财税GPT迎来最准确的大模型:小竹财税AI问世
...AI于2023年底正式问世。这款财税领域的GPT以财税理论回答正确率高达92%的惊人成绩,率先占领了业内第一梯队。同时,小竹财税成功获得1000万元天使轮融资。据了解,小竹财税(安徽小竹信息技术有限公司)成立于2021年11月,...……更多
媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格
...闭源大模型。目前在评测集上 o1-preview 都仅刚过及格线 (正确率 63.8), 其他大部分模型都处于低分状态,其中 GPT-4o mini 仅 37.6 分,ChatGLM3-6B 和 Qwen2.5-1.5B 仅 11.2 和 11.1 的准确率。基于中文 SimpleQA,我们对……更多
大幅减缓幻觉 百融云创大模型精度测评结果出炉
近日,百融云创大模型参加一场“考试”,并取得了行业领先的成绩,多项指标优于ChatGPT3.5。随着各类大模型的相继问世,如何去评估大模型的性能变得越来越重要。百融云创参加的这场“考试”名叫检索增强生成基准测评,...……更多
科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%
...如果大模型对预测结果表示具有高度自信时,回答结果的正确率也更高,也就是说,大模型完全可以辅助人类做科研新发现。最重要的是,这种方法并不特定于某一个学科,其他知识密集型任务上也可以使用。科研结果预测即使...……更多
将偏好学习引入模型训练,北大李戈团队提出代码生成优化新框架
代码模型SFT对齐后,缺少进一步偏好学习的问题有解了。北大李戈教授团队与字节合作,在模型训练过程中引入偏好学习,提出了一个全新的代码生成优化框架——CodeDPO。在部分模型上,相比于单独使用SFT,CodeDPO能够将模型的...……更多
专访小竹财税AI袁林:在通用大模型浪潮中寻找财税大模型的蓝海
...下没有难懂的财税。 记者:小竹财税AI在财税领域的回答正确率高达92%,远超通用大模型。这一成就是如何实现的?袁林:这一成就得益于我们高质量、多样化的垂直(专业)数据库。在模型的embedding过程中,我们探索了多种中...……更多
傅盛捅破AI行业窗户纸!百模大战靠数据背后是什么逻辑?
...处理,这都与避免大模型幻觉,突破大模型识别、理解的正确率强相关。傅盛认为,大模型数据服务正是产业链中决定大模型基础能力的关键,需要和应用高度结合,将高质量数据找出来。这对于企业而言是必须要解决的难题,...……更多
清华UCSD提出全新微调方法,8B小模型媲美GPT-4o!科学问题正确率提高28%
【新智元导读】最近,一支来自UCSD和清华的研究团队提出了一种全新的微调方法。经过这种微调后,一个仅80亿参数的小模型,在科学问题上也能和GPT-4o一较高下!或许,单纯地卷AI计算能力并不是唯一的出路。我们都知道,在...……更多
微软、英伟达纷纷押注小模型,大模型不香了?
...正逐渐崭露头角,挑战着过去“越大越好”的观念。视觉中国当地时间8月21日,微软和英伟达相继发布了最新的小型语言模型——Phi-3.5-mini-instruct和 Mistral- NeMo- Minitron8B。这两款模型的主要卖点是它们在计算资源使用和功能表现...……更多
真香!智谱大模型,有了首个免费的API
...个姐妹,那么爱丽丝的兄弟有多少个姐妹呢?」问题时,正确率非常低。我们让 GLM-4-Flash 试了试,回答正确。改变了主角性别和亲属关系之后,GLM-4-Flash 同样可以理解,再次回答对了。测试 3:对于多人真假话判断问题,GLM-4-Fla...……更多
OpenAI直播第二弹!奥特曼2024年最大惊喜竟来自字节?强化微调让o1-mini逆袭o1
...,他们设置了三个不同的评估指标,分别是Top-1(第一项正确率)、Top-5(前五项正确率)和Top-max(是否包含正确答案)。在Top-1指标中,o1 mini在约200条数据上的得分是17%。o1得到了25%,而微调后的o1 mini,得到了31%。ChatGPT就此生...……更多
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
...简单任务的准确率可以达到60%,最难任务准确率仅有21%大模型的能力越来越强,用户在一些重要的任务中也可以依赖大模型,比如说辅助做科研。不过现有科研辅助相关的基准测试都太简单,跟现实世界的任务差距还是比较大的...……更多
游戏bug帮大模型学物理!准确率超GPT4o近4个百分点
融合物理知识的大型视频语言模型PhysVLM,开源了!它不仅在 PhysGame 基准上展现出最先进的性能,还在通用视频理解基准上(Video-MME, VCG)表现出领先的性能。在这项研究之前,想让AI像人类儿童一样,通过观察世界理解基本的...……更多
OpenAI o1 模型 PlanBench 规划能力实测:准确率 97.8%
...州立大学的科研团队利用 PlanBench 基准,测试了 OpenAI o1 模型的规划能力。研究结果表明 o1 模型取得了长足的进步,但仍然存在很大的局限性。PlanBench 基准简介PlanBench 开发于 2022 年,用于评估人工智能系统的规划能力,包括 600 ...……更多
OpenAI o1模型到博士水平了?复旦教授:没有真正推理能力,学到的还是概率相关性
...现。上述评测还显示,o1模型在MMLU Categories中的高数测试正确率高达98%,且在ML Benchmarks中的数学测试相较GPT-4o获得了超过34%的最大绝对性优势,足以显示o1模型是个数学超级“学霸”。 OpenAI还选择了专为美国最优秀的高中数学...……更多
常见电子邮件分类算法的性能分析
...)。从图1可看出,随着训练量(Train examples)的增大,训练集正确率下降,测试集正确率上升,最后稳定在0.84左右,准确率一般,但方差较小,具有较强的抗过拟合能力。图2.决策树图2为决策树学习曲线,红色线代表测试集(学习过...……更多
科大讯飞联手华为首次攻克全国产算力下推理模型训练难关
...等真实场景中实现了应用落地。去年1024,科大讯飞联合中国教育科学研究院发布了基于“问题链”的高中数学智能教师助手。同时也正面向全国百个试点区域、联合千名优秀教研员和老师打造上万个优秀案例。目前,星火X1已经...……更多
OpenAI发布最新技术研究,AI“黑盒”不再是难题!
...导航,以执行OpenAI所说的“深度研究”。图片来源:视觉中国-VCG31N2008743681OpenAI被问及上述所说的草莓技术时,OpenAI的发言人在一份声明中表示:“我们希望自身AI 模型能够像我们(人类)一样看待和理解世界。持续研究新的AI...……更多
搜题更精准、难题都有解 夸克“AI搜题”提升用户学习能力与效率
...新评测中,夸克 “灵知” 学习大模型在考研数学题上的正确率和得分率已经可以比肩OpenAI最新发布的o1模型,且远超国内其他模型。另外,在多个国内数学竞赛与高考等重要测试中,夸克的正确率和得分率也处于绝对领先地位...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...这是该团队在继 PMC-LLaMA 后,在持续构建开源医疗语言大模型的最新进展。该项目受到科创 2030—“新一代人工智能” 重大项目支持。在医疗领域中,大语言模型已经有了广泛的研究。然而,这些进展主要依赖于英语的基座模型...……更多
小竹财税覆盖全国28省200+城市,中国第一个财税生态形成!
...型,花费将近百万,于2023年年底,适配出财税理论回答正确率92%以上的小竹财税AI。至此财税界的首个AI大模型正式诞生,也是在同一时间,小竹财税第一笔种子轮融资1000万元完成!标志着中国大模型在财税这个垂直领域开始被...……更多
科学家推出大模型数据集,涵盖奥赛数学题,有望让AI辅导数学课程
...随后,他们开始进行大量的测试。期间发现,如果只使用正确率作为最终的测试结果,并不能完全体现本次算法的优势。由于对大模型的请求是有成本的,所以当算法在使用大模型解决数学问题时,算法会设置一个针对大模型的...……更多
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...题、增加候选选项、引入纯视觉输入设置)更严格地评估模型的多模态理解能力;模型在新基准上的性能下降明显,表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型(MLLMs)在各个排行榜上展现的性...……更多
用过GPT-4 Turbo以后,我们再也回不去了
...,OpenAI CEO 山姆・奥特曼向我们介绍了迄今为止最强的大模型,和基于它的一系列应用,一切似乎就像当初 ChatGPT 一样令人震撼。OpenAI 在本周一的首个开发者日上推出了 GPT-4 Turbo,新的大模型更聪明,文本处理上限更高,价格也...……更多
自我纠错如何使OpenAI o1推理能力大大加强?北大MIT团队理论解释
...效果的影响。主要结论如下:多数情况下,自我纠错后的正确率高于原正确率(图4) 正确率提升与自我评估的准确率高度相关(图4(c):),甚至呈线性关系(图5(a))。 采用不同的评价方式效果依次提升:仅使用对/错评价 &...……更多
...型的自学习、自完善、自更新,提高各料型自动判级综合正确率,为废钢采购全流程智能化验质提供技术保障。该公司根据现场需求,积极展开靶向技术攻关。权万红带领技术团队认真查看废钢定级系统中的车次分层拍照质检情...……更多
港中文团队提出大模型元推理范式,革新大模型的评价体系
...院工作过一段时间。在 ChatGPT 面世以后,他意识到针对大模型的研究范式存在一定的不足,于是决定来到香港中文大学读博。图 | 曾忠燊(来源:曾忠燊)前不久,曾忠燊和所在团队提出一个全新评测范式。基于这一评测范式,...……更多
Meta祭出三篇最详尽Llama微调指南!千字长文,0基础小白必备
...开的彻彻底底。这不,Meta一连放出三篇技术文章,从大模型适配方法出发,介绍了:如何使用特定领域数据微调LLM,如何确定微调适配自己的用例,以及如何管理良好训练数据集的经验法则。接下来,直接进入正题。适配大模...……更多
AI老师上线?专家:通用人工智能将推动教育范式转变
...让通用大模型像学生一样去解答题库里的题目,发现它的正确率非常低;接下来又尝试让通用模型进行模拟题的定制,测试下来发现,通用大模型只能做到模仿题目的形态,在题目的难度、内容和考点设置上都没有办法满足需求...……更多
AI“明星”选手巅峰对决!记者实测最新谷歌Gemini与GPT-4o
...GPT-4进行了一场能力评测。▍文本测试:谷歌Gemini 1.5 Pro正确率和速度完胜GPT-4o和GPT-4OpenAI发布GPT-4已过去一年多,据介绍,此次推出新旗舰模型GPT-4o的推理能力有明显的提升,速度快了,价格也下降了。谷歌Gemini系列以其标志性...……更多
更多关于科技的资讯:
炎黄盈动重磅发布企业级AI平台,全面加速企业AI价值落地
随着AI技术的飞速发展,企业正面临从技术试点到全面应用的关键转折点。技术加速:Gartner报告显示,当前AI智能体和AI就绪型数据发展最快
2025-12-08 11:12:00
路边放一台南迪售货机,打造全时段消费新主张
还在为寻找稳定、低风险的增收渠道而烦恼吗?将一台南迪自动售货机放置在路边,它不仅是24小时不休的“金牌销售”,更是能创造被动收入的坚实资产
2025-12-08 13:35:00
人人租亮相2025中国企业家博鳌论坛平行论坛-创新探索、生态共筑
十年博鳌潮海阔,百舸争流共进发。12月2日至5日,2025企业家博鳌论坛系列活动在海南博鳌举办。围绕“链接全球,引领未来
2025-12-08 13:39:00
鲁网12月8日讯在制造业转型升级与企业全球化布局的双重浪潮中,科技型小微企业正成为激活新质生产力的重要引擎。近日,兴业银行济南分行精准对接企业需求
2025-12-08 14:14:00
布鲁可携丰富产品矩阵首次亮相巴西圣保罗动漫展览会,圣斗士星矢系列新品全球首发
12 月 4 日至 7 日,巴西圣保罗动漫展览会(Comic Con Experience)正式举行,作为世界领先的以漫画
2025-12-08 14:56:00
廊坊开发区新增一家省级工业设计中心
河北新闻网讯(杨自立)近日,河北省工业和信息化厅公示2026年河北省工业设计拟支持项目名单,廊坊华安汽车装备有限公司工业设计中心成功入选省级工业设计中心
2025-12-08 15:00:00
TDK持续赋能第十九届iCAN大赛,助力青年创新创业梦
11月30日,第十九届iCAN大学生创新创业大赛全国总决赛在杭州圆满落幕。作为大赛战略合作伙伴,TDK连续第五年深度参与赛事
2025-12-08 15:26:00
编者按:继国家发改委发展战略和规划司与云河都市研究院共同编制的《中国城市综合发展指标2016》发布之后,云河都市研究院持续每年对全国297个地级及以上城市进行经济
2025-12-08 15:51:00
以革新破局数智未来,思特奇携手运营商开拓AI赋能新范式
2025年作为“十四五”规划收官之年,人工智能发展已迈入全域赋能新阶段。为积极落实国务院“人工智能+”行动的重大战略部署
2025-12-08 16:01:00
中国电信柯瑞文:智能领航 智惠共生
12月4日至7日,2025数智科技生态大会在广州举办。12月5日上午,在大会主论坛上,中国电信董事长柯瑞文作题为《智能领航 智惠共生》的主旨演讲
2025-12-08 16:02:00
国锐生活收购春雨医生 约78%股权,实现向医疗科技转型
为把握“健康中国2030”战略机遇,国锐生活有限公司宣布以2.69亿元对价收购春雨医生天下软件有限公司78.2898%股权
2025-12-08 16:03:00
思必驰首席科学家俞凯教授当选2026年度IEEE Fellow
日前,全球最大的专业技术组织国际电气电子工程师协会(The Institute of Electrical and Electronics Engineers
2025-12-08 16:04:00
山东移动打造AI智慧体育体系,助力山东构建青少年体质健康提升新路径
随着国家“体育强国”和“健康中国2030”战略深入推进,青少年体质健康日益受到重视。山东移动积极响应我省相关部署,结合自身信息技术能力
2025-12-08 16:04:00
这个电影季,探索人工智能如何重塑影像美学与创作生态
中国青年报客户端讯(中青报·中青网记者 沈杰群)12月7日,第七届海南岛国际电影节·联想AI电影季在海南三亚开幕。本届AI电影季以“AI技术为刃
2025-12-08 16:05:00
以AI为钥,以生态为桥:思特奇赋能运营商数智化跃迁
当前,人工智能已迈入与产业深度融合的关键阶段,正从单点技术突破转向系统性生态赋能。在数据、算法、算力等核心要素持续迭代的驱动下
2025-12-08 16:05:00