• 我的订阅
  • 头条热搜
中国财税GPT迎来最准确的大模型:小竹财税AI问世
...AI于2023年底正式问世。这款财税领域的GPT以财税理论回答正确率高达92%的惊人成绩,率先占领了业内第一梯队。同时,小竹财税成功获得1000万元天使轮融资。据了解,小竹财税(安徽小竹信息技术有限公司)成立于2021年11月,...……更多
媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格
...闭源大模型。目前在评测集上 o1-preview 都仅刚过及格线 (正确率 63.8), 其他大部分模型都处于低分状态,其中 GPT-4o mini 仅 37.6 分,ChatGLM3-6B 和 Qwen2.5-1.5B 仅 11.2 和 11.1 的准确率。基于中文 SimpleQA,我们对……更多
大幅减缓幻觉 百融云创大模型精度测评结果出炉
近日,百融云创大模型参加一场“考试”,并取得了行业领先的成绩,多项指标优于ChatGPT3.5。随着各类大模型的相继问世,如何去评估大模型的性能变得越来越重要。百融云创参加的这场“考试”名叫检索增强生成基准测评,...……更多
科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%
...如果大模型对预测结果表示具有高度自信时,回答结果的正确率也更高,也就是说,大模型完全可以辅助人类做科研新发现。最重要的是,这种方法并不特定于某一个学科,其他知识密集型任务上也可以使用。科研结果预测即使...……更多
将偏好学习引入模型训练,北大李戈团队提出代码生成优化新框架
代码模型SFT对齐后,缺少进一步偏好学习的问题有解了。北大李戈教授团队与字节合作,在模型训练过程中引入偏好学习,提出了一个全新的代码生成优化框架——CodeDPO。在部分模型上,相比于单独使用SFT,CodeDPO能够将模型的...……更多
专访小竹财税AI袁林:在通用大模型浪潮中寻找财税大模型的蓝海
...下没有难懂的财税。 记者:小竹财税AI在财税领域的回答正确率高达92%,远超通用大模型。这一成就是如何实现的?袁林:这一成就得益于我们高质量、多样化的垂直(专业)数据库。在模型的embedding过程中,我们探索了多种中...……更多
傅盛捅破AI行业窗户纸!百模大战靠数据背后是什么逻辑?
...处理,这都与避免大模型幻觉,突破大模型识别、理解的正确率强相关。傅盛认为,大模型数据服务正是产业链中决定大模型基础能力的关键,需要和应用高度结合,将高质量数据找出来。这对于企业而言是必须要解决的难题,...……更多
清华UCSD提出全新微调方法,8B小模型媲美GPT-4o!科学问题正确率提高28%
【新智元导读】最近,一支来自UCSD和清华的研究团队提出了一种全新的微调方法。经过这种微调后,一个仅80亿参数的小模型,在科学问题上也能和GPT-4o一较高下!或许,单纯地卷AI计算能力并不是唯一的出路。我们都知道,在...……更多
微软、英伟达纷纷押注小模型,大模型不香了?
...正逐渐崭露头角,挑战着过去“越大越好”的观念。视觉中国当地时间8月21日,微软和英伟达相继发布了最新的小型语言模型——Phi-3.5-mini-instruct和 Mistral- NeMo- Minitron8B。这两款模型的主要卖点是它们在计算资源使用和功能表现...……更多
真香!智谱大模型,有了首个免费的API
...个姐妹,那么爱丽丝的兄弟有多少个姐妹呢?」问题时,正确率非常低。我们让 GLM-4-Flash 试了试,回答正确。改变了主角性别和亲属关系之后,GLM-4-Flash 同样可以理解,再次回答对了。测试 3:对于多人真假话判断问题,GLM-4-Fla...……更多
OpenAI直播第二弹!奥特曼2024年最大惊喜竟来自字节?强化微调让o1-mini逆袭o1
...,他们设置了三个不同的评估指标,分别是Top-1(第一项正确率)、Top-5(前五项正确率)和Top-max(是否包含正确答案)。在Top-1指标中,o1 mini在约200条数据上的得分是17%。o1得到了25%,而微调后的o1 mini,得到了31%。ChatGPT就此生...……更多
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
...简单任务的准确率可以达到60%,最难任务准确率仅有21%大模型的能力越来越强,用户在一些重要的任务中也可以依赖大模型,比如说辅助做科研。不过现有科研辅助相关的基准测试都太简单,跟现实世界的任务差距还是比较大的...……更多
游戏bug帮大模型学物理!准确率超GPT4o近4个百分点
融合物理知识的大型视频语言模型PhysVLM,开源了!它不仅在 PhysGame 基准上展现出最先进的性能,还在通用视频理解基准上(Video-MME, VCG)表现出领先的性能。在这项研究之前,想让AI像人类儿童一样,通过观察世界理解基本的...……更多
OpenAI o1模型到博士水平了?复旦教授:没有真正推理能力,学到的还是概率相关性
...现。上述评测还显示,o1模型在MMLU Categories中的高数测试正确率高达98%,且在ML Benchmarks中的数学测试相较GPT-4o获得了超过34%的最大绝对性优势,足以显示o1模型是个数学超级“学霸”。 OpenAI还选择了专为美国最优秀的高中数学...……更多
OpenAI o1 模型 PlanBench 规划能力实测:准确率 97.8%
...州立大学的科研团队利用 PlanBench 基准,测试了 OpenAI o1 模型的规划能力。研究结果表明 o1 模型取得了长足的进步,但仍然存在很大的局限性。PlanBench 基准简介PlanBench 开发于 2022 年,用于评估人工智能系统的规划能力,包括 600 ...……更多
常见电子邮件分类算法的性能分析
...)。从图1可看出,随着训练量(Train examples)的增大,训练集正确率下降,测试集正确率上升,最后稳定在0.84左右,准确率一般,但方差较小,具有较强的抗过拟合能力。图2.决策树图2为决策树学习曲线,红色线代表测试集(学习过...……更多
科大讯飞联手华为首次攻克全国产算力下推理模型训练难关
...等真实场景中实现了应用落地。去年1024,科大讯飞联合中国教育科学研究院发布了基于“问题链”的高中数学智能教师助手。同时也正面向全国百个试点区域、联合千名优秀教研员和老师打造上万个优秀案例。目前,星火X1已经...……更多
OpenAI发布最新技术研究,AI“黑盒”不再是难题!
...导航,以执行OpenAI所说的“深度研究”。图片来源:视觉中国-VCG31N2008743681OpenAI被问及上述所说的草莓技术时,OpenAI的发言人在一份声明中表示:“我们希望自身AI 模型能够像我们(人类)一样看待和理解世界。持续研究新的AI...……更多
搜题更精准、难题都有解 夸克“AI搜题”提升用户学习能力与效率
...新评测中,夸克 “灵知” 学习大模型在考研数学题上的正确率和得分率已经可以比肩OpenAI最新发布的o1模型,且远超国内其他模型。另外,在多个国内数学竞赛与高考等重要测试中,夸克的正确率和得分率也处于绝对领先地位...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...这是该团队在继 PMC-LLaMA 后,在持续构建开源医疗语言大模型的最新进展。该项目受到科创 2030—“新一代人工智能” 重大项目支持。在医疗领域中,大语言模型已经有了广泛的研究。然而,这些进展主要依赖于英语的基座模型...……更多
大模型面临四大关键缺陷,“知识方程”能否通向强人工智能
...能还需迈过多道门槛,才能真正实现强人工智能。日前,中国科学技术大学知识计算实验室提出了新的知识模型“知识方程”,并以此为基础建立新型专家系统,通过与深度学习的结合,尝试突破现有通用人工智能的技术瓶颈。...……更多
石油巨头牵手DeepSeek
昆仑大模型正式“牵手”DeepSeek2月8日,中国石油昆仑大模型正式完成DeepSeek大模型私有化部署,为昆仑大模型优化应用效果、缩短研发周期、构建健康生态提供了新引擎,推动“数智中国石油”建设步入快车道。在应用层面,...……更多
小竹财税覆盖全国28省200+城市,中国第一个财税生态形成!
...型,花费将近百万,于2023年年底,适配出财税理论回答正确率92%以上的小竹财税AI。至此财税界的首个AI大模型正式诞生,也是在同一时间,小竹财税第一笔种子轮融资1000万元完成!标志着中国大模型在财税这个垂直领域开始被...……更多
\
...析,并在合适的步骤自行调用计算引擎,以提高题目解答正确率。进入MathGPT首页,有小学、初中与高中三个不同程度的数学题难度。其中题目类型包含了找规律、逻辑分析、运算求解、随机现象、表达论述等。用户可以选择不...……更多
科学家推出大模型数据集,涵盖奥赛数学题,有望让AI辅导数学课程
...随后,他们开始进行大量的测试。期间发现,如果只使用正确率作为最终的测试结果,并不能完全体现本次算法的优势。由于对大模型的请求是有成本的,所以当算法在使用大模型解决数学问题时,算法会设置一个针对大模型的...……更多
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...题、增加候选选项、引入纯视觉输入设置)更严格地评估模型的多模态理解能力;模型在新基准上的性能下降明显,表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型(MLLMs)在各个排行榜上展现的性...……更多
OpenAI CEO罕见认错:DeepSeek是非常好的模型 将考虑跟进开源!
...值使任何人都能受益。“对那些看到DeepSeek表现并认为‘中国在AI领域正超越美国’的人而言,你的解读错了,正确解读应是‘开源模型正超越专有模型’。DeepSeek 从开放研究和开源获益良多(如同PyTorch和Llama),他们提出新想...……更多
数据标注工:训练AI,被AI替代
...质量的文本标注项目,表现为语义理解的正确性、答题的正确率等。正确率越高,被训练的大模型越聪明。熟手才能保证数据交付又快又好。代延曾经让一个新手参与核验ChatGPT做完的数学题是否完整、逻辑是否正确、语言能否...……更多
用过GPT-4 Turbo以后,我们再也回不去了
...,OpenAI CEO 山姆・奥特曼向我们介绍了迄今为止最强的大模型,和基于它的一系列应用,一切似乎就像当初 ChatGPT 一样令人震撼。OpenAI 在本周一的首个开发者日上推出了 GPT-4 Turbo,新的大模型更聪明,文本处理上限更高,价格也...……更多
自我纠错如何使OpenAI o1推理能力大大加强?北大MIT团队理论解释
...效果的影响。主要结论如下:多数情况下,自我纠错后的正确率高于原正确率(图4) 正确率提升与自我评估的准确率高度相关(图4(c):),甚至呈线性关系(图5(a))。 采用不同的评价方式效果依次提升:仅使用对/错评价 &...……更多
更多关于科技的资讯:
进军核药赛道,广药集团谋求“聚变”!
当承载着“国之重器”的核导弹方阵在阅兵式上巍然驶过,中国的科技实力与国防实力以庄严姿态展现于世界。在震撼之外,“核”所蕴含的巨大能量
2025-09-29 13:11:00
中新经纬9月29日电 题:备战“十一”消费高峰,平台用AI重塑购物逻辑作者 盘和林 工信部信息通信经济专家委员会委员“十一”长假将至
2025-09-29 13:13:00
聊城智汇 链接全球丨年销海外近8000万,泊西集团凭收纳盒从乡镇驶向全球
鲁网9月29日讯在山东聊城市茌平区洪官屯镇的土地上,山东泊西实业集团有限公司正以蓬勃之姿,书写着海外出口的精彩篇章。走进泊西集团的生产车间
2025-09-29 12:07:00
京东折扣超市全国第六店落户固安
河北新闻网讯(李寒梦、陈放)9月25日,京东折扣超市全国第六家门店在固安尚品爱购城市广场正式开业,进一步点燃居民消费热情
2025-09-29 09:53:00
从榨菜月饼到榨菜咖啡,乌江榨菜以创新打破品类边界
近年来,伴随区域化、特色化产品的迅速增长,各大品牌在深耕主业的同时也开始积极探索新赛道、新领域。乌江榨菜作为涪陵榨菜集团旗下的核心品牌
2025-09-29 08:03:00
华北首家!多美卡品牌专卖店登陆北京玩具反斗城
[北京] – 继中国首家多美卡品牌专卖店入驻玩具反斗城上海南丰城店并成功引爆小车收藏热潮后,玩具反斗城(Toys“R”Us)与多美(TAKARA TOMY)的战略合作再结硕果
2025-09-29 07:33:00
南报网讯(记者张甜甜)10月2日至3日,由南京报业传媒集团旗下南报优选供应链公司主办的首届紫金山国潮漫文化嘉年华,将在南京国际展览中心举办
2025-09-29 07:42:00
9月26日,购在中国(山西站)暨中石化易捷第八届易享节在我市启动,诸多三晋名特优产品将陆续入驻中石化易捷,走向全国。今后
2025-09-28 08:20:00
刚刚闭幕的长春航空展上,“净月号”成瞩目焦点
9月23日,长春航空展圆满闭幕,“净月号”凭借其震撼的实体造型与深厚的文化内涵,成为展会瞩目的焦点。这艘承载中式太空梦想的“星舰”
2025-09-28 10:07:00
为更好的服务广大客户,富德生命人寿安平支公司积极组织员工开展《产品健康增值服务》培训。培训中,讲师细致讲解公司产品健康增值服务
2025-09-28 10:12:00
河北新闻网讯(王丽英)9月24日至25日,宁晋县晶龙集团举行人力资源专业培训,内训师靳桂峰、王素峰和张晓宁分别围绕工伤保险及识人辨人
2025-09-28 10:18:00
美团Keeta上线阿联酋!40天连开3国,国际化全速推进
当地时间9月27日上午11点,美团旗下国际外卖品牌Keeta正式在阿联酋迪拜启动运营,这是Keeta继8月上线卡塔尔、9月上线科威特后
2025-09-28 10:22:00
小米17系列9月27日开售,卢伟冰称ProMax需求远超预期,已安排快速提拉生产
9月27日上午10点,小米17系列开售,价格4499元起!并全系首发第五代骁龙 8 至尊版。据悉,小米17尺寸6.3,7000mAh 电池
2025-09-28 10:22:00
齐鲁晚报·齐鲁壹点 王会广 通讯员 李杰在数字经济蓬勃发展的当下,大数据、云计算、物联网、移动互联网、人工智能以及区块链等新兴技术的广泛应用
2025-09-28 10:56:00
实时互动x高效制播:佳能携手《密室大逃脱大神版 互动直播》真人秀实现制作新范式
在直播与正片并行制作逐渐成为综艺内容生产新常态的当下,真人秀现场对影像系统的要求不断提升:既要满足直播的即时输出,又要兼顾正片制作的高质量成片
2025-09-28 11:51:00