• 我的订阅
  • 头条热搜
中国财税GPT迎来最准确的大模型:小竹财税AI问世
...AI于2023年底正式问世。这款财税领域的GPT以财税理论回答正确率高达92%的惊人成绩,率先占领了业内第一梯队。同时,小竹财税成功获得1000万元天使轮融资。据了解,小竹财税(安徽小竹信息技术有限公司)成立于2021年11月,...……更多
媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格
...闭源大模型。目前在评测集上 o1-preview 都仅刚过及格线 (正确率 63.8), 其他大部分模型都处于低分状态,其中 GPT-4o mini 仅 37.6 分,ChatGLM3-6B 和 Qwen2.5-1.5B 仅 11.2 和 11.1 的准确率。基于中文 SimpleQA,我们对……更多
大幅减缓幻觉 百融云创大模型精度测评结果出炉
近日,百融云创大模型参加一场“考试”,并取得了行业领先的成绩,多项指标优于ChatGPT3.5。随着各类大模型的相继问世,如何去评估大模型的性能变得越来越重要。百融云创参加的这场“考试”名叫检索增强生成基准测评,...……更多
专访小竹财税AI袁林:在通用大模型浪潮中寻找财税大模型的蓝海
...下没有难懂的财税。 记者:小竹财税AI在财税领域的回答正确率高达92%,远超通用大模型。这一成就是如何实现的?袁林:这一成就得益于我们高质量、多样化的垂直(专业)数据库。在模型的embedding过程中,我们探索了多种中...……更多
微软、英伟达纷纷押注小模型,大模型不香了?
...正逐渐崭露头角,挑战着过去“越大越好”的观念。视觉中国当地时间8月21日,微软和英伟达相继发布了最新的小型语言模型——Phi-3.5-mini-instruct和 Mistral- NeMo- Minitron8B。这两款模型的主要卖点是它们在计算资源使用和功能表现...……更多
真香!智谱大模型,有了首个免费的API
...个姐妹,那么爱丽丝的兄弟有多少个姐妹呢?」问题时,正确率非常低。我们让 GLM-4-Flash 试了试,回答正确。改变了主角性别和亲属关系之后,GLM-4-Flash 同样可以理解,再次回答对了。测试 3:对于多人真假话判断问题,GLM-4-Fla...……更多
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
...简单任务的准确率可以达到60%,最难任务准确率仅有21%大模型的能力越来越强,用户在一些重要的任务中也可以依赖大模型,比如说辅助做科研。不过现有科研辅助相关的基准测试都太简单,跟现实世界的任务差距还是比较大的...……更多
OpenAI o1模型到博士水平了?复旦教授:没有真正推理能力,学到的还是概率相关性
...现。上述评测还显示,o1模型在MMLU Categories中的高数测试正确率高达98%,且在ML Benchmarks中的数学测试相较GPT-4o获得了超过34%的最大绝对性优势,足以显示o1模型是个数学超级“学霸”。 OpenAI还选择了专为美国最优秀的高中数学...……更多
OpenAI o1 模型 PlanBench 规划能力实测:准确率 97.8%
...州立大学的科研团队利用 PlanBench 基准,测试了 OpenAI o1 模型的规划能力。研究结果表明 o1 模型取得了长足的进步,但仍然存在很大的局限性。PlanBench 基准简介PlanBench 开发于 2022 年,用于评估人工智能系统的规划能力,包括 600 ...……更多
常见电子邮件分类算法的性能分析
...)。从图1可看出,随着训练量(Train examples)的增大,训练集正确率下降,测试集正确率上升,最后稳定在0.84左右,准确率一般,但方差较小,具有较强的抗过拟合能力。图2.决策树图2为决策树学习曲线,红色线代表测试集(学习过...……更多
OpenAI发布最新技术研究,AI“黑盒”不再是难题!
...导航,以执行OpenAI所说的“深度研究”。图片来源:视觉中国-VCG31N2008743681OpenAI被问及上述所说的草莓技术时,OpenAI的发言人在一份声明中表示:“我们希望自身AI 模型能够像我们(人类)一样看待和理解世界。持续研究新的AI...……更多
搜题更精准、难题都有解 夸克“AI搜题”提升用户学习能力与效率
...新评测中,夸克 “灵知” 学习大模型在考研数学题上的正确率和得分率已经可以比肩OpenAI最新发布的o1模型,且远超国内其他模型。另外,在多个国内数学竞赛与高考等重要测试中,夸克的正确率和得分率也处于绝对领先地位...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...这是该团队在继 PMC-LLaMA 后,在持续构建开源医疗语言大模型的最新进展。该项目受到科创 2030—“新一代人工智能” 重大项目支持。在医疗领域中,大语言模型已经有了广泛的研究。然而,这些进展主要依赖于英语的基座模型...……更多
小竹财税覆盖全国28省200+城市,中国第一个财税生态形成!
...型,花费将近百万,于2023年年底,适配出财税理论回答正确率92%以上的小竹财税AI。至此财税界的首个AI大模型正式诞生,也是在同一时间,小竹财税第一笔种子轮融资1000万元完成!标志着中国大模型在财税这个垂直领域开始被...……更多
科学家推出大模型数据集,涵盖奥赛数学题,有望让AI辅导数学课程
...随后,他们开始进行大量的测试。期间发现,如果只使用正确率作为最终的测试结果,并不能完全体现本次算法的优势。由于对大模型的请求是有成本的,所以当算法在使用大模型解决数学问题时,算法会设置一个针对大模型的...……更多
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...题、增加候选选项、引入纯视觉输入设置)更严格地评估模型的多模态理解能力;模型在新基准上的性能下降明显,表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型(MLLMs)在各个排行榜上展现的性...……更多
用过GPT-4 Turbo以后,我们再也回不去了
...,OpenAI CEO 山姆・奥特曼向我们介绍了迄今为止最强的大模型,和基于它的一系列应用,一切似乎就像当初 ChatGPT 一样令人震撼。OpenAI 在本周一的首个开发者日上推出了 GPT-4 Turbo,新的大模型更聪明,文本处理上限更高,价格也...……更多
自我纠错如何使OpenAI o1推理能力大大加强?北大MIT团队理论解释
...效果的影响。主要结论如下:多数情况下,自我纠错后的正确率高于原正确率(图4) 正确率提升与自我评估的准确率高度相关(图4(c):),甚至呈线性关系(图5(a))。 采用不同的评价方式效果依次提升:仅使用对/错评价 &...……更多
...型的自学习、自完善、自更新,提高各料型自动判级综合正确率,为废钢采购全流程智能化验质提供技术保障。该公司根据现场需求,积极展开靶向技术攻关。权万红带领技术团队认真查看废钢定级系统中的车次分层拍照质检情...……更多
港中文团队提出大模型元推理范式,革新大模型的评价体系
...院工作过一段时间。在 ChatGPT 面世以后,他意识到针对大模型的研究范式存在一定的不足,于是决定来到香港中文大学读博。图 | 曾忠燊(来源:曾忠燊)前不久,曾忠燊和所在团队提出一个全新评测范式。基于这一评测范式,...……更多
Meta祭出三篇最详尽Llama微调指南!千字长文,0基础小白必备
...开的彻彻底底。这不,Meta一连放出三篇技术文章,从大模型适配方法出发,介绍了:如何使用特定领域数据微调LLM,如何确定微调适配自己的用例,以及如何管理良好训练数据集的经验法则。接下来,直接进入正题。适配大模...……更多
AI老师上线?专家:通用人工智能将推动教育范式转变
...让通用大模型像学生一样去解答题库里的题目,发现它的正确率非常低;接下来又尝试让通用模型进行模拟题的定制,测试下来发现,通用大模型只能做到模仿题目的形态,在题目的难度、内容和考点设置上都没有办法满足需求...……更多
AI“明星”选手巅峰对决!记者实测最新谷歌Gemini与GPT-4o
...GPT-4进行了一场能力评测。▍文本测试:谷歌Gemini 1.5 Pro正确率和速度完胜GPT-4o和GPT-4OpenAI发布GPT-4已过去一年多,据介绍,此次推出新旗舰模型GPT-4o的推理能力有明显的提升,速度快了,价格也下降了。谷歌Gemini系列以其标志性...……更多
首个AI程序员上岗,码农们暂且不必过度焦虑
...人工智能)程序员已经宣布正式上岗。据报道,国内某大模型企业近期正在内部推行AI编程,使用大模型辅助程序员写代码、读代码、查BUG(漏洞)、优化代码等。这一AI程序,还被分配了正式的员工工号,据企业相关人士透露...……更多
LLM仍然不能规划,刷屏的OpenAI o1远未达到饱和
实验证明,大模型的 System 2 能力还有待开发。规划行动方案以实现所需状态的能力一直被认为是智能体的核心能力。随着大型语言模型(LLM)的出现,人们对 LLM 是否具有这种规划能力产生了极大的兴趣。最近,OpenAI 发布了 o1 ...……更多
从AI搜索到语音陪练,腾讯元宝全面评测来了!大模型C端玩家谁更胜一筹?
...答问题的准确率和速度。记者观察到,尽管元宝和GPT-4o的正确率相同,正确率都是75%,但两者的答题风格各有千秋。GPT-4o以简洁、直接和结构化的方式呈现答案,使用数学公式清晰地展示计算过程,迅速传达结果;而腾讯元宝则...……更多
本文转自:中国新闻网中新网北京5月9日电 (记者 孙自法)国际著名学术期刊《自然》最新发表一篇结构生物学论文称,由谷歌DeepMind和Isomorphic Labs团队研发的最新迭代人工智能模型AlphaFold3,能以较高准确率预测蛋白质与其他生...……更多
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...比英文问题更具挑战性,尤其是在物理和化学等科目中,中国奥林匹克竞赛的问题更难。 这些模型在识别多模态图像中的字符方面能力不足,中文环境下这一问题更为严重。然而,研究团队也发现一些中国厂商开发或基于支持...……更多
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
...谷歌副总裁即谷歌云AI首席科学家。她一手推动了谷歌AI中国中心正式成立,这是Google在亚洲设立的第一个AI研究中心。并带领谷歌云推出了一系列有影响力的产品,包括AutoML、Contact Center AI、Dialogflow Enterprise等。今年,李飞飞宣...……更多
AI“大姨”现场刁难智能客服!直击一群AI打PK赛,真能落地的那种
...时刻,成为大模型应用落地最好的试验田之一。IDC报告《中国智能客服市场份额, 2023 :新旧交替,增长可期》中显示,2023年智能客服解决方案整体市场规模达到了30.8亿人民币,较2022年增长了近36.9%,足见其发展潜力。但在“...……更多
更多关于科技的资讯:
中新经纬10月24日电 题:“十五五”时期AI+机器人融合将成产业创新主线作者 张凌燕 赛迪顾问业务总监、先进制造业研究中心总经理中国共产党第二十届中央委员会第四次全体会议公报指出
2025-10-24 18:04:00
豫见开放强音丨洛轴集团:持续拓展国际化进程 建设世界强企
大河网讯 “期待与更多客商积极合作,拓展国际化进程,共同建设世界强企。”10月23日,在国际产业投资合作对接活动·河南站举办期间
2025-10-24 18:57:00
“你好,顺丰快递,来送‘国补’数码产品。”10月21日,市民陈洁收到了网购的手机。这款手机享受“国补”和以旧换新后,比市场价便宜了不少
2025-10-24 08:05:00
集美加快布局新能源商用车赛道
“集链聚能 智驭未来”——2025厦门新能源商用车产业“四链融合”对接会吸引资源对接。(本组图/集美区 提供)企业展示的各类新能源商用车
2025-10-24 08:58:00
第三届“苏颂杯”未来产业技术创新赛圆满收官
大赛组委会为一等奖项目颁奖。台下,选手们仔细聆听台上评委点评。 海外嘉宾发来视频点评本届“苏颂杯”大赛。(本组图/市科技局 提供)厦门网讯(厦门日报记者 李晓平 通讯员 庄佩贞)经过激烈角逐
2025-10-24 08:58:00
珍爱网受邀参与“清朗网络守护者”启动大会 筑牢网络安全坚实屏障
在数字化快速发展的今天,网络安全已成为国家安全的重要组成部分。近日,由政府相关部门指导,深圳广播电影电视集团主办的以“聚焦网络空间治理 护航社会高质量发展”为主题的“清朗网络守护者”启动大会在深圳正式举行
2025-10-24 08:59:00
90 载科学传承:GNC 以城市环游诠释运动营养真谛
以骑行运动为突破口,GNC加速深耕中国运动健康市场2025年10月23日,首届环贵州公园省国际公路自行车赛圆满落幕。GNC健安喜作为铂金赞助商及官方唯一指定营养补充剂品牌
2025-10-24 08:59:00
“微米”社交APP以线下实名社交破局
近日,一款名为“微米(WEMET)”的创新型社交应用正式面世,其以“地图社交+线下实体联动”为核心模式,围绕“真实、附近
2025-10-24 08:59:00
全国首例!吉大中日联谊医院成功植入超百通道侵入式柔性脑机接口
10月22日,记者从吉林大学中日联谊医院获悉,神经外科高宇飞、张金男团队与北京智冉医疗科技有限公司联手,在全国率先成功完成首例超百通道侵入式柔性脑机接口的临床植入手术
2025-10-24 11:08:00
客如云AI碰碰贴“商业增长引擎”,让营销触手可及
在数字经济深度融入实体经济的当下,实体门店正面临“营销落地难、用户互动低效、场景覆盖有限”的共性挑战——传统推广依赖人工操作与分散物料
2025-10-24 11:20:00
继感知位置后!海尔空调将发布可感知呼吸的新品,可自适应送风
曾经,手动调节、躲避直吹是使用空调时的日常烦恼;如今,随着“主动感知”成为可能,空调正变得真正“懂你”。继10月21日首发可感知人体位置的海尔麦浪舒适风空调后
2025-10-24 11:22:00
“今天查,明天做”ICL晶体云柜正式落户福州普瑞眼科 高清视界无需等待
廿载耕耘,瞩目焕新!在普瑞眼科成立20周年之际,福州普瑞眼科迎来又一重大技术升级——正式启用EVOICL官方授权“云柜系统”
2025-10-24 11:29:00
厦门新能源商用车应用场景清单发布东南网10月24日讯(海峡导报记者 康泽辉)厦门市新能源商用车应用场景清单发布,聚焦5类道路场景43个应用场景项目
2025-10-24 11:30:00
全球首个百亿级人类基因组基础模型Genos发布!
在生命科学的前沿探索中,我们早已能高效“读出”生命的序列,但如何从30亿碱基对中“读懂”生命奥秘,长期以来都是一项巨大挑战
2025-10-24 13:21:00
鲁网10月24日讯作为支撑信息通信网络稳定运行的“核心枢纽”,通信机房承载着海量高功耗数据设备,其温度精准控制直接关系到网络畅通与服务质量
2025-10-24 13:47:00