• 我的订阅
  • 头条热搜
中国财税GPT迎来最准确的大模型:小竹财税AI问世
...AI于2023年底正式问世。这款财税领域的GPT以财税理论回答正确率高达92%的惊人成绩,率先占领了业内第一梯队。同时,小竹财税成功获得1000万元天使轮融资。据了解,小竹财税(安徽小竹信息技术有限公司)成立于2021年11月,...……更多
媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格
...闭源大模型。目前在评测集上 o1-preview 都仅刚过及格线 (正确率 63.8), 其他大部分模型都处于低分状态,其中 GPT-4o mini 仅 37.6 分,ChatGLM3-6B 和 Qwen2.5-1.5B 仅 11.2 和 11.1 的准确率。基于中文 SimpleQA,我们对……更多
大幅减缓幻觉 百融云创大模型精度测评结果出炉
近日,百融云创大模型参加一场“考试”,并取得了行业领先的成绩,多项指标优于ChatGPT3.5。随着各类大模型的相继问世,如何去评估大模型的性能变得越来越重要。百融云创参加的这场“考试”名叫检索增强生成基准测评,...……更多
专访小竹财税AI袁林:在通用大模型浪潮中寻找财税大模型的蓝海
...下没有难懂的财税。 记者:小竹财税AI在财税领域的回答正确率高达92%,远超通用大模型。这一成就是如何实现的?袁林:这一成就得益于我们高质量、多样化的垂直(专业)数据库。在模型的embedding过程中,我们探索了多种中...……更多
微软、英伟达纷纷押注小模型,大模型不香了?
...正逐渐崭露头角,挑战着过去“越大越好”的观念。视觉中国当地时间8月21日,微软和英伟达相继发布了最新的小型语言模型——Phi-3.5-mini-instruct和 Mistral- NeMo- Minitron8B。这两款模型的主要卖点是它们在计算资源使用和功能表现...……更多
真香!智谱大模型,有了首个免费的API
...个姐妹,那么爱丽丝的兄弟有多少个姐妹呢?」问题时,正确率非常低。我们让 GLM-4-Flash 试了试,回答正确。改变了主角性别和亲属关系之后,GLM-4-Flash 同样可以理解,再次回答对了。测试 3:对于多人真假话判断问题,GLM-4-Fla...……更多
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
...简单任务的准确率可以达到60%,最难任务准确率仅有21%大模型的能力越来越强,用户在一些重要的任务中也可以依赖大模型,比如说辅助做科研。不过现有科研辅助相关的基准测试都太简单,跟现实世界的任务差距还是比较大的...……更多
OpenAI o1模型到博士水平了?复旦教授:没有真正推理能力,学到的还是概率相关性
...现。上述评测还显示,o1模型在MMLU Categories中的高数测试正确率高达98%,且在ML Benchmarks中的数学测试相较GPT-4o获得了超过34%的最大绝对性优势,足以显示o1模型是个数学超级“学霸”。 OpenAI还选择了专为美国最优秀的高中数学...……更多
OpenAI o1 模型 PlanBench 规划能力实测:准确率 97.8%
...州立大学的科研团队利用 PlanBench 基准,测试了 OpenAI o1 模型的规划能力。研究结果表明 o1 模型取得了长足的进步,但仍然存在很大的局限性。PlanBench 基准简介PlanBench 开发于 2022 年,用于评估人工智能系统的规划能力,包括 600 ...……更多
常见电子邮件分类算法的性能分析
...)。从图1可看出,随着训练量(Train examples)的增大,训练集正确率下降,测试集正确率上升,最后稳定在0.84左右,准确率一般,但方差较小,具有较强的抗过拟合能力。图2.决策树图2为决策树学习曲线,红色线代表测试集(学习过...……更多
搜题更精准、难题都有解 夸克“AI搜题”提升用户学习能力与效率
...新评测中,夸克 “灵知” 学习大模型在考研数学题上的正确率和得分率已经可以比肩OpenAI最新发布的o1模型,且远超国内其他模型。另外,在多个国内数学竞赛与高考等重要测试中,夸克的正确率和得分率也处于绝对领先地位...……更多
OpenAI发布最新技术研究,AI“黑盒”不再是难题!
...导航,以执行OpenAI所说的“深度研究”。图片来源:视觉中国-VCG31N2008743681OpenAI被问及上述所说的草莓技术时,OpenAI的发言人在一份声明中表示:“我们希望自身AI 模型能够像我们(人类)一样看待和理解世界。持续研究新的AI...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...这是该团队在继 PMC-LLaMA 后,在持续构建开源医疗语言大模型的最新进展。该项目受到科创 2030—“新一代人工智能” 重大项目支持。在医疗领域中,大语言模型已经有了广泛的研究。然而,这些进展主要依赖于英语的基座模型...……更多
小竹财税覆盖全国28省200+城市,中国第一个财税生态形成!
...型,花费将近百万,于2023年年底,适配出财税理论回答正确率92%以上的小竹财税AI。至此财税界的首个AI大模型正式诞生,也是在同一时间,小竹财税第一笔种子轮融资1000万元完成!标志着中国大模型在财税这个垂直领域开始被...……更多
科学家推出大模型数据集,涵盖奥赛数学题,有望让AI辅导数学课程
...随后,他们开始进行大量的测试。期间发现,如果只使用正确率作为最终的测试结果,并不能完全体现本次算法的优势。由于对大模型的请求是有成本的,所以当算法在使用大模型解决数学问题时,算法会设置一个针对大模型的...……更多
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...题、增加候选选项、引入纯视觉输入设置)更严格地评估模型的多模态理解能力;模型在新基准上的性能下降明显,表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型(MLLMs)在各个排行榜上展现的性...……更多
用过GPT-4 Turbo以后,我们再也回不去了
...,OpenAI CEO 山姆・奥特曼向我们介绍了迄今为止最强的大模型,和基于它的一系列应用,一切似乎就像当初 ChatGPT 一样令人震撼。OpenAI 在本周一的首个开发者日上推出了 GPT-4 Turbo,新的大模型更聪明,文本处理上限更高,价格也...……更多
自我纠错如何使OpenAI o1推理能力大大加强?北大MIT团队理论解释
...效果的影响。主要结论如下:多数情况下,自我纠错后的正确率高于原正确率(图4) 正确率提升与自我评估的准确率高度相关(图4(c):),甚至呈线性关系(图5(a))。 采用不同的评价方式效果依次提升:仅使用对/错评价 &...……更多
...型的自学习、自完善、自更新,提高各料型自动判级综合正确率,为废钢采购全流程智能化验质提供技术保障。该公司根据现场需求,积极展开靶向技术攻关。权万红带领技术团队认真查看废钢定级系统中的车次分层拍照质检情...……更多
港中文团队提出大模型元推理范式,革新大模型的评价体系
...院工作过一段时间。在 ChatGPT 面世以后,他意识到针对大模型的研究范式存在一定的不足,于是决定来到香港中文大学读博。图 | 曾忠燊(来源:曾忠燊)前不久,曾忠燊和所在团队提出一个全新评测范式。基于这一评测范式,...……更多
Meta祭出三篇最详尽Llama微调指南!千字长文,0基础小白必备
...开的彻彻底底。这不,Meta一连放出三篇技术文章,从大模型适配方法出发,介绍了:如何使用特定领域数据微调LLM,如何确定微调适配自己的用例,以及如何管理良好训练数据集的经验法则。接下来,直接进入正题。适配大模...……更多
AI老师上线?专家:通用人工智能将推动教育范式转变
...让通用大模型像学生一样去解答题库里的题目,发现它的正确率非常低;接下来又尝试让通用模型进行模拟题的定制,测试下来发现,通用大模型只能做到模仿题目的形态,在题目的难度、内容和考点设置上都没有办法满足需求...……更多
AI“明星”选手巅峰对决!记者实测最新谷歌Gemini与GPT-4o
...GPT-4进行了一场能力评测。▍文本测试:谷歌Gemini 1.5 Pro正确率和速度完胜GPT-4o和GPT-4OpenAI发布GPT-4已过去一年多,据介绍,此次推出新旗舰模型GPT-4o的推理能力有明显的提升,速度快了,价格也下降了。谷歌Gemini系列以其标志性...……更多
首个AI程序员上岗,码农们暂且不必过度焦虑
...人工智能)程序员已经宣布正式上岗。据报道,国内某大模型企业近期正在内部推行AI编程,使用大模型辅助程序员写代码、读代码、查BUG(漏洞)、优化代码等。这一AI程序,还被分配了正式的员工工号,据企业相关人士透露...……更多
LLM仍然不能规划,刷屏的OpenAI o1远未达到饱和
实验证明,大模型的 System 2 能力还有待开发。规划行动方案以实现所需状态的能力一直被认为是智能体的核心能力。随着大型语言模型(LLM)的出现,人们对 LLM 是否具有这种规划能力产生了极大的兴趣。最近,OpenAI 发布了 o1 ...……更多
从AI搜索到语音陪练,腾讯元宝全面评测来了!大模型C端玩家谁更胜一筹?
...答问题的准确率和速度。记者观察到,尽管元宝和GPT-4o的正确率相同,正确率都是75%,但两者的答题风格各有千秋。GPT-4o以简洁、直接和结构化的方式呈现答案,使用数学公式清晰地展示计算过程,迅速传达结果;而腾讯元宝则...……更多
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...比英文问题更具挑战性,尤其是在物理和化学等科目中,中国奥林匹克竞赛的问题更难。 这些模型在识别多模态图像中的字符方面能力不足,中文环境下这一问题更为严重。然而,研究团队也发现一些中国厂商开发或基于支持...……更多
本文转自:中国新闻网中新网北京5月9日电 (记者 孙自法)国际著名学术期刊《自然》最新发表一篇结构生物学论文称,由谷歌DeepMind和Isomorphic Labs团队研发的最新迭代人工智能模型AlphaFold3,能以较高准确率预测蛋白质与其他生...……更多
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
...谷歌副总裁即谷歌云AI首席科学家。她一手推动了谷歌AI中国中心正式成立,这是Google在亚洲设立的第一个AI研究中心。并带领谷歌云推出了一系列有影响力的产品,包括AutoML、Contact Center AI、Dialogflow Enterprise等。今年,李飞飞宣...……更多
追一科技吴悦:一家做了7年NLP的公司,如何抓住大模型浪潮? | 36氪专访
...乐观——无论是人才密度、资金投入还是行业整体,如今中国都储备得更多,心态也更成熟了。“今年感觉大家理性了很多,理性状态下更容易做出正确的事,比如客户都会想:大模型如何结合我的场景去做商业化落地?我们也...……更多
更多关于科技的资讯:
全产业链展示秀出硬实力 “集优品·向辛行”2025辛集国际皮革盛会开幕
河北新闻网8月2日讯(侯淼、毛宇)今天,2025外贸优品中华行(辛集专场)暨辛集国际皮革皮草时装周、中国(辛集)国际皮毛时装博览会在辛集国际皮革城正式开幕
2025-08-02 21:44:00
7月31日下午,一场科技与美学的奇幻碰撞正在上演,孩子们的手指轻划屏幕,一件又一件充满设计感的服装瞬间“穿”在虚拟模特身上
2025-08-02 08:14:00
250万元撬动2000万元!六盘水:“小”券激活“大”经济
7月31日晚七点,金鸿购物超市人潮涌动。王女士的购物车里放着刚挑选好的榴莲和小龙虾,手机里一张“满100减30”的消费券即将核销
2025-08-02 13:57:00
德州扒鸡:在传承与创新中焕发新生
鲁网8月2日讯(记者 吴美琳 实习记者 费书慧)8月1日,德州市举行第二场“产业链上的山东好品牌”系列记者见面会,邀请山东德州扒鸡股份有限公司副董事长
2025-08-02 14:13:00
从清晨到日暮 恩博力以“冠军标准”定义健康家居新体验
(广告)在碧波与奖牌的背后,一位花样游泳世界冠军的日常,由无数个对细节的精准把控和对健康的不懈追求构筑而成。作为恩博力品牌代言人
2025-08-02 14:25:00
深国际·太原智慧物流制造项目主体完工
8月2日,深国际·太原智慧物流制造项目主体建设已经完工,目前,正在进行内部平台的改造,部分设备已进场。
2025-08-02 18:21:00
振健科技布局全国八大直营生产基地,引领行业高质量发展
近日,广东振健生物科技股份有限公司(以下简称:振健科技)宣布,企业已在全国范围内成功建立八大直营生产基地,主要分布在广州
2025-08-02 19:24:00
《聊斋志异·崂山道士》系列数字资产首发上线乐数通
由人民美术出版社正版授权,云栖博悟(杭州)文化传播有限公司设计发行的首款文化数字资产——《聊斋志异·崂山道士》,于2025年7月31日在浙江文化产权交易所长三角文化数字资产交易平台“乐数通”正式首发
2025-08-02 19:24:00
寻找会“讲故事”的声音展品! 三诺AI+智造博物馆老物件征集活动进行中
导语:在你的记忆中,是否有这样一些物件,它们曾用独特的“声音”在时光里留下印记?或许是流淌着咿呀戏曲的老式收音机,是旋转时沙沙低语的黑胶唱片
2025-08-02 19:24:00
8月1日晚,倍轻松(股票代码:688793.SH)发布公告,将“信息化升级建设项目”的节余募集资金,用于面向实感交互智能的传感器矩阵搭建与应用研究
2025-08-02 19:24:00
近日,重庆中京云智人工智能科技有限公司宣布完成数千万天使轮融资。本轮资金将重点投入核心项目“京店长”的技术研发与全国布局
2025-08-02 19:24:00
当家 APP 与龙牌集团达成战略合作,共筑家装行业新生态
7月30日上午,国内领先的互联网装修平台当家APP与建材行业龙头企业北新建材龙牌集团正式签署战略合作协议。双方宣布将在龙骨
2025-08-02 19:24:00
即小评丨“混搭”潮出圈 蚂蚁市集何以成为即墨“新地标”?
大众网记者 朱晓娟 青岛报道“混搭”一词来源于时尚界,从服饰营销策略扩展到一种文化符号,特指通过巧妙的平衡的协调,创造出新颖
2025-08-02 14:19:00
创新服务企业模式,为数字资产保护提供新的解决方案河北开具首张数据知识产权公证存储证明河北日报讯(记者马彦铭)7月28日
2025-08-02 08:54:00
石家庄食草堂文化饰品有限公司总经理牛睿仪:“选择一行,就要脚踏实地干下去”7月,牛睿仪又打卡了三个城市。作为石家庄食草堂文化饰品有限公司总经理
2025-08-02 09:01:00