中国,模型,模型,领域,需求,正确率头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...AI于2023年底正式问世。这款财税领域的GPT以财税理论回答正确率高达92%的惊人成绩，率先占领了业内第一梯队。同时，小竹财税成功获得1000万元天使轮融资。据了解，小竹财税（安徽小竹信息技术有限公司）成立于2021年11月，...……更多

2024-03-14 13:30:00中国,模型,模型,领域,需求,正确率

媲美OpenAI事实性基准，这个中文评测集让o1-previ

...闭源大模型。目前在评测集上 o1-preview 都仅刚过及格线 (正确率 63.8)，其他大部分模型都处于低分状态，其中 GPT-4o mini 仅 37.6 分，ChatGLM3-6B 和 Qwen2.5-1.5B 仅 11.2 和 11.1 的准确率。基于中文 SimpleQA，我们对……更多

2024-11-21 09:43:00事实性,基准,中文,评测,事实,模型

大幅减缓幻觉百融云创大模型精度测评结果出炉

近日，百融云创大模型参加一场“考试”，并取得了行业领先的成绩，多项指标优于ChatGPT3.5。随着各类大模型的相继问世，如何去评估大模型的性能变得越来越重要。百融云创参加的这场“考试”名叫检索增强生成基准测评，...……更多

2024-03-28 16:16:00精度,幻觉,模型,结果,模型,幻觉

专访小竹财税AI袁林：在通用大模型浪潮中寻找财税大模型的蓝海

...下没有难懂的财税。记者：小竹财税AI在财税领域的回答正确率高达92%，远超通用大模型。这一成就是如何实现的？袁林：这一成就得益于我们高质量、多样化的垂直（专业）数据库。在模型的embedding过程中，我们探索了多种中...……更多

2024-04-25 10:30:00模型,浪潮,专访,模型,专业,领域

微软、英伟达纷纷押注小模型，大模型不香了？

...正逐渐崭露头角，挑战着过去“越大越好”的观念。视觉中国当地时间8月21日，微软和英伟达相继发布了最新的小型语言模型——Phi-3.5-mini-instruct和 Mistral- NeMo- Minitron8B。这两款模型的主要卖点是它们在计算资源使用和功能表现...……更多

2024-08-26 14:17:00模型,英伟,微软,模型,训练,性能

真香！智谱大模型，有了首个免费的API

...个姐妹，那么爱丽丝的兄弟有多少个姐妹呢？」问题时，正确率非常低。我们让 GLM-4-Flash 试了试，回答正确。改变了主角性别和亲属关系之后，GLM-4-Flash 同样可以理解，再次回答对了。测试 3：对于多人真假话判断问题，GLM-4-Fla...……更多

2024-08-28 09:43:00真香,模型,模型,能力,应用,开发

AI科学家太多，谁靠谱一试便知！普林斯顿新基准CORE-Be

...简单任务的准确率可以达到60%，最难任务准确率仅有21%大模型的能力越来越强，用户在一些重要的任务中也可以依赖大模型，比如说辅助做科研。不过现有科研辅助相关的基准测试都太简单，跟现实世界的任务差距还是比较大的...……更多

2024-09-26 13:38:00普林,普林斯顿,斯顿,准确率,基准,科学家

OpenAI o1模型到博士水平了?复旦教授:没有真正推理能

...现。上述评测还显示，o1模型在MMLU Categories中的高数测试正确率高达98%，且在ML Benchmarks中的数学测试相较GPT-4o获得了超过34%的最大绝对性优势，足以显示o1模型是个数学超级“学霸”。 OpenAI还选择了专为美国最优秀的高中数学...……更多

2024-09-13 16:44:00复旦,相关性,概率,推理,模型,教授

OpenAI o1 模型 PlanBench 规划能力实测：

...州立大学的科研团队利用 PlanBench 基准，测试了 OpenAI o1 模型的规划能力。研究结果表明 o1 模型取得了长足的进步，但仍然存在很大的局限性。PlanBench 基准简介PlanBench 开发于 2022 年，用于评估人工智能系统的规划能力，包括 600 ...……更多

2024-09-26 09:50:00准确率,实测,模型,能力,规划,模型

常见电子邮件分类算法的性能分析

...)。从图1可看出，随着训练量(Train examples)的增大，训练集正确率下降，测试集正确率上升，最后稳定在0.84左右，准确率一般，但方差较小，具有较强的抗过拟合能力。图2.决策树图2为决策树学习曲线，红色线代表测试集(学习过...……更多

2024-08-26 09:59:00性能分析,算法,电子邮件,性能,常见,邮件

OpenAI发布最新技术研究，AI“黑盒”不再是难题！

...导航，以执行OpenAI所说的“深度研究”。图片来源：视觉中国-VCG31N2008743681OpenAI被问及上述所说的草莓技术时，OpenAI的发言人在一份声明中表示：“我们希望自身AI 模型能够像我们（人类）一样看待和理解世界。持续研究新的AI...……更多

2024-07-18 09:47:00最新技术,难题,研究,技术,模型,小数

搜题更精准、难题都有解夸克“AI搜题”提升用户学习能力与效

...新评测中，夸克 “灵知” 学习大模型在考研数学题上的正确率和得分率已经可以比肩OpenAI最新发布的o1模型，且远超国内其他模型。另外，在多个国内数学竞赛与高考等重要测试中，夸克的正确率和得分率也处于绝对领先地位...……更多

2024-11-01 11:51:00夸克,学习能力,难题,效率,能力,用户

迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测

...这是该团队在继 PMC-LLaMA 后，在持续构建开源医疗语言大模型的最新进展。该项目受到科创 2030—“新一代人工智能” 重大项目支持。在医疗领域中，大语言模型已经有了广泛的研究。然而，这些进展主要依赖于英语的基座模型...……更多

2024-09-30 09:51:00多语,大规,模型,语料,基准,大规模

小竹财税覆盖全国28省200+城市，中国第一个财税生态形成！

...型，花费将近百万，于2023年年底，适配出财税理论回答正确率92%以上的小竹财税AI。至此财税界的首个AI大模型正式诞生，也是在同一时间，小竹财税第一笔种子轮融资1000万元完成!标志着中国大模型在财税这个垂直领域开始被...……更多

2024-04-09 14:30:00中国,生态,城市,全国,中国,模型

科学家推出大模型数据集，涵盖奥赛数学题，有望让AI辅导数学课

...随后，他们开始进行大量的测试。期间发现，如果只使用正确率作为最终的测试结果，并不能完全体现本次算法的优势。由于对大模型的请求是有成本的，所以当算法在使用大模型解决数学问题时，算法会设置一个针对大模型的...……更多

2024-03-13 10:26:00数学,数学题,科学家,模型,辅导,课程

MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤

...题、增加候选选项、引入纯视觉输入设置）更严格地评估模型的多模态理解能力；模型在新基准上的性能下降明显，表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型（MLLMs）在各个排行榜上展现的性...……更多

2024-09-18 13:31:00模态,史诗,基准,难度,问答,文本

用过GPT-4 Turbo以后，我们再也回不去了

...，OpenAI CEO 山姆・奥特曼向我们介绍了迄今为止最强的大模型，和基于它的一系列应用，一切似乎就像当初 ChatGPT 一样令人震撼。OpenAI 在本周一的首个开发者日上推出了 GPT-4 Turbo，新的大模型更聪明，文本处理上限更高，价格也...……更多

2023-11-08 18:08:00模型,测试,用户,代码,基准,尝试

自我纠错如何使OpenAI o1推理能力大大加强?北大MIT

...效果的影响。主要结论如下：多数情况下，自我纠错后的正确率高于原正确率（图4）正确率提升与自我评估的准确率高度相关（图4(c):），甚至呈线性关系（图5（a））。采用不同的评价方式效果依次提升：仅使用对/错评价 &...……更多

2024-11-19 09:48:00推理,北大,团队,解释,能力,理论

张宣科技：技术攻关助力废钢验质智能化

...型的自学习、自完善、自更新，提高各料型自动判级综合正确率，为废钢采购全流程智能化验质提供技术保障。该公司根据现场需求，积极展开靶向技术攻关。权万红带领技术团队认真查看废钢定级系统中的车次分层拍照质检情...……更多

2023-11-09 18:47:00废钢,攻关,智能,技术,科技,废钢

港中文团队提出大模型元推理范式，革新大模型的评价体系

...院工作过一段时间。在 ChatGPT 面世以后，他意识到针对大模型的研究范式存在一定的不足，于是决定来到香港中文大学读博。图 | 曾忠燊（来源：曾忠燊）前不久，曾忠燊和所在团队提出一个全新评测范式。基于这一评测范式，...……更多

2024-03-04 10:23:00革新,模型,范式,中文,推理,团队

Meta祭出三篇最详尽Llama微调指南！千字长文，0基础小

...开的彻彻底底。这不，Meta一连放出三篇技术文章，从大模型适配方法出发，介绍了：如何使用特定领域数据微调LLM，如何确定微调适配自己的用例，以及如何管理良好训练数据集的经验法则。接下来，直接进入正题。适配大模...……更多

2024-08-27 12:03:00小白,长文,千字,基础,指南,训练

AI老师上线？专家：通用人工智能将推动教育范式转变

...让通用大模型像学生一样去解答题库里的题目，发现它的正确率非常低；接下来又尝试让通用模型进行模拟题的定制，测试下来发现，通用大模型只能做到模仿题目的形态，在题目的难度、内容和考点设置上都没有办法满足需求...……更多

2024-07-13 09:49:00范式,人工智能,人工,老师,智能,专家

AI“明星”选手巅峰对决！记者实测最新谷歌Gemini与GP

...GPT-4进行了一场能力评测。▍文本测试：谷歌Gemini 1.5 Pro正确率和速度完胜GPT-4o和GPT-4OpenAI发布GPT-4已过去一年多，据介绍，此次推出新旗舰模型GPT-4o的推理能力有明显的提升，速度快了，价格也下降了。谷歌Gemini系列以其标志性...……更多

2024-05-17 14:26:00实测,巅峰,选手,记者,明星,模型

首个AI程序员上岗，码农们暂且不必过度焦虑

...人工智能）程序员已经宣布正式上岗。据报道，国内某大模型企业近期正在内部推行AI编程，使用大模型辅助程序员写代码、读代码、查BUG（漏洞）、优化代码等。这一AI程序，还被分配了正式的员工工号，据企业相关人士透露...……更多

2024-04-07 13:55:00程序员,焦虑,程序,程序员,模型,程序

LLM仍然不能规划，刷屏的OpenAI o1远未达到饱和

实验证明，大模型的 System 2 能力还有待开发。规划行动方案以实现所需状态的能力一直被认为是智能体的核心能力。随着大型语言模型（LLM）的出现，人们对 LLM 是否具有这种规划能力产生了极大的兴趣。最近，OpenAI 发布了 o1 ...……更多

2024-09-25 09:48:00饱和,规划,模型,测试,规划,能力

从AI搜索到语音陪练，腾讯元宝全面评测来了！大模型C端玩家谁

...答问题的准确率和速度。记者观察到，尽管元宝和GPT-4o的正确率相同，正确率都是75%，但两者的答题风格各有千秋。GPT-4o以简洁、直接和结构化的方式呈现答案，使用数学公式清晰地展示计算过程，迅速传达结果；而腾讯元宝则...……更多

2024-05-31 18:07:00腾讯,陪练,元宝,语音,模型,评测

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonn

...比英文问题更具挑战性，尤其是在物理和化学等科目中，中国奥林匹克竞赛的问题更难。这些模型在识别多模态图像中的字符方面能力不足，中文环境下这一问题更为严重。然而，研究团队也发现一些中国厂商开发或基于支持...……更多

2024-06-25 09:45:00奥林,奥林匹克,竞赛,模型,推理,能力

最新迭代人工智能模型生物结构预测准确率显著提升将助力药物研

本文转自：中国新闻网中新网北京5月9日电 (记者孙自法)国际著名学术期刊《自然》最新发表一篇结构生物学论文称，由谷歌DeepMind和Isomorphic Labs团队研发的最新迭代人工智能模型AlphaFold3，能以较高准确率预测蛋白质与其他生...……更多

2024-05-09 11:54:00迭代,准确率,人工智能,药物,人工,模型

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

...谷歌副总裁即谷歌云AI首席科学家。她一手推动了谷歌AI中国中心正式成立，这是Google在亚洲设立的第一个AI研究中心。并带领谷歌云推出了一系列有影响力的产品，包括AutoML、Contact Center AI、Dialogflow Enterprise等。今年，李飞飞宣...……更多

2024-11-11 13:31:00团队,智能,空间,视频,模态,模型

AI“大姨”现场刁难智能客服！直击一群AI打PK赛，真能落地

...时刻，成为大模型应用落地最好的试验田之一。IDC报告《中国智能客服市场份额， 2023 ：新旧交替，增长可期》中显示，2023年智能客服解决方案整体市场规模达到了30.8亿人民币，较2022年增长了近36.9%，足见其发展潜力。但在“...……更多

2024-09-23 09:53:00大姨,一群,落地,智能,百炼,模型

page 1/6667 首页上一页 12 3 4 5 6 下一页末页

更多关于科技的资讯：

人工智能+AI 推动智能无人驾驶场景加速落地

01、什么是车联网和智能网联汽车车联网车联网是指以智能网联汽车为载体，通过蜂窝移动通信与直连通信网络，运用互联网、大数据

2025-09-25 22:31:00

云栖通道上演AI“实战秀”：守护珊瑚、助盲出行、千元机器人勾

9月25日正午，杭州云栖大会现场2号馆小舞台，云栖通道如期开通。这是一个为广大AI产业从业者、创业者以及大模型开发者提供的专属交流平台

2025-09-25 20:58:00

CBD 新地标：Z3，未来办公引擎登场

北京，2025年9月24日——北京 CBD 核心区再添重磅力作！今日，备受瞩目的 Z3 超甲级写字楼项目正式揭开神秘面纱

2025-09-25 13:43:00

中国电信-海信日立联合实验室揭牌，共筑智慧家电产业新高地

9月19日，中国电信山东公司、天翼物联科技公司与青岛海信日立在青岛举行联合实验室揭牌仪式，标志着三方战略合作迈入全方位深度融合的新阶段

2025-09-25 13:43:00

2025云栖大会直击：云深处科技机器人矩阵亮相，多场景展示行

9月24日至26日，全球云计算与 AI 领域年度旗舰盛会 ——2025 云栖大会在杭州云栖小镇盛大启幕。本届大会以“云智一体・碳硅共生”为核心主题

2025-09-25 13:44:00

《个人征信电子授权安全技术指南》解读系列之数据安全及个人信息

为落实《个人征信电子授权安全技术指南》（JR/T 0299—2024）金融行业标准，规范金融机构在个人征信电子授权中的技术操作

2025-09-25 13:44:00

文玩新经济浪潮奔涌，2025全国文玩大会重塑行业生态与消费图

秋意渐浓，北京迎来一场文玩行业盛会。9月24日至28日，以“国潮觉醒文玩新生”为主题的2025全国文玩大会于潘家园市场（西区）盛大举行

2025-09-25 13:46:00

三七娱鱼集团：锚定千亿短剧风口，以科技与生态重塑数字内容新未

如今，微短剧已然从“内容新贵”成长为拉动数字经济的重要力量。因为“轻、快、密”的内容节奏，短剧得以迅速占领用户的碎片时间

2025-09-25 13:46:00

三榜齐登、实力认证！网易有道连续五年入选“北京民营企业百强”

日前，北京市工商联、通州区人民政府联合召开2025北京民营企业百强发布会。会上，网易有道凭借持续的创新能力和稳健的业绩表现

2025-09-25 10:06:00

济南爱尔眼科实施全国首批龙晶PR型有晶体眼人工晶状体植入术

近日，首批龙晶PR型有晶体眼人工晶状体植入手术在济南爱尔眼科医院完成，作为“尝鲜吃螃蟹”的人，患者脸上洋溢着发自内心满意的微笑

2025-09-25 11:20:00

金科院数字科技赋能国际赛艇大赛

观赛有了更佳的趣味性与沉浸感金科院数字科技赋能国际赛艇大赛南报网讯（通讯员陆慧记者姜静实习生黄佳琪）2025南京·大学生国际赛艇公开赛近日在外秦淮河畔举行

2025-09-25 07:38:00

雄安新区面向评标专家智能问答系统正式上线

提升“双盲”模式下的评标质效雄安新区面向评标专家智能问答系统正式上线河北日报讯（见习记者康晓博）只需轻点鼠标，远在外地的评标专家就能获得精准指引

2025-09-25 07:58:00

大模型算出爆款，红枣变致富“金枣”

大模型算出爆款，红枣变致富“金枣”——看沧县红枣及干坚果食品加工产业如何实现数字化转型9月18日，河北华聚食品有限公司的工人忙着打包红枣产品

2025-09-25 07:59:00

兴业银行信用卡与美团企业版“强强联手” 共创“金融+生活”开

9月17日，兴业银行信用卡中心与美团企业版在上海签署战略合作协议，共同打造“金融+生活”开放生态。根据协议，双方将基于开放共享

2025-09-24 07:24:00

一串串数字，见证企业对南京的高度认可

金洽会上51个重点产业项目签约，计划投资802.21亿元——一串串数字，见证企业对南京的高度认可□南京日报/紫金山新闻记者张甜甜9月23日

2025-09-24 08:11:00

头条订阅服务