• 我的订阅
  • 头条热搜
OpenAI o1模型到博士水平了?复旦教授:没有真正推理能力,学到的还是概率相关性
...其专门用于评估模型在化学、物理和生物学等领域的专业知识水平,并邀请了拥有相关领域博士学位的专家参与测试。测试结果显示,o1不仅成功完成了测试,更是超越了博士表现,成为首个在GPQA diamond 基准上击败人类专家的AI...……更多
...款 2 亿日元,并计划在 2024 财年将拨款提升至 3 亿日元。准确率可达 70%,科学家利用 AI 解读狗的叫声:研究发现,用于训练人类语音的 AI 模型可以作为训练动物交流模型的起点。这一模型的主要障碍是缺乏公开可用的数据。研...……更多
重磅!TeleAI 完成首个全国产化万卡万参大模型训练
...rompt 设计、多模型的投票机制等手段,进一步提高了模型准确率和鲁棒性,最终以领先第二名将近 3 分的绝对优势排名第一。开源共享,引领创新TeleChat2-115B 的开源标志着大模型国产化迈进了又一个新征程。作为最早布局并首先...……更多
腾讯推出PDF识别神器:复杂文档解析准确率超98%
...能推理并对表格数据和结构进行正确复原,极大提高识别准确率。每次复制表格都数据错位的人有福了!不仅中英文,它还支持20+语言,以及繁体字、生僻字等多种类字体。更惊喜的是,它还支持将识别后的图片、PDF文档转换为...……更多
OpenAI直播第二弹!奥特曼2024年最大惊喜竟来自字节?强化微调让o1-mini逆袭o1
...今最强的基础模型o1。其中,强化微调版的o1 mini,在Top-1准确率上直接跃升180%达到了31%,远超o1的25%。 对此,奥特曼激动地表示:「这项工作效果出奇得好,是我2024年最大的惊喜之一!非常期待大家会用它去构建什么。」目前...……更多
港中文团队提出大模型元推理范式,革新大模型的评价体系
...:在教育领域,如果 GPT4 在小学级别的数学题目上的评测准确率只有四成,那么我们难免会对 GPT4 的实用性产生怀疑。在咨询领域,大模型的应用场景高度依赖于对不同方案的推演、整体步骤的拆分、解析等能力。而当今大模型...……更多
清华开源混合精度推理系统MixQ:大模型近无损量化并提升推理吞吐
...合精度量化的LlaMA模型在MMLU 20个领域上的数据集进行推理准确率测试表明,采用8bit混合精度量化后的准确率下降不到0.1%:△图6 混合精度量化分类准确率不过,此前已有的混合精度量化的系统的性能普遍不高,主要瓶颈在针对...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...调模型。经过测试,人类在该基准上可以达到至少82.1%的准确率,但Claude 3.5 Sonnet和GPT-4o等顶流模型的成绩却远远落后于人类,分别只有64.7%和59.9%。 目前全部数据已经上传至HuggingFace仓库。仓库地址:https://huggingface.co/da……更多
文心一言发布百度市值蒸发200亿,外界称缺乏亮点,应用前景难超ChatGPT
...出来高时效的信息和内容,从而大幅度提升事实性问题的准确率。此外,李彦宏表示文心一言能够连续三次内容创作生成,这是基于庞大数据规模而发生的“智能涌现”。据介绍,文心一言大模型的训练数据包括万亿级网页数据...……更多
AI新时代揭幕!会“思考解题逻辑”的OpenAI推理大模型登场
...中,AI会不断试错并打磨答案,从而显著提高生成结果的准确率和质量。有趣的是,点开AI思考的过程,还会出现AI表示“我在思考这个事情这么做行不行”、“啊时间不够了得尽快给出答案”等。OpenAI确认,这里展示的并不是原...……更多
春节流量给支付宝留下了什么?
...是能做的。”陈亮认为,当下AI技术的挑战主要在于提高准确率。以往依赖复杂且可行性不高的模板来调用功能,不仅难以保持高准确率,而且维护困难,导致项目难以持续,大模型技术的引入给LUI提供了更多的可能。基于大模...……更多
一克商评 | 随着小冰“数字克隆人”不断发展进化,将为未来直播电商打开想象空间
...实践相结合。得益于互联网技术的赋能,越来越多的科学知识传授方式进入校园。科学知识的互动教学课,是培养孩子们科学思维、探索未知兴趣和创新意识的有效方式。在“科技创新、强国有我”的期许下,从当小科学家,到...……更多
5年投资超1000亿,北京公布一系列AI重磅成果,北大清华百度蚂蚁微软大佬齐谈AI未来|钛媒体AGI
...可能会掣肘大模型落地应用;需求尽快找到大模型落地与知识产权保护、数据隐私保护之间的平衡点;大模型幻觉问题仍未得到“根治”;大模型从“可用”到“好用”,需要供需双方协同发力,联合研发;部分领域应用积极响...……更多
蚂蚁数科SOFAStack发布全栈AI服务,助力企业用好大模型
...站式模型工作台,并实现可视化研发、管理多种具备行业知识库的Agent(智能体)应用,助力企业跑完企业AI应用业务落地的最后一公里。“大模型的高速发展使得AI不得不面临算力管理复杂、训练推理成本高、任务调度难等多方...……更多
多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染
... 作为备选。最终的报告结果将基于得分转换为 0 到 100 的准确率指标。未来也可以在我们动态更新的榜单里查看多模态模型在每个月动态更新的最新评测数据,以及在榜单上的最新评测的结果。 ……更多
用AI自动设计智能体,数学提分25.9%,远超手工设计
...分数提高了 13.6/100(与基线比),在 MGSM 的数学任务中将准确率提高了 14.4%。此外,在跨域迁移后,它们在 GSM8K 和 GSM-Hard 数学任务上的准确率分别比基线提高了 25.9% 和 13.2%。与手工设计的解决方案相比,本文算法表现出色,这...……更多
人工智能已经可以解决复杂的数学问题了,还有哪些工作无法被取代
...高中比赛的近4000道数学题目的自然语言陈述。起初,Codex准确率略低于30%。当它失败时,它创造了一些术语来填补翻译词典的空白。在此研究之前,Codex从未尝试在自然语言和形式数学代码之间进行翻译。但Codex通过在GitHub上的...……更多
支付宝进军大模型医疗应用,技术一号位:我们有4个切入点
...准等方面都建立了很深度的链接。目前我们在北上杭这块准确率,基本上能做到百分之八九十,还在继续优化中。第二个是全科医生。医疗领域面临一个主要问题是,AI目前还无法替代专业医生进行诊断。因此我们更多地将AI定...……更多
中兴通讯携手上海移动开展业界首个基于大模型的短信反诈治理探索
...、语义等根源维度上进行治理,有效提升诈骗短信的识别准确率、拦截率和召回率。自该系统上线后,境外涉诈案件数量明显降低,为减少人们财产损失、维护社会和谐做出贡献。基于大模型的短信反诈治理主要包括AI实时推理...……更多
大模型观察|从训练到落地金融业,大模型“升级之路”面临哪些挑战?
...效率提升了25%。在智能办公领域,大模型目前的意图识别准确率已达到97%。奇富科技则透露,通过AIGC的强大赋能,在电销系统中,语义分析和线索挖掘帮助提升电销线索识别准确率高达98%,同时将转化率提高超过5%。在智能营销...……更多
本周硅谷发生了什么?|苹果Vision Pro正式开售;Neuralink完成人类脑机接口植入;字节Coze国内版上线;
...于 Python、C++、J等多种语言。在HumanEval基准测试中,它的准确率为53% ,接近于GPT-4的67% 。Mistral CEO确认新模型性能接近GPT-42月1日,Mistral联合创始人兼CEO Arthur Mensch在X上表示,引发众多猜测的“miqu-1-70b”是……更多
GPT-4劲敌,谷歌进入高能+高产模式
...中,Gemini 1.5 Pro能够在长达100万token的文本块中,以99%的准确率找出隐藏有特定信息的文本片段。 图源:Gemini 1.5 Pro官方测试数据这个上下文长度使Gemini 1.5 Pro可以自如地处理22小时的录音、超过十倍的完整的1440页的书(587,287字..……更多
真·AI程序员,阿里云「通义灵码」全面进化,全流程开发仅用几分钟
...知、检索增强式生成(RAG)和自适应生成能力,研发问答准确率超过 90%。据统计,通义灵码为已有用户贡献的代码比例已经接近 30%。与此同时,随着通义大模型在语义理解、代码生成、开发工作流等方面全面进化,通义灵码的...……更多
21.5万张X光,78万个问题!德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA
...建立规则,使得相同信息覆盖面上比基于传统规则的方法准确率提高62%。同时,作者还与2位临床专家合作对100个样本的标签进行了全面的评估,进一步 帮助微调LLM。基于该数据集,作者提出了一种新的基于图(Graph)的可解释...……更多
蚂蚁集团井贤栋:恪守科技伦理,推动AI向善而行
...严谨产业,业界普遍认为面临着三个“能力短板”:领域知识相对缺乏、复杂决策难以胜任,以及对话交互不等于有效协同。而垂直领域、高质量的数据往往以多种模态存在,体系庞杂,比较分散,对隐私保护和资产价值保护的...……更多
推理性能直逼o1,DeepSeek再次出手,重点:即将开源
...的推理过程。如上图中的红色实线所示,模型所能达到的准确率与所给定的推理长度呈正相关。且相比于传统的多次采样 + 投票(Majority Voting),模型思维链长度增加展现出了更高的效率。最惊艳的是,发布即上线:所有用户均...……更多
还在人工炼丹?自动提示工程指南来了,还带从头实现
...e given problem about geometric shapes.」可以看到,性能并不好,准确率只有 36%,应该有很大的改进空间。不过,在使用 APE 之前,让我们先尝试下一种提示技术:思路链(CoT)推理;这种技术虽然对原始提示词修改不多,但事实证明却...……更多
李飞飞空间智能之后,上交、智源、北大提出空间大模型SpatialBot
...深度信息获取、远近关系比较的任务上,可以达到 99%+ 的准确率。2. 针对空间理解任务,作者公布了 SpatialBench 榜单。通过精心设计和标注 QA,测试模型深度理解能力。SpatialBot 在榜单上展示了和 GPT-4o 接近的能力。模型如何理解...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...理能力,并证实了我们的训练策略的有效性。除了更高的准确率外,我们的模型实现的推理速度比 LLaMA-AdapterV2 和 ManipLLM 快 7 倍,这可以归因于 Mamba 语言模型的内容感知推理能力和效率。图 4. RoboVQA 上与机器人相关的推理对比...……更多
GPT-4o的识图能力有多牛?四大维度深度体验
...识别数据图上的信息,并按要求以图表的形式重新呈现,准确率高达100%。图片来源:GPT-4o四、手写指令和逻辑推理最后,记者上了点难度,用手写的逻辑推理题来测试了GPT-4o的识图和逻辑推理能力。GPT-4o的回答堪称完美,不仅...……更多
更多关于科技的资讯:
南京诺唯赞生物科技股份有限公司——“明星产品”展拳脚 “深海闯荡”拓增量□南京日报/紫金山新闻记者江芬芬通讯员张天娇当越来越多宁企在全球市场“开疆拓土”
2025-01-14 08:02:00
昨天,浙江大学杭州国际科创中心(简称科创中心)人形机器人创新研究院联合镜识科技有限公司、杭州凯达尔焊接机器人股份有限公司研发的四足机器人“黑豹2
2025-01-14 08:08:00
杭州知名上市公司实施4.5天工作制 且不降薪不裁员?
昨天,网传杭州临平一家上市公司官宣实施4.5天工作制,周五只上半天班,且公司不降薪、不裁员。傍晚,这家公司的工作人员向橙柿互动记者证实了传闻
2025-01-14 08:08:00
“火热”低空经济在观山湖区也有“新蓝海”
本文转自:人民网-贵州频道随着科技进步和多元化的社会需求,低空经济成为推动区域发展的全新动力。航空飞行、低空飞行器制造
2025-01-14 08:19:00
苹果史上最强Air平板!iPad Air将升级M4芯片:看齐大哥Pro
快科技1月14日消息,苹果记者Mark Gurman暗示,iPad Air将在今年春季登场,苹果将同时推出11英寸和13英寸两种尺寸
2025-01-14 08:23:00
除夕火车票今日开售:铁路部门加大高峰时段运力投放
1月14日消息,据媒体报道,2025年春节从1月28日(除夕)开始,至2月4日(正月初七)结束,共8天。根据铁路客票提前15天预售的规则
2025-01-14 08:23:00
GPD WIN Mini 2025掌机发布:顶配锐龙AI 9 HX 370
快科技1月14日消息,GPD发布了WIN Mini 2025掌机,首发价4800元起。据悉,GPD WIN Mini 2025配备一块7英寸分辨率1920 x 1080 LTPS屏幕
2025-01-14 08:23:00
传Switch 2周内公布
Eurogamer报道说,早在2023年夏天任天堂就在科隆游戏展上就下一代Switch向开发人员进行了闭门演示,但公司唯恐新机过早亮相会影响旧款销量
2025-01-14 08:23:00
小米陈波宣布1月17日开直播:小米NAS最新进展来了!
快科技1月14日消息,日前,小米生态链总经理陈波宣布,将于1月17日(本周五)19:00开启直播。陈波表示,将在直播中聊聊米家24年的发展
2025-01-14 08:23:00
用了7年的规则突然取消!美国星巴克宣布不再免费开放:进店需消费
快科技1月14日消息,据媒体报道,日前,星巴克在北美各地咖啡店推出了一项新的顾客行为准则,撤销了允许所有人入店的开放政策
2025-01-14 08:53:00
斯蒂菲尔金融公司与贝莱德集团:SFL海洋能源2025全球蓝图
在全球能源变革的浪潮中,斯蒂菲尔金融公司(StifelFinancialCorp.)与贝莱德集团(BlackRock)联手推出SFL海洋能源(SeaFusionLabs)项目
2025-01-14 08:57:00
没吹的那么神!试驾特斯拉FSD:我们发现了七大不足
一个月前,特斯拉发布了最新FSD(全自动驾驶)V13.2.2版本,号称“迄今为止最强FSD,不需人干预,上车到下车全程自动驾驶”
2025-01-14 09:23:00
蔡磊身体机能断崖式下降:声音变高变细变模糊
快科技1月14日消息,微博话题“蔡磊身体机能断崖式下降”冲上热搜榜。据媒体报道,今年46岁的蔡磊与渐冻症斗争了五年,去年5月的那次感冒把他送进重症监护室
2025-01-14 09:23:00
浙江慈溪:企业生产忙 力争开门红
本文转自:人民网-浙江频道在浙江省慈溪市观海卫镇小家电企业,AVG小车在立体化仓库里忙碌着。人民网 章勇涛摄人民网杭州1月14日电 (孙鹏)近日
2025-01-14 09:38:00
国央企智能自动化建设,九科信息如何对症下药?
在具有纲领性意义的“十四五”规划蓝图中,数字化转型被浓墨重彩地独立成篇,昭示着数字化转型已然成为中国企业发展的关键驱动力
2025-01-14 09:45:00