• 我的订阅
  • 头条热搜
数字员工、超级个体、具身智能,AI Agent未来发展十大研究方向
...智能系统是否表现出类似人类的智能。此外,还有专门的基准测试,如AgentBench,用于评估LLMs作为智能体在各种真实世界挑战和不同环境中的表现。接下来将会有更多的基准测试面向Agent的各个环节,以促进Agent生态的良性发展与...……更多
深度剖析:谷歌、微软等AI巨头承诺的“自愿监管”做到了吗?
...mons 的一部分,在这里它与学者们一起开展跨行业 AI 安全基准研究。谷歌还表示,它积极向美国国家科学基金会的国家人工智能研究资源试点项目等项目贡献计算信用等工具和资源,该试点项目旨在使美国的人工智能研究民主化...……更多
谷歌DeepMind研究再登Nature封面,隐形水印让AI无所遁形
...ID-Text的水印方案,已经在自家的Gemini上投入使用,跟踪AI生成的文本内容,使其无所遁形。君可知,我们每天在网上的见闻,有多少是出自AI之手?除了「注意看!这个男人叫小帅」让人头皮发麻,真正的问题是,我们无法辨别...……更多
撞墙还是新起点?自回归模型在图像领域展现出Scaling潜力
...语言模型(ELM/elucidate language model),并在 ImageNet 256×256 基准上实现了 SOTA。ELM-2B 生成的一些不同类别的图像至于注意力模式,不同大小的模型的差别倒是不大:L 大小的模型主要关注局部信息,难以捕获长程信息。相较之下,...……更多
OpenAI发布文生视频模型Sora,奥尔特曼选取网友提示词
...能准确呈现细节,还能理解物体在物理世界中的存在,并生成具有丰富情感的角色。该模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。一位时髦女士漫步在东京街头,周围是温暖闪烁的霓虹灯和动感的...……更多
硅谷大模型“价格战”上演,一味“卷”价格会有未来吗?
...益递减期。”他这样写道。若以MMLU(一种常见的大模型基准指标)为基准,可以看到,从GPT-2到GPT3再到GPT-4呈现了飞跃式的递增,但GPT-4到今年4月发布的GPT-4Turbo的能力改进并不明显。图片来源:《证据表明LLM正达到收益递减点...……更多
自动化、可复现,基于大语言模型群体智能的多维评估基准
...)也越来越强。因此,在多样的应用场景中对其进行性能基准测试已成为了一项重大挑战。目前最受欢迎的基准测试是 Chatbot Arena,它通过收集用户对模型输出的偏好来对 LLM 进行综合排名。然而,随着 LLM 逐渐落地于众多应用场...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
...都表现出了增强的性能。表 5 列出了各种模型在 Video MME 基准上的表现,比较了它们在短视频、中视频和长视频长度上的有效性以及整体性能。LongVILA-8B 采用 256 帧,总分为 50.5。研究者还在表 6 对第 3 阶段和第 4 阶段的影响进行...……更多
...Sora,可以将文字描述转换为逼真的视频。然而,该视频生成模型在推进AI技术发展的同时,也引发了人们对AI深度伪造视频可能加剧错误信息和虚假信息传播的担忧。Sora目前可以通过单独的文本指令或文本与图像相结合的指令创...……更多
用「AI人」模拟社会学实验,居然成功了?斯坦福、NYU用GPT-4模仿人类,准确度惊人!
...对LLM用于预测调查实验中观察到的干预效应的能力进行了基准测试。 最后,他们超越了这个初步的测试档案,收集并分析多种大型多处理实验,包括涉及行为测量的研究、干预措施的现场测试和政策影响评估,以更好地评估LLM...……更多
...种名为DetectGPT的新方法,旨在成为首批打击高等教育中LLM生成文本的工具之一。相关研究论文已发表在预印本网站arXiv上。据悉,该方法或对检测验证产业带来积极影响。此前,GPT- 3、PaLM和ChatGPT等大型语言模型(LLM)已经被证...……更多
OpenAI重拾规则系统,用「AI版机器人定律」守护大模型安全
...。 该团队通过实验表明,RBR 得到的安全性能与人类反馈基准相当,同时还能大幅减少拒绝安全提示词的情况。 研究表明 RBR 适用于多种奖励模型,既能改善过度谨慎的奖励模型,也能改进(有时候)偏好不安全输出的奖励模型...……更多
刚刚,我们感受了一波最「像人」的国产AI,模型还是开源的
...Use 上,AutoGLM 都取得了大幅的性能提升。在 AndroidLab 评测基准上,AutoGLM 就显著超越了 GPT-4o 和 Claude-3.5-Sonnet 的表现。在 WebArena-Lite 评测基准中,AutoGLM 更是相对 GPT-4o 取得了约 200% 的性能提……更多
OpenAI劲敌来了!这款大模型多项测试超越GPT-4o,号称最强智能
...Claude 3.5 Sonnet模型具备强大的“视觉”能力,在标准视觉基准测试中也超过了Claude 3 Opus。在诸如解释图表、图片等处理视觉推理的任务中,3.5 Sonnet可以准确地从不完美的图像中转录文本,对于零售、物流和金融服务等领域的客...……更多
国内首批!腾讯云AI绘画通过中国信通院AIGC平台评估
...画成为国内首批通过该评估标准的AIGC绘画平台。伴随着生成式人工智能技术在文本、图像、音视频等内容生成上的重大突破,AIGC成为人工智能技术应用热门方向。AI绘画技术能力的不断提升,也开辟了科技与艺术相结合的全新领域...……更多
谷歌发布音乐AI工具MusicFX:一句话就能生成一首音乐
...歌推出AI音乐创作工具“MusicFX”,仅需几句话,用户即可生成原创的音乐作品。谷歌在介绍中指出,这一名为“MusicFX”的创作工具结合了谷歌此前发布的MusicLM模型和DeepMind的水印技术SynthID,以便在事后识别出它们是否由AI制作...……更多
突破数据墙!27岁华裔MIT辍学创业8年,年化收入逼近10亿
...而过于具体的指示似乎会影响模型的推理能力。虽然o1在基准测试中取得了出色的结果,但让它完成你自己的具体任务似乎需要更多努力——它们往往会忽视明确(甚至是强调的)关于如何解决问题的指令。由此可见,现实世界...……更多
openai更新gpt-4turbo预览模型
...幅提升。性能方面,text-embedding-3-small在多语言检索常用基准(MIRACL)的平均得分从31.4%提高到44.0%,而英语任务常用基准(MTEB)的平均得分从61.0%提高到62.3%。定价方面,text-embedding-3-small的定价是text-embeddi……更多
国产模型指令跟随全球第一!来自LeCun亲推的最难作弊LLM新榜单
...大学等在今年6月推出。号称是“全球首个无法作弊的LLM基准测试”。而这次冷不丁杀出来的黑马,其实比较熟悉国内大模型竞争格局的朋友们已经猜到了——Step系列,背后是大模型六小虎之一的阶跃星辰。指令跟随高分拿下全...……更多
记者实测|速度更快成本更低,人机交互更自然,OpenAI新模型免费开放
...I将GPT-4o定位为GPT-4性能级别的模型。据介绍,GPT-4o在传统基准测试中,文本、推理、编码能力达到GPT-4 Turbo的水平。该模型接收文本、音频和图像输入时,平均320毫秒响应音频输入,与人类对话中的响应时间相似,英文文本和代...……更多
最新美国国家人工智能科学院院士介绍
...尤其是在处理复杂系统的优化问题上。Zhong的算法在多个基准测试中达到了领先水平,为人工智能在游戏、物流和交通等领域的应用提供了强大支持。MayaRuder,来自纽约大学。她专注于自然语言处理中的迁移学习和领域适应问题...……更多
ChatGPT开发商OpenAI推出新工具 可检测文本是否由人所写
...出一款新工具,可用于检测文本是出自人类之手还是由AI生成。这款名为分类器的工具将标记OpenAI产品(如ChatGPT)以及其他AI创作软件编写的内容。然而,它仍有许多局限性。因此,OpenAI建议将其用作确定文本来源的其他方法的...……更多
Mistral放大招!124B多模态巨无霸登场,免费版ChatGPT震撼突袭
...于驱动新Le Chat。全新Le Chat:具备网页搜索、Canvas、图像生成、图像理解等功能——而且所有功能免费提供!Mistral的CEO兼联创Arthur Mensch宣布道:「此次发布是一个重要的里程碑」!现已可在官网上体验Le Chat的使用。体验地址:h...……更多
中国天才少女硅谷创立AI公司,半年估值超10亿
...学。陈思禹是信息学和物理双料国家集训队成员,后保送北大,也是第一届图灵班的成员之一。4号员工Matan Cohen-Grumi的经验主要在创意领域。郭文景在接受采访时表示,Pika将持续轻体量化发展,随用户暴增,2024年或将团队拓展...……更多
iPad可用AI绘画交互编辑神器火了,网友:颤抖吧PS
...aw&Guess”,也就是通过图像上下文解释用户笔画并自动生成相关提示。团队采用的数据集通过生成边缘图和模拟用户笔画进行构建,并使用LLaMA模型进行微调。3.创意收集器创意收集器为用户提供了一个简约直观的界面,它兼...……更多
AI画家的「滑铁卢」:为什么冰可乐不愿意住进茶杯里?
... 的要求时,会发生什么呢?在 2023 年 10 月大规模 AI 图像生成模型刚刚兴起时,我们便进行了这种尝试,得到了以下结果:考虑到 AI 模型更新换代带来的性能提升,我们在 2024 年 7 月又使用了最先进的模型进行了同样的尝试: ...……更多
...的大模型之争,让人们再次把目光聚焦人工智能领域。从生成式人工智能带来AI技术阶跃式进步,到今年年初文生视频模型Sora以及近期GPT-4o等多模态大模型发布,AIGC(生成式人工智能)在文本、图像、语音等方面的应用能力不...……更多
语言、机器人破壁,MIT等用GPT-4生成模拟任务,并迁移到真实世界
...中增加任务多样性仍面临挑战。这就导致典型的人工模拟基准通常仅能包含数十到数百个任务。如何解决呢?近年来,大语言模型在自然语言处理及各类任务的代码生成方面不断取得重大进展。同样,LLM 已经应用于机器人的多...……更多
OpenAI o1 模型 PlanBench 规划能力实测:准确率 97.8%
... 日消息,来自亚利桑那州立大学的科研团队利用 PlanBench 基准,测试了 OpenAI o1 模型的规划能力。研究结果表明 o1 模型取得了长足的进步,但仍然存在很大的局限性。PlanBench 基准简介PlanBench 开发于 2022 年,用于评估人工智能系...……更多
AGI一日要闻:台积电预测2040年GPU芯片性能提升1000倍;Scale估值高达130亿美金
...数学相关任务中的性能。在 xAI 的测试中,Grok-1.5 在 MATH 基准上取得了 50.6% 的成绩,在 GSM8K 基准上取得了 90% 的成绩,这两个数学基准涵盖了广泛的小学到高中的竞赛问题。同时,它在评估代码生成和解决问题能力的 HumanEval 基...……更多
更多关于科技的资讯:
摘要:品牌战略对于企业品牌形成和竞争力的提升有着不可替代的作用,随着市场竞争越来越激烈,品牌战略成为企业争夺市场的一个有力武器
2025-11-28 06:49:00
坚定信心 勇挑大梁·产业新亮点丨河北特色产业集群共享智造故事(二):技术创新共享给安平丝网带来了什么
技术创新共享给安平丝网带来了什么——河北特色产业集群共享智造故事(二)11月21日,安平县高新区绿色产业园区,河北丝筘金属制品有限公司车间里
2025-11-27 08:12:00
海底捞、阿嬷手作等品牌接入,顺丰同城“独享专送”餐饮品类单量同比激增3倍
随着即时零售市场的持续扩张和竞争深化,消费者对即时配送的需求正从“送达”向“送好”升级,推动即时配送加速服务分层,以准时
2025-11-27 08:16:00
风格各异的手作店、静谧雅致的咖啡馆、独具韵味的民宿……如今,在河北很多城市的街头巷尾,小店经济快速发展,在促进消费、扩大就业
2025-11-27 09:02:00
济南海尔第九届感恩月重磅启幕 以真心回馈亿万用户信赖
鲁网11月27日讯11月26日,济南海尔感恩月启动会拉开帷幕。以更加诚挚的福利、更具力度的优惠,回馈用户多年来的信赖与支持
2025-11-27 11:05:00
伽利略智能仿生四足防爆机器人EX-1重磅亮相2025中国国际应急管理展览会 开创高危环境智能作业新纪元
2025年11月18日至20日,以"新质赋能 智慧应急"为主题的2025中国国际应急管理展览会在北京国家会议中心隆重举办
2025-11-27 11:47:00
2026中国特许加盟展全年档期正式发布:两展三会贯通全年,全球特许盛宴即将启幕
由全国性行业组织中国连锁经营协会主办的中国特许加盟展公布2026全年展会规划,将继续采取全国巡展模式,以"两展三会"的形式贯通全年
2025-11-27 11:47:00
中新经纬11月27日电 题:机器人去景点“上班”,游客的快乐从哪里来?作者 周慎 中国科学技术大学科技传播系副研究员、徽州人工智能研究院院长近日
2025-11-27 12:15:00
执“碳”为尺 绘就绿色物流新图景
鲁网11月26日讯冬日清晨的泰山脚下,山东省泰安市烟草专卖局(公司)送货员刘婷正用扫码枪轻触循环周转箱上的智能芯片,“您瞧
2025-11-27 12:15:00
中新经纬11月27日电 国务院新闻办公室27日举行国务院政策例行吹风会,介绍增强消费品供需适配性进一步促进消费政策措施有关情况
2025-11-27 12:20:00
海外科技媒体Tech Times:AI助手“灵光”让难题处理“如清风拂面般轻松”
蚂蚁集团11月18日推出的全模态通用AI助手“灵光”在国内迅速出圈后,引发海外科技媒体和社交平台的关注。美国知名科技媒体《科技时代》(Tech Times)报道称
2025-11-27 14:32:00
华为新品发布会藏惊喜!来华为浏览器解锁资讯获取新方式
2025年11月25日,华为Mate 80系列|Mate X7及全场景新品发布会如期而至,这场科技盛宴备受瞩目。在首发搭载的HarmonyOS 6操作系统与Mate 80新机的双重赋能下
2025-11-27 14:41:00
胜者智选:全人成长新范式 锚定教育变革核心
从体质强健到能力培养,从AI融合到成本理性化,教育行业正迈向健康底色、核心能力、创新素养的全人培养新阶段。在此背景下,胜者教育旗下核心品牌“胜者智选”以生态化布局回应时代需求
2025-11-27 14:43:00
网易云音乐“AI写歌”功能上线测试 普通人也能“玩”音乐
近日,网易云音乐旗下网易天音“AI写歌”趣味功能上线测试,旨在用AI降低音乐创作门槛,帮助音乐人更好捕捉灵感创意的同时
2025-11-27 14:44:00
智能引领 追求卓越 ——山东中烟青岛卷烟厂制丝车间山东烟叶专线生产运行纪实
一年,足以让一颗种子破土成苗,也足以让一条产线完成从“新生”到“成熟”的淬炼。站在山东中烟有限责任公司青岛卷烟厂制丝车间山东烟叶专线投产运行一周年的节点回望
2025-11-27 14:46:00