• 我的订阅
  • 科技

Google推出全新人工智能模型Gemini 2.0 用途更为广泛

类别:科技 发布时间:2024-12-12 09:54:00 来源:cnBetaCOM

Google的下一个主要人工智能模型已经到来,以对抗来自 OpenAI 的新产品的夹击。本周三,Google 发布了 Gemini 2.0 Flash,该公司称其除文本外,还能原生生成图像和音频。 2.0 Flash 还可以调用第三方应用程序和服务,使其能够接入 Google 搜索、执行代码等。

Google推出全新人工智能模型Gemini 2.0 用途更为广泛

2.0 Flash 的实验版本将从今天开始通过 Gemini API 和 Google 的人工智能开发者平台AI Studio 和Vertex AI 提供。 不过,音频和图像生成功能仅面向"早期访问合作伙伴"推出,并将于 1 月份全面推出。

Google表示,在未来几个月内,它将为Android Studio、Chrome DevTools、Firebase, Gemini Code Assist等产品带来各种版本的 2.0 Flash。

第一代 Flash(1.5 Flash)只能生成文本,并不是为要求特别高的工作负载而设计的。 Google 表示,这种新模式更具通用性,部分原因在于它可以调用搜索等工具并与外部 API 进行交互。

产品主管图尔西-多希(Tulsee Doshi)在周二的发布会上说:"我们知道,Flash 在速度和性能之间取得了平衡,因此深受开发人员的欢迎。有了 2.0 版 Flash,它的速度一如既往,而且功能更加强大。"

Google推出全新人工智能模型Gemini 2.0 用途更为广泛

Google声称,根据自己的测试,2.0 Flash 在某些基准测试中的速度是该公司 Gemini 1.5 Pro 模型的两倍,而且在编程和图像分析等方面有了"显著"改进。 事实上,该公司表示,2.0 Flash 凭借其卓越的数学能力和"事实性",取代 1.5 Pro 成为 Gemini 的旗舰模型。

如前所述,2.0 Flash 可以生成并修改文本和图像。 该模型还能采集照片和视频以及录音,以回答相关问题(例如"他说了什么?)

音频生成是 2.0 Flash 的另一项主要功能,多希将其描述为"可操纵"和"可定制"。 例如,该模型可以使用针对不同口音和语言"优化"的八种声音之一来叙述文本。

她补充说:"你可以让它说得慢一点,也可以让它说得快一点,甚至可以让它说像海盗一样的话。"

目前Google没有提供 2.0 Flash 的图像或音频样本。 至少在撰写本文时,我们无法得知其质量与其他模型的输出相比如何。

Google 表示将使用其SynthID技术对 2.0 Flash 生成的所有音频和图像进行水印处理。 在支持 SynthID 的软件和平台上(即选定的 Google 产品),模型的输出将被标记为合成。

这是为了消除对滥用的担忧。 事实上,深度伪造是一种日益严重的威胁。 根据身份验证服务公司Sumsub的数据,从2023年到2024年,全球检测到的深度伪造增加了4倍。

2.0 Flash 的正式版本将于 1 月份发布。 但与此同时,Google将发布一个应用程序接口(API)--多模态实时应用程序接口(Multimodal Live API),以帮助开发人员创建具有实时音频和视频流功能的应用程序。

Google表示,通过使用多模态实时 API,开发人员可以创建实时、多模态的应用程序,并通过摄像头或屏幕输入音频和视频。 该 API 支持集成各种工具来完成任务,并且可以处理"自然对话模式",例如中断,这与 OpenAI 的 Realtime API 大体一致。

多模态实时 API 已于今天上午全面推出。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-12 11:45:06

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...,以数智赋能。同时,以智能制造为主攻方向,全力推动人工智能与实体经济的深度融合。通过通用大模型、数字孪生等革命性技术,实现制造全过程全要素的革新,从而引发产业模式和企业形态的
2024-01-20 00:19:00
人工智能模型在现实世界中的应用
一种采用自然语言模型的新方法正在扩大人工智能在边缘计算领域的应用。利用一种先进的人工智能(AI)技术,只需在现场布置极少数量的传感器,就能重建大量数据集,如海洋积温。这种方法利用
2024-01-08 16:37:00
Meta 发布全新 AI 模型 SeamlessM4T
...MetaPlatforms今日发布了一种能够翻译和转录数十种语言的人工智能模型——SeamlessM4T,可以让说不同语言的人更有效地进行交流
2023-08-22 23:33:00
2024中关村论坛年会 | 斯加鲁菲:未来人工智能将在五个方面变得更加有用
当人工智能的飞速发展站在了新的转折点上的时候,当我们不得不和人工智能来相伴每分每秒的时候,我们的人类将会迎来怎样的未来?4月25日,硅谷人工智能研究院院长、《硅谷百年史》的作者皮
2024-04-26 11:24:00
通过深度合成服务算法备案,九方智投乘风破浪,智能投顾正当其时
人工智能发展初期,行业混沌,法律法规尚不完善,存在滥用人工智能侵犯个人名誉权及肖像权、个人隐私信息泄露等隐患。为了规范互联网信息服务深度合成活动,弘扬社会主义核心价值观,维护国家
2024-05-24 16:01:00
来,认识下大模型时代欧美最夯的18只AI独角兽
...和VizCTP平台,两者均经过FDA批准并在美国上市。VizLVO使用人工智能自动检测可疑脑卒中患者大血管闭塞(largevesselocclusion
2023-07-21 15:35:00
本文转自:中国医药报人工智能医疗器械是指基于“医疗器械数据”,采用人工智能技术实现其预期用途(即医疗用途)的医疗器械。感知技术是人工智能医疗器械的关键技术之一。基于医疗器械采集产
2023-04-20 07:09:00
... (记者 孙自法)国际知名学术期刊《自然》最新发表一篇人工智能研究论文称,研究人员研发出一个人工智能(AI)模型,能即时翻译多达101种语言的语音和文本
2025-01-16 22:36:00
科大讯飞副总裁刘聪:认知智能大模型的技术阶跃及颠覆式影响|WISE2023颠覆AIGC产业发展峰会
...值得持续关注。认知大模型展现出的智能涌现推动了通用人工智能的技术阶跃。微软研究院曾发表过一篇名为《通用智能的星星之火》的论文,列举分析了GPT-4的多种能力,可以看出模型和数
2023-05-29 13:55:00
更多关于科技的资讯: