谷歌于北京时间 12 月 11 日,推出了 Gemini 2.0,它具有先进的多模态功能,包括改进的速度、质量、代理能力以及用于物体识别和定位的实验性边界框检测——该模型可以看到、听到和说话,但在函数调用任务中会受到声音音频的影响,API 支持多模态,新模态包括图像生成和可控的文本转语音。

Gemini 2.0 资源集合

免费试用,调用 Gemini API >> API易 https://www.apiyi.com

Gemini 2.0 相关特性

多模式实时 API:

该模型支持使用文本、音频和视频进行低延迟实时交互、实现无缝通信的会话内存、语音活动检测、函数调用、代码执行、Google 搜索集成,以及看、听、说的能力,但音频输入和输出的函数调用能力会有所降低

速度和质量:

与 Gemini 1.5 Flash 相比,Gemini 2.0 提供了更快的首次令牌时间 (TTFT),并在大多数基准测试中提供了更高的性能

Agentic 功能:

增强功能包括多模式理解、高级指令跟踪、编码功能以及针对动态应用程序使用的更有效的函数调用

新模式:

该模型引入了原生图像生成和可控的文本转语音功能,提供了扩展的交互选项和创意功能(不允许生成人物和编辑上传的人物图像)

边界框检测:

Gemini 2.0 包含实验性的边界框检测功能,用于图像和视频中的物体识别和定位,支持可定制的指令和规范化的坐标输出,可无缝集成到应用程序中

多工具使用:

Gemini 2.0 支持同时启用多个工具,允许模型自主决定使用哪些工具来执行代码、执行搜索或在多模式交互中调用用户定义的函数等任务


 

API 易作为专业的 API 服务商,一直以来都可以提供可靠的 Gemini API 调用资源,

免费试用,调用 Gemini API >> API易 https://www.apiyi.com

类似文章