谷歌于北京时间 12 月 11 日,推出了 Gemini 2.0,它具有先进的多模态功能,包括改进的速度、质量、代理能力以及用于物体识别和定位的实验性边界框检测——该模型可以看到、听到和说话,但在函数调用任务中会受到声音音频的影响,API 支持多模态,新模态包括图像生成和可控的文本转语音。
Gemini 2.0 资源集合
- 官方文档资源 https://ai.google.dev/gemini-api/docs/models/gemini-v2
- 官方博客介绍 https://developers.googleblog.com/en/the-next-chapter-of-the-gemini-era-for-developers/
免费试用,调用 Gemini API >> API易 https://www.apiyi.com
Gemini 2.0 相关特性
多模式实时 API:
该模型支持使用文本、音频和视频进行低延迟实时交互、实现无缝通信的会话内存、语音活动检测、函数调用、代码执行、Google 搜索集成,以及看、听、说的能力,但音频输入和输出的函数调用能力会有所降低
速度和质量:
与 Gemini 1.5 Flash 相比,Gemini 2.0 提供了更快的首次令牌时间 (TTFT),并在大多数基准测试中提供了更高的性能
Agentic 功能:
增强功能包括多模式理解、高级指令跟踪、编码功能以及针对动态应用程序使用的更有效的函数调用
新模式:
该模型引入了原生图像生成和可控的文本转语音功能,提供了扩展的交互选项和创意功能(不允许生成人物和编辑上传的人物图像)
边界框检测:
Gemini 2.0 包含实验性的边界框检测功能,用于图像和视频中的物体识别和定位,支持可定制的指令和规范化的坐标输出,可无缝集成到应用程序中
多工具使用:
Gemini 2.0 支持同时启用多个工具,允许模型自主决定使用哪些工具来执行代码、执行搜索或在多模式交互中调用用户定义的函数等任务
API 易作为专业的 API 服务商,一直以来都可以提供可靠的 Gemini API 调用资源,
免费试用,调用 Gemini API >> API易 https://www.apiyi.com