最新! Gemini 1.5 Pro: 现已在 180 多个国家/地区发布;提供本地音频理解、系统说明、JSON 模式等功能!-应用

时间:2024-04-11 07:20:32

利用音频和视频模式开启新的应用案例

Gemini团队正在不断推进Gemini 1.5 Pro模型的功能升级,他们正在积极扩展其输入模式,以便更好地整合Gemini API以及Google AI Studio中的音频(语音)理解功能。这一改进将极大地丰富模型的输入类型,提高其在多样化场景下的适应性和应用范围。

此外,针对在Google AI Studio中上传的视频内容,Gemini 1.5 Pro现在具备了对图像(帧)和音频(语音)数据进行综合推理的能力。这意味着模型能够从视频资料中提取和理解更加丰富和复杂的信息,为用户提供更加精准和深入的分析结果。

图片