扫一扫分享
谷歌公司推出一种名为Gemini的新人工智能模型,声称该模型在一系列智力测试中的表现优于OpenAI的GPT-4模型和“专家级”人类。
Gemini 是包括 Google Research 在内的 Google 各团队间进行广泛合作的成果。它从一开始就被创建为多模态的模型,这意味着它可以归纳并流畅地理解、操作以及组合不同类型的信息,包括文本、代码、音频、图像和视频。
Gemini 也是我们迄今为止最灵活的模型,从数据中心到移动设备,它能够在所有设备上高效运行。其先进的功能将显著改善开发者和企业客户通过 AI 构建和扩展的方式。
Gemini已针对不同的应用创建了3个版本,分别是Nano、Pro和Ultra,它们的大小和功能均有所增加。
复杂多模态推理能力
该模型具有复杂多模态推理能力,可以同时识别文本、图像、音频、视频和代码五种信息。它能够发现大量数据中难以辨别的知识,因此能够更好地理解微妙的信息,并回答复杂的问题。这使得它特别擅长解释数学和物理等复杂学科的推理。
例如,Gemini 能够独立批改物理作业,在正确“读懂”题目、识别凌乱手写笔迹的同时,指出学生在解题过程中的错误,并给出正确答题步骤。通过图像和语音输入,Gemini可以指导做菜,并在不同阶段提出相应的建议。
编码能力
Gemini可以理解、解释和生成世界上最流行的编程语言(如Python、Java、C++和Go)的高质量代码。同时,Gemini还可以用作更高级编码系统的引擎。
识别交互能力
Gemini支持输入文本、图像、音频和视频,输出图像和文字。其多模态为原生多模态(natively multimodal),可以“无缝”理解、操作和组合不同类型的信息,拥有了强大的交互能力。
解决问题的能力
据谷歌介绍,从自然图像、音频、视频理解到数学推理,Gemini Ultra在32个常用的学术基准的30个上领先GPT 4。而在MMLU(大规模多任务语言理解)测试中,Gemini Ultra以90.0%的高分,成为第一个超过人类专家的模型。
MMLU测试包括数学、物理、历史、法律、医学和伦理等57个学科,旨在考察世界知识和解决问题的能力。
手机预览