OpenAI 推出更快、改进的 GPT-4o AI,能够使用音频、图像和文本进行聊天

OpenAI 推出了一种响应速度更快、改进的 GPT-4o(或全能)AI 模型,能够使用音频、图像和文本进行聊天以进行输入和输出。值得注意的是,除了广泛使用的英语和中文外,人工智能还显着改善了多种语言的语音识别。对于开发人员来说,GTP-4o 型号的价格是 GPT-4 Turbo 的一半,速度是 GPT-4 Turbo 的两倍。

ChatGPT 或 CoPilot 等 AI 聊天机器人使用的 AI 模型已经过数百万甚至数十亿个输入文件的训练,包括音频、图像和文本。通过这样做,人工智能学会了识别所有输入之间的某些模式和联系。例如,如果人工智能看到“第一修正案”,它很快就会知道它与“言论自由”主题有关。当一个模型后来被问及“言论自由”时,它会想起“第一修正案”作为一个相关元素。

ChatGPT 在 OpenAI 模型上运行,这些模型自成立以来多年来一直在逐步改进。与Microsoft CoPilot和Google Gemni等竞争的AI模型一起,ChatGPT可以回答一般问题,解释主题,总结文本,撰写论文,并在提示时做更多事情。人工智能模型的知识和技能来自它所训练的数十亿条数据,它正确回答提示的能力取决于它使用的算法和它收到的模型调整。

最显着的改进是其语音识别准确性。尽管之前的人工智能模型在英语和中文中相当不错,但它们在非洲、东欧、中东和南亚语言中表现不佳。GPT-4o 在某些语言中将识别性能提高了约 50%,但仍有很长的路要走。例如,南亚语言的单词错误率(WER)仍然约为22%,即每5个单词中就有1个。值得注意的是,西欧和中日韩语言的 WER 仍然是 3-5%,即每 20 个单词中大约有 1 个单词错误。这个成绩仍然落后于初中年龄的孩子。(可悲的是,GPT-4o 仍然不了解狗。

在推理方面,GPT-4o 在大多数测试中比竞争模型提高了 4%,在两次测试中被击败了多达 2.6%。这表明,仅向AI提供更多输入数据并不能提高AI的推理能力,因此需要研究其他方法。在音频翻译领域,GPT-4o 几乎没有改进 Google Gemni 的性能,这表明了这一点。

在回答高中生水平的标准化考试问题方面,GPT-4o 仅在南非荷兰语、英语和意大利语方面取得了 B 级(80%+ 准确率),而在其他方面的表现与中文等其他语言的 C 级学生一样。人工智能在需要参考视觉图形或图表来回答问题的问题方面做得更糟,而不管语言如何。

在视觉感知领域,例如理解图表,GPT-4o 在七项测试中比竞争对手的 AI 模型提高了 2% 到 10.8%,但仅在两项测试中达到了 A 级水平(高于 90%)。数学仍然是对人工智能能力的一个很好的测试,人工智能在MathVista测试中以63.8%的分数失败了,这些问题可以由高中毕业生回答。

该聊天机器人今天可供免费和付费用户使用,但是,语音模式受到反语音克隆等安全策略的限制。额外的安全护栏也极大地限制了人工智能在偏见、公平、错误信息、社会心理学、网络安全等领域的输出能力。虽然减轻人工智能风险有助于减少一些不良方面,但它们也会增加其他方面,例如无法像正常人一样回复。某些主题和想法像严厉的审查制度一样被阉割,没有追索权,阻止GTP-4o用触发回复回复提示。

想要测试 GPT-4o 的读者可以立即注册一个免费帐户。有兴趣的开发人员可以从亚马逊上的这本书中学习如何使用 GPT-4 创建应用程序。只想享受阳光、拍摄度假照片并通过语音提示找到前往当地小酒馆的路线的懒惰者可以在亚马逊上购买带有 Meta AI 的 Ray-Ban 眼镜。

在多语言 LibriSpeech (MLS) 测试中,GPT-4o 在音频翻译性能方面略微提高了 Google Gemni 的性能。(来源: OpenAI)

  在多语言 LibriSpeech (MLS) 测试中,GPT-4o 在音频翻译性能方面略微提高了 Google Gemni 的性能。(来源: OpenAI)

尽管获得了数十亿美元的资金,但 OpenAI GPT-4o 在非洲和东南亚语言的音频语音识别方面仍然很差。(来源: OpenAI)

  尽管获得了数十亿美元的资金,但 OpenAI GPT-4o 在非洲和东南亚语言的音频语音识别方面仍然很差。(来源: OpenAI)

来源:IT时代网

IT时代网(关注微信公众号ITtime2000,定时推送,互动有福利惊喜)所有原创文章版权所有,未经授权,转载必究。
创客100创投基金成立于2015年,直通硅谷,专注于TMT领域早期项目投资。LP均来自政府、互联网IT、传媒知名企业和个人。创客100创投基金对IT、通信、互联网、IP等有着自己独特眼光和丰富的资源。决策快、投资快是创客100基金最显著的特点。

相关文章
OpenAI 推出更快、改进的 GPT-4o AI,能够使用音频、图像和文本进行聊天

精彩评论