📈 2025,认真投资!InvestingPro五折优惠,迈出成功投资的第一步!领取优惠

OpenAI推出高级语音模式 部分Plus用户将先行试用

发布时间 2024-7-31 18:14

7月31日,OpenAI在其官方媒体账号上表示,开始向一小部分ChatGPT Plus用户推出高级语音模式。

当前,实时响应和可打断对话是公认的语音助手技术难点。而据OpenAI介绍,其推出的高级语音模式可以提供更自然的实时对话,允许用户随时打断,并能感知和响应用户的情绪。
此前,ChatGPT的语音对话使用了三个独立的模型:一个用于将用户的语音转换为文本,GPT-4理解和处理文本的提示,然后再由第三个模型将文本转换为语音。但GPT-4o是单一多模态模型,能够在没有辅助模型帮助的情况下处理这些任务,从而显著降低对话的延迟。
OpenAI还声称GPT-4o可以感知用户声音中的情绪语调,包括悲伤、兴奋或歌唱。
OpenAI表示,虽然最开始只有一小部分用户可以参与高级语音模式的测试,但该公司计划逐渐扩大测试范围,并计划在秋季让所有ChatGPT Plus用户都能使用。
ChatGPT从去年9月就开始支持语音对话,并于今年5月展示了更高级的版本。不过5月份展示的这个版本曾引发一个版权风波。
今年5月,美国著名演员斯嘉丽·约翰逊(Scarlett Johansson)表示,ChatGPT的语音模式中有一款名为Sky的声音与她的声音出奇相似,她对此感到震惊和愤怒。
而且,根据斯嘉丽的说法,去年OpenAI的首席执行官山姆·阿尔特曼(Sam Altman)曾联系她为ChatGPT配音,但她因个人原因拒绝了。
在斯嘉丽的法律代表联系OpenAI之后,OpenAI表示,“出于对约翰逊女士的尊重,我们已暂停在我们的产品中使用Sky的声音。”

或许是担心类似的版权风波再次上演,OpenAI在宣布推出高级语音模式的帖子下面补充道:“我们用100多名外部红队人员测试了GPT-4o的语音功能,涉及45种语言。为了保护个人隐私,我们对模型进行了训练,使其只能以预设的四种声音说话。”
高级语音模式将仅限于ChatGPT的四种预设声音——Juniper、Breeze、Cove和Ember,这些声音是与付费配音演员合作制作的。
OpenAI还表示,其已经构建了系统来阻止ChatGPT输出除上述四种声音之外的声音,并实施了防护措施来屏蔽对暴力或版权内容的请求。

最新评论

正在加载下一篇文章……
风险批露: 交易股票、外汇、商品、期货、债券、基金等金融工具或加密货币属高风险行为,这些风险包括损失您的部分或全部投资金额,所以交易并非适合所有投资者。加密货币价格极易波动,可能受金融、监管或政治事件等外部因素的影响。保证金交易会放大金融风险。
在决定交易任何金融工具或加密货币前,您应当充分了解与金融市场交易相关的风险和成本,并谨慎考虑您的投资目标、经验水平以及风险偏好,必要时应当寻求专业意见。
Fusion Media提醒您,本网站所含数据未必实时、准确。本网站的数据和价格未必由市场或交易所提供,而可能由做市商提供,所以价格可能并不准确且可能与实际市场价格行情存在差异。即该价格仅为指示性价格,反映行情走势,不宜为交易目的使用。对于您因交易行为或依赖本网站所含信息所导致的任何损失,Fusion Media及本网站所含数据的提供商不承担责任。
未经Fusion Media及/或数据提供商书面许可,禁止使用、存储、复制、展现、修改、传播或分发本网站所含数据。提供本网站所含数据的供应商及交易所保留其所有知识产权。
本网站的广告客户可能会根据您与广告或广告主的互动情况,向Fusion Media支付费用。
本协议的英文版本系主要版本。如英文版本与中文版本存在差异,以英文版本为准。
© 2007-2025 - Fusion Media Limited | 粤ICP备17131071号 | 保留所有权利。