2024-10-02 19:40
热度 0

OpenAI发布更新,实现实时跨音频、视觉和文本推理

摘要
神经日报 10月2日消息,据Cointelegraph报道,OpenAI在10月进行了四项重要更新,提升了AI模型的对话能力和图像识别性能。首项重大更新是实时API,允许开发者通过单个提示创建人工智能生成的语音应用,实现类似ChatGPT高级语音模式的自然对话。此前,开发者需要拼接多个模型来实现此类体验,语音应用程序也通常存在较高延迟。借助实时API的流媒体功能,开发者现在可以实现即时、自然的交互

神经日报 10月2日消息,据CoinTELEgrapH报道,OpenAI在10月进行了四项重要更新,提升了AI模型的对话能力和图像识别性能。首项重大更新是实时API,允许开发者通过单个提示创建人工智能生成的语音应用,实现类似ChatGPT高级语音模式的自然对话。此前,开发者需要拼接多个模型来实现此类体验,语音应用程序也通常存在较高延迟。借助实时API的流媒体功能,开发者现在可以实现即时、自然的交互,类似语音助手的体验。

此外,OpenAI还推出了图像微调工具,增强AI对图像的理解能力,提升视觉搜索和物体检测功能。开发者可以通过人类反馈优化AI生成的响应。其他更新还包括“模型蒸馏”和“提示缓存”,帮助小型模型向大型模型学习,并减少开发成本和时间。预计OpenAI的收入将在2025年增至116亿美元,高于2024年的37亿美元。

声明:文章不代表神经日报观点及立场,不构成本平台任何投资建议。投资决策需建立在独立思考之上,本文内容仅供参考,风险自担!当前页面地址:https://www.nervedaily.com/kuaixun/39202.html
回顶部