2024-10-02 19:40

OpenAI发布更新，实现实时跨音频、视觉和文本推理

摘要

神经日报 10月2日消息，据Cointelegraph报道，OpenAI在10月进行了四项重要更新，提升了AI模型的对话能力和图像识别性能。首项重大更新是实时API，允许开发者通过单个提示创建人工智能生成的语音应用，实现类似ChatGPT高级语音模式的自然对话。此前，开发者需要拼接多个模型来实现此类体验，语音应用程序也通常存在较高延迟。借助实时API的流媒体功能，开发者现在可以实现即时、自然的交互

神经日报 10月2日消息，据CoinTELEgrapH报道，OpenAI在10月进行了四项重要更新，提升了AI模型的对话能力和图像识别性能。首项重大更新是实时API，允许开发者通过单个提示创建人工智能生成的语音应用，实现类似ChatGPT高级语音模式的自然对话。此前，开发者需要拼接多个模型来实现此类体验，语音应用程序也通常存在较高延迟。借助实时API的流媒体功能，开发者现在可以实现即时、自然的交互，类似语音助手的体验。

此外，OpenAI还推出了图像微调工具，增强AI对图像的理解能力，提升视觉搜索和物体检测功能。开发者可以通过人类反馈优化AI生成的响应。其他更新还包括“模型蒸馏”和“提示缓存”，帮助小型模型向大型模型学习，并减少开发成本和时间。预计OpenAI的收入将在2025年增至116亿美元，高于2024年的37亿美元。

声明：文章不代表神经日报观点及立场，不构成本平台任何投资建议。投资决策需建立在独立思考之上，本文内容仅供参考，风险自担！当前页面地址：https://www.nervedaily.com/kuaixun/39202.html