编码人声:在 GPT-4o 释放完整能力前,听听实时多模态 AI 创业者的一手经验

脱口秀 津津乐道播客 第574期 2024-05-28 创建 播放:1021

介绍: 5 月中旬 GPT-4o 的发布,让人与 AI 的交互,从对话框的文本交流加速推进到了音视频多模态的实时互动。
本期节目,我们邀请到实时互动 AI 创业者史业民。他结合了自己的一手研发经验,深度分析了 GPT-4o 在多模态、实时交互、情感语音的新能力和能力边界,分享了 GPT-4o 正在催生的潜在场景和新机会。史业民还从开发者视角,提出了面向...

介绍: 5 月中旬 GPT-4o 的发布,让人与 AI 的交互,从对话框的文本交流加速推进到了音视频多模态的实时互动。
本期节目,我们邀请到实时互动 AI 创业者史业民。他结合了自己的一手研发经验,深度分析了 GPT-4o 在多模态、实时交互、情感语音的新能力和能力边界,分享了 GPT-4o 正在催生的潜在场景和新机会。史业民还从开发者视角,提出了面向开发者的 GPT-4o 和面向用户的 ChatGPT 能力可能存在区别的提醒,以及在开发多模态 AI 产品时需要注意到的技术细节。
从对话框到音视频,多模态的实时互动 AI 已成趋势。希望本期节目能对你有所启发。

  • 音乐开放平台
  • 云村交易所
  • X StudioAI歌手
  • 用户认证
  • AI 免费写歌
  • 云推歌
  • 赞赏

廉正举报 不良信息举报邮箱: 51jubao@service.netease.com

互联网宗教信息服务许可证:浙(2022)0000120 增值电信业务经营许可证:浙B2-20150198 粤B2-20090191-18  浙ICP备15006616号-4  工业和信息化部备案管理系统网站

网易公司版权所有©1997-2025杭州乐读科技有限公司运营:浙网文[2024] 0900-042号 浙公网安备 33010802013307号 算法服务公示信息