OpenAI于近期发布第三代文生图大模型DALL·E 3,可以在ChatGPT上加载使用;随后,Meta推出AnyMAL,同样能够理解图片并可生成文本回应。一系列文生图产品的推出,使得多模态热度大增。
AI大模型生态正向纵深演化。纯文本交互已经不能满足智能感知的全部需求,还需要结合音频、视觉、图片等形式。逐鹿大模型的互联网巨头及科技公司加紧开发多模态应用,进一步释放AIGC生产力。
创新算法底层逻辑
“所有行业都值得用AI重做一遍”,在大模型对各行各业进行颠覆性重构的路上,面对不同场景的交互需求,除了传统的文本之外,还需要云服务厂商将其模态应用向图片、语音、视频、代码等形式转化。
这个过程绝非易事。看似简单的交互,背后彰显的是多个AI技术的综合能力。
其中一大难题就是每种模态都具有特定的特征提取和分析方法,这需要创新算法和技术来处理不同模态间的数据。以视频形态来说,市面上一直缺少良好的方法充分理解视频场景,所以很多产品都只能按照某种固定逻辑生成,无法真正理解视频元素的含义。
日前,微软与OpenAI就ChatGPT5交流谈到,OpenAI将攻克的一大目标是通过对于算法底层逻辑的融合、创新,让大模型能够充分理解视频内容以及各角色主体之间的关联,从而能够按照特定语境生成深层次的视频内容。
再以音频形态而言,不同于视频重在对于多维信息的把握,音频交互更强调对情感、意图的充分掌握,由此语音识别的关键技术,是要充分捕获情感、音色甚至是方言,从中准确地抓取关键信息。
在音频-文本的交互领域,国内走在前沿的是百融云创。其自研的智能语音机器人ChatBOT基于Transformer架构搭建算法模型,对于语音识别的准确率达99%以上,能够实现“真人级”互动体验。同时,ChatBOT不仅仅是对话机器人,而是一个帮助实现端到端结果交付的智能体。ChatBOT直接关联商业机构KPI,可以助力商业机构实现资产运营和用户焕活流程的自动化。
而除了算法层面外,百融云创相关人士表示,多模态的智能交互对于模型的工程架构、响应速度、资源配置等均提出了更高要求,以文本-语音交互为例,需要依托深刻的行业理解沉淀出高质量配对的语料,才能实现流畅、准确的用户交互。
率先破局“AI辅助研发”
随着大模型进入拼落地、拼应用的下半场,为了让AI技术更加融入千行百业,多模态领域势必会以更快的速度发展革新。
目前来看,多模态的主流构建思路并不是重新训练一个大模型,而是在已经训练好的大语言模型中“嵌入”图像理解、语音识别等技术,也就是通过引入多模态的数据集来攻克跨领域的技术难点。例如,百融云创的产业大模型——BR-LLM便结合了NLP(自然语言处理)、智能语音等技术。
也有一些科技公司尝试基于特定需求直接训练多模态基础模型。但不论采取怎样的方式,毫无疑问大模型生态下半场已经打开。业内人士认为,随着模型能力的增强,AI应用范围将不再局限于单一功能或者单个产品,而是会扩围到更广阔的应用场景。在这样的背景下,能否快速、高效地将技术产品化,料成为决胜未来的关键因素。
此前,为了让AI技术更加深入赋能垂直场景,百融云创优化原有机器学习平台ORCA,将其与生成式AI理念紧密结合,形成的全新产品ORCA-GPT可以利用BR-LLM的代码生成能力,极大地降低模型产品开发部署的周期和成本。
同时,伴随着与多模态发展相关的全新研究方向——“AI for Science”(AI辅助研发)逐渐崭露头角,百融云创率先捕捉到这一趋势,依托BR-LLM基座,于近期推出了一款全新智能代码生成助手——BR-Coder。
“BR-Coder将极大地提升程序员的开发效率,助力商业机构研发提质增效。”百融云创专家称,BR-Coder不仅能生成研发代码,还可以用于自动生成测试用例和单元测试、解答技术问题,在保障企业数据资产安全的同时,提升模型生成代码的一次采用率。展望后续,BR-Coder会进一步增强与编译环境的交互,为开发者提供更为全面和便捷的编程体验。
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。