0次浏览 发布时间:2025-05-21 15:36:00
本文来源:时代周报 作者:朱成呈
自2022年底ChatGPT问世以来,全球掀起了一场前所未有的人工智能大模型训练浪潮。短短数年间,大模型数量激增,参数规模与功能能力持续扩展,推动AI技术加速突破。
与此同时,行业正在从通用模型走向垂直场景定制,越来越多的厂商开始探索面向特定行业需求的定制化解决方案,以应对复杂多样的应用环境。
麦肯锡全球研究院预计,生成式人工智能将在全球范围内创造高达7万亿美元的新增经济价值,整体提升人工智能的经济效益约50%。其中,中国市场的潜在贡献可达2万亿美元,约占全球总量的三分之一。
在这场变革中,交互式AI作为人与技术之间的桥梁,正成为释放这一潜力的关键。《德勤交互式人工智能白皮书》指出,交互式AI在提高运营效率、降低劳动成本、提高服务质量、重塑工作方式等方面,展现出显著价值。
成立于2005年的声通科技(02495.HK),是国内较早聚焦企业级交互式AI解决方案的技术企业。近二十年来,声通科技持续在融合通信与人工智能领域布局,并将其有效融入多个实际场景中。
刘艺涵 声通科技副总经理兼董事会秘书 受访者供图
“AI的真正价值,不在于参数的堆砌,而在于是否能落地产业解决实际问题。”声通科技副总经理兼董事会秘书刘艺涵在接受时代周报专访时表示,“我们坚持‘小步快跑、深度突破’的策略,从企业用户的真实需求出发,打造高效、灵活且可快速落地的垂直场景解决方案。”
需求导向推动业务落地
时代周报:声通科技定位为交互式人工智能市场的提供商,在AI技术快速演进的背景下,声通科技如何保持自身产品和技术的进步?
刘艺涵:面对AI技术的快速迭代,声通科技坚持以“技术创新驱动产品领先、需求导向推动业务落地”为核心策略。
我们的技术选择更像是一辆“直达用户目标,不走冗余路线”的小车,对客户来说部署效率高、投入性价比强。这一思路也体现在公司的商业化结果上。以2022年为例,老客户贡献的收入占比达到70%,反映了公司在企业级领域的高度认可与客户粘性。
同时,我们积极推进多模态融合技术研发,通过“类人感知”使AI具有更全面的世界理解和更高的输出可信度。我们专注于企业可量化ROI的场景应用,避免无效的算力竞赛,帮助客户实现显著的经济效益和高可解释性解决方案。
时代周报:声通科技强调“融合通信+AI+产品引擎”的全栈架构,这种架构在实际应用中相较于传统解决方案有何不同?
刘艺涵:相比只专注AI或单一通信技术的企业,声通科技的融合通信背景深厚,并结合自研AI模型,能够根据客户需求灵活集成通信与AI功能。例如,在多人对话时,单纯依靠声纹识别受限于环境噪音、音质变化等问题。而我们通过将通信数据(如IP地址、设备信息)与AI模型结合,可更准确地识别会话各方,提高整体识别的可靠性和适用范围。
在端到端一体化体验方面,我们的交互式AI方案覆盖声音采集、语音识别、语义理解、知识图谱检索、语音合成等全流程,通过自研算法,端到端响应速度可达百毫秒级,提升了用户交互的流畅性和实时性。
此外,在多人会话及复杂语境下,系统能够高精度识别多地方言及主流语言。例如,河南安阳方言识别准确率已达95.2%。这种能力,特别适用于涉及多方、多地区及多语言的客户场景,如智能客服、远程会议系统等。
综合来看,全栈式解决方案在交付与运维过程中,能有效降低15%至30%的系统集成及运营成本,简化供应链管理,提升系统协调效率。
时代周报:在车联网(V2X)场景中,声通科技的解决方案如何与主机厂或交通管理系统实现深度融合?
刘艺涵:声通科技构建了车端、路端与云端深度协同的车路云一体化智能网联解决方案,实现了与主机厂以及交通管理系统的高效融合。
在车端,公司与金龙、东风等主机厂深入合作,将具备AI大模型智能决策能力的驾驶系统集成到车辆中,显著提升了车辆的自主感知和环境预测能力。相比于传统单一的路测感知设备,我们的系统能够有效突破其应用局限,尤其在复杂路段和特殊交通场景下表现尤为突出。目前,车端的单车驾驶技术主要由声通合作伙伴洛必德以及其他厂商提供。
在路端,我们针对重点区域和典型路段,构建了高精度三维建模与多维数据融合的智能感知体系。路端设施不仅可实时采集并分析综合交通信息,还能与经过的智能车辆进行互动联动,为交通系统和车辆提供协同决策支持,助力城市交通智能化管理。
在云端,我们依托自研大模型,实现车辆、路端与云端的数据实时互通。云平台可基于动态交通数据与实时场景需求,进行智能分析与决策,并将结果快速下发至车端和路端,实现全局最优的交通调度和管理。
通过这一体系,声通科技能够与主机厂实现软硬件一体化适配,与交通管理部门进行数据和决策层面的深度协同,有效提升交通效率与行车安全,推动智能网联汽车在实际场景中的大规模落地与应用。
AI需要可信
时代周报:公司目前的人工智能能力涵盖语音识别、情绪识别、知识图谱等,那么自研与外采模型的比例大致如何?未来是否计划开发自主的大语言模型或其他基础模型?
刘艺涵:目前,公司的核心交互式人工智能技术,包括语音识别、语义理解、语音生成、情绪识别和知识图谱等均为公司自研,以保证核心技术可控性和安全性。
在AI技术研发方面,我们坚持走可信AI的技术路线,以满足政府及企业级客户在实际应用场景中对于准确率的严格要求,因此公司并没有直接采用市面上的大模型技术,而是采用大模型增强知识图谱的技术方案,有效解决了大模型的幻觉问题,使得推理过程具有逻辑白盒性,实现精准问答与生成,并可以根据用户反馈进行修正和调优。整体部署成本比较低,更适合政府及企业级客户私有化部署的需求。
时代周报:面对银行、保险、证券等客户的高合规与高敏感数据场景,声通科技如何确保数据安全、模型解释性与系统可靠性?
刘艺涵:我们的系统部署全部本地化,确保客户数据不出本地环境。同时,结合严格的访问权限管理、数据加密与审计机制,全面保障数据安全与合规。在模型可解释性方面,通过多模型融合和知识图谱技术,让AI的每一步推理过程都可追溯、可验证。无论是大模型还是小样本、零样本模型,均支持可视化决策路径,便于业务人员理解和监管。
系统方面,我们构建了高度模块化、可扩展架构,支持7×24小时运行。通过全流程容灾备份与实时监控,确保业务连续性与高可用性。同时,在实际应用中不断结合多模态(如文本、音频、视频、传感数据等)信息,进一步提升系统的认知广度和处理准确率,从而为金融客户提供值得信赖的智能服务。
时代周报:当前不少城市强调“从感知走向认知”的智能治理理念,公司如何通过语音交互、情绪识别等技术支持政府实现智能化决策与服务优化?
刘艺涵:我们积极探索AI大模型在12345政务热线的创新应用,基于开源大模型,融合LLM大语言模型、UIE要素提取、机器学习、RAG检索增强生成等技术,形成六大创新应用:坐席助手、智能分派、智能校对、动态预警、专题分析、智能专报。通过运行服务和学习优化机制,持续提升智能化效果。
时代周报:目前声通科技的业务重心仍在企业级市场,但随着交互式AI应用的普及,是否有布局C端产品(如智能语音终端、家庭助手、教育硬件等)的计划?是否会参考科大讯飞在学习机等领域的经验,切入消费级智能硬件市场?
刘艺涵:我们已经推出以C端为终端客户的AIGC(生成式人工智能)“旅图拍”AI拍照一体机,游客不仅可以通过AI拍照机拍摄高质量的个性化照片,还能实时生成与景区文化特色相关的多媒体内容,进一步增强游客对景区的认同感和记忆点。
同时,该设备可为景区运营方提供精准的数据分析支持,包括游客行为偏好和热点区域分布,从而优化景区管理和资源配置,提升整体运营效率。