AI中国网 https://www.cnaiplus.com

10月23日,今天科大讯飞在一年一度的全球1024开发者节上,发布了讯飞AI云、认知中台等一系列技术成果,同时《1024计划》也升级到了4.0版本。
自2017年起,1024开发者节作为科大讯飞首个面向AI开发者的AI盛会,一直为全球各地的开发者们提供了交流、探索前沿科技成果的科技平台。
而今年的1024开发者节除了发布一系列新技术和产品外,还打造了一个线上AI生态展厅,以及面积达2000平米的线下互动展厅,包括华为、京东、顺丰速运和爱奇艺等各领域公司的主题展区,分享自身前沿科技及最新产品。
与此同时,科大讯飞董事长刘庆峰,科大讯飞高级副总裁、消费者事业群总裁胡国平,科大讯飞集团副总裁于继栋,科大讯飞AI研究院常务副院长刘聪等高管也来到现场,为大家分享了讯飞在提升自身AI服务能力上的探索,以及为全球开发者所提供的价值。
刘庆峰谈到,在AI从技术到应用落地过程中,有越来越多的领域红利都在实实在在地兑现,而判断AI红利是否到来的三大标准,一是那些看得见摸得着的应用场景;二是能够规模化推广的产品;三是能证明产品和服务创造社会价值的统计数据。
随着AI技术逐渐飞入寻常百姓家,科大讯飞作为国内AI语音领域的重要玩家,在不断加速AI与语音技术跨领域融合的同时,也将自身的AI能力落地到各行各业,为传统行业的AI转型和创新提供解决方案。
会后,在与少数媒体对胡国平的采访中,他也向分享了讯飞过去《1024计划》3.0的阶段性成果,和今年4.0计划转变的思路。
一、刘庆峰:全球技术竞争倒逼产业关注源头创新,AI产业发展的四大机遇
讯飞开放平台自2010年诞生以来,一直经历着翻天覆地的变化。
科大讯飞董事长刘庆峰谈到,十年前,它只有通用的语音合成和识别两种能力,应用终端数也不到10万个,开发团队仅十几支。
但如今,讯飞开放平台已经具备334种复杂的AI能力,应用终端数已超20亿个,开发者团队也已增长至150万支以上。
▲科大讯飞董事长刘庆峰
在刘庆峰看来,随着AI产业逐步走到拼落地的阶段,AI之于各行各业未来的发展具有重要的战略意义。
尤其在疫情之后,人们愈发真切地感受到AI在解决社会刚需问题上所存在的价值,以及巨大的社会需求。
刘庆峰认为,
一方面,我国政府在AI场景应用上的独特优势,以及人们在教育、医疗等需要补短板的民生场景,对AI应用都有了越来越多的需求。同时,今年新型冠状病毒肺炎疫情的蔓延,也让人们更快速地进入到数字生存时代。
另一方面,当下以美国为首的部分政客仍在煽动中美科技战,这进一步倒逼了我国AI行业更加关注源头核心技术的创新能力,以及科研和产品核心能力发展的基本规律。“这对中国未来人工智能三步走的战略至关重要。”刘庆峰说。
而在资本方面,从去年科创板开板以来,注册制的落实、证监会交易所审核的合规性、大量资金涌入等资本的松绑,都极大地助推着高新技术产业的发展,并使那些关注源头技术的创企,能够做出更长远的布局。
如今,在AI产业发展的红利之下,讯飞也已逐步构造了一个属于自己的AI产业生态。
尤其在过去一年里,
刘庆峰提到,AI生态已逐渐开启了万物互联和工程师的红利,同时创业者们对AI能力的应用也从为产品赋能转向为企业转型升级赋能。
同时,全球技术竞争的格局也在进一步倒逼产业必须在源头上进行创新,并做更好的布局。
基于此,
1、持续优化现有深度神经网络算法;
2、实现机器学习的半监督和无监督学习;
3、推进个性化,让AI能够满足每一个人的个人使用;
4、技术要进一步赋能数字生存时代。
除此之外,AI的情感计算和隐私保护也将是讯飞未来发展的两个重要方向。
“我们的AI技术还需要从深度神经网络进行推动,只有AI算法不断进步,持续关注数字生存时代人的需求,才能持续驱动技术进步。”刘庆峰说。
二、胡国平:1024计划全面升级,聚焦行业、城市及公益
今天,科大讯飞全面升级《1024计划》,在往年教育、生态和公益计划的基础之上进行迭代,发布面向行业的先导计划、赋能线下的城市计划,以及公益计划。
科大讯飞高级副总裁、消费者事业群总裁胡国平谈到,讯飞在服务开发者和企业的过程中发现,人们对AI的需求越来越场景化和行业化,以往通用型的单点技术和赋能方式,已经无法满足行业客户的综合诉求。
基于此,《1024计划》的先导计划将围绕行业+AI,从产品赋能走向行业赋能,为生态和应用的发展提供更契合的AI动力。
具体来说,先导计划包括面向行业的AI人才成长体系、AI开发者竞赛平台、支持大学生创业的“扶摇计划”、集成讯飞供应链优势并面向开发者与合作伙伴的“鲲池计划”、生态矩阵上新14大行业专题、升级行业专属服务体系等多项计划,进一步聚焦AI行业的生态发展。
科大讯飞将从三个方面,推动城市计划的落实。
城市赋能方面,讯飞将组织开放平台和讯飞研究院核心团队前往各个城市及当地企业,根据当地的产业状况和AI需求,形成针对城市的专属AI赋能方案。
目前,讯飞已在苏州、长春、天津和青岛等10个城市建立了双创基地。
本地化服务方面,讯飞将为特定城市中有重大需求保障的客户提供本地服务保障,并充分融入本地相关产业联盟,在建立广泛常态化链接的同时,让当地企业更便利地获得AI服务和品牌扶持等。
高校赋能方面,讯飞将在线下建立实体组织来推动产学研的融合发展,与高校共同建立AI社团,提供AI课程、开展AI竞赛。同时还开展AI实训营,为学生提供AI实习的课题和相关机会。
目前,全国已有5所高校与科大讯飞共同建立了AI社团,其余16所高校仍在沟通阶段。
为了支持国家脱贫攻坚,科大讯飞联合新华社策划了“听,中国反贫困斗争的声音”专项活动,改造了一辆搭载讯飞智医助理、教育学习机、普通话学习平台等丰富AI产品的大篷车,在安徽、云南、重庆三个城市的深度贫困地区开展巡展。
如今,我国的视听障人士共计已达7700万人,胡国平在现场再次承诺,讯飞听见APP和网站,将持续为所有听障用户提供终身免费转写服务。
与此同时,讯飞开放平台已上线了22459个无障碍应用,每天为视听障人群提供AI服务超5000万次,累计服务视听障人群超1087万人。
在会后的媒体采访环节中,胡国平告诉,去年讯飞发布的《1024计划》所提出的教育、生态和公益三方面计划,在过去一年已取得阶段性成果。
一方面,讯飞开放平台的开发者数量已从108万增长至157万,开发应用数也从70万增长到了93万,且增速亦不断增长;另一方面,通过教育计划,讯飞也明显感受到许多新手开发者能够在短时间内进行相关AI创新和实践。
而在生态方面,以往讯飞开放平台更多为中小开发者,但从去年开始有越来越多的企业开发者,以及传统行业开发者使用讯飞开放平台,通过平台的核心技术来解决自身痛点。
“人才正逐渐往行业和大企业进行一定程度的迁移,而我们与行业龙头一起赋能行业,挖掘和探索AI在相关行业中的应用,这是一种更加有效的落地方式。”胡国平谈到。
▲科大讯飞消费者事业群总裁
会上,胡国平还公布了讯飞开放平台联合艾瑞咨询共同发布的《2020中国人工智能API经济白皮书》。该白皮书针对中国人工智能API经济发展和趋势,提出了
1、疫情加速了企业数字化、智能化的转型,对AI开放平台形成利好;
2、AI开放平台作为连接市场参与者共创价值的桥梁,将成为各大技术厂商的必争之地;
3、AI开放平台目前处于快速发展阶段,未来仍将保持高速增长;
4、AI技术浪潮中,需要不断跨界融合创新,与各行业场景融合,共同赋能传统产业是必由之路。
白皮书相关数据显示,同时,目前AI开放平台仍处于初级阶段,未来也将继续保持高速增长,
三、于继栋:讯飞开放平台发布讯飞AI云,两大平台组成
作为全球开放的智能交互技术服务平台,讯飞开放平台从2010年正式上线时,就已集成语音合成、语音搜索、自然语言处理和语音听写等多项能力。
经过10年发展,如今讯飞开放平台已对外开放了334项AI能力及方案,覆盖230万的开发者和生态合作伙伴,累计支持的终端也已超28亿。
▲科大讯飞集团副总裁于继栋
科大讯飞集团副总裁于继栋谈到,得益于新基建发展对AI的需求,在今年疫情情况稳定后,讯飞开放平台上的开发者数量进入了一个新的快速增长阶段,连续三个季度的复合增长率已超53%。
其中,有越来越多的开发者通过开发AI应用,在工业生产、质检和安全性等方面进行落地。从侧面看,这也预示着人们逐渐进入了数字化生存的时代。
在于继栋看来,智能升级、数字转型、创新融合、企业数字化升级的最终归宿是智能化。
因此,如何以数据为引擎,通过AI推动企业的可持续发展,也是讯飞开放平台一直努力探索的方向。
基于此,于继栋在会上
于继栋介绍,
其中,磐石平台主要针对AI服务,能够对云主机集群进行103项专业优化,降低成本、提升效率。同时,它还拥有多重认证与加密,能够保障专属云用户的接入安全。
擎天平台则主要为企业客户提供数据标注、模型训练、引擎托管、服务编排等服务,以在全方位满足不同行业客户面对不同业务场景的AI需求。
经过两年半发展,讯飞开放平台已经引入了超过500家优质服务商,主要帮助上游企业客户解决他们在发展过程中遇到的场景定制化问题。
“但企业的数字化升级是一个非常巨大深远的过程,只有讯飞一家公司的努力是远远不够的。”于继栋谈到,讯飞也将与行业龙头一起打磨更符合场景化的方案、联合赋能行业,逐步帮助客户实施和云运营,帮助企业提升效能。
四、刘聪:讯飞科技树构建的五大方向
在科大讯飞AI研究院常务副院长刘聪看来,AI核心技术需要遵循源头化、体系化、可持续的发展,以在源头技术上保持先进。
因此,以基础算法为主干、以技术体系为生长方向、以场景理解为发展动力这三个要素,也是科大讯飞AI科技树的构筑过程,亦是讯飞核心技术发展的内在逻辑。
会上,刘聪分别通过语音识别、语音合成、图文识别OCR、行业认知智能等方面,为大家系统性地展示了科大讯飞的科技树全景。
▲科大讯飞AI研究院常务副院长刘聪
在刘聪看来,语音识别需要持续地挑战更加复杂的场景,实现从语音到声音、从单纯文字内容识别到音频全场景的解析。
在现场,刘聪展示了讯飞全场景音频解析的整体方案。该方案能够通过多分辨率特征,提取声音检测事件的方案,再结合序列训练对相似声音进行精细建模,以实现对笑声、音效等非语音和语音内容的分离。
其中,针对包含语音的有效内容,讯飞使用了基于富信息的语音降噪和分离方案,通过综合利用声音、文本、说话人等信息,使用多模态唇形、视线以及麦克风阵列的空间位置等信息进行联合建模。
目前,讯飞与合作伙伴在直播场景下的复杂任务识别效果,从60%提升到了85%。刘聪提到,未来这些相关技术将会在讯飞开放平台、讯飞听见等平台上线。
此外,刘聪还分享了讯飞在语音识别领域实现的个性化能力。
刘聪认为,语音合成技术的发展方向不能只以单纯追求自然度为目标,而是要追求用户可感知的技术,同时技术的呈现也需拥有更高的表现力。
也就是说,语音合成也需要实现从语音到声音的全场景音频合成。
在这一方面,讯飞基于自然语言理解技术,从文本中分析适合的情感焦点和角色相关信息,并通过语音的方式呈现出来,同时针对不同场景打造不同的背景音乐及音效,以呈现出一个全场景的合成音频。
而这一技术不仅能应用在交互场景,也将在小说合成、配音合成等方面实现更多的价值。
除此之外,情感语音合成、多模态合成技术也是讯飞科技树生长的重要方向。
在OCR识别领域,刘聪认为当下面向各种场景的文档类材料,如何用一套通用方法实现高精度的文档恢复是行业的刚需。
在这个过程中,OCR技术不仅要进行文字识别,还要结合文档中具有知识属性的内容形成一些绑定要素。
例如在识别发票时,除了要识别标题之外,还需要识别印章相关的数字内容、公司名称、纳税号等,这样才能实现进一步的业务优化。
但现阶段,在面对身份证、名片等典型识别需求时,这项技术的通用性和推广性仍不足。
为此,讯飞基于第4代OCR技术框架,结合图神经卷及网络等结构化分析技术,以及基于对抗生成网络的图文数据生成技术,较好地解决了这些通用问题。
目前,针对办公等一般场景的识别需求,讯飞OCR技术识别准确率可达到90%以上。
刘聪向大家分享了讯飞在多语种领域实现的两个突破。
一是针对多语种相关语言知识积累不足的问题,讯飞设计了基于相似性的统一端到端模型建模共性方案。
一方面,讯飞通过多语种统一的表征和混合建模,实现了跨语种信息共享,发挥语种之间的共性和互补性。另一方面,讯飞通过统一的端到端建模,降低了方案对专家知识和数据的依赖。
二是针对数据不足的问题,讯飞采用了数据增强训练技术。例如在合成训练中,除了专门的音库外,讯飞还应用了海量的无监督语音识别的结果来提升鲁棒性。
刘聪提到,在效果要求基本相同的情况下,讯飞这项技术对数据的要求下降了80%以上。
与此同时,讯飞也将开放60个语种的语音合成系统、69个语种的语音识别系统、56个语种的图文识别系统等多语种能力。其中,语音识别系统平均识别率超80%。
为了进一步推进认知智能落地,刘聪在现场发布了认知中台。
该中台包括讯飞多年的技术积累和各行业经验,能够降低问题定义的难度,大幅度提升场景定制的效率。
刘聪谈到,基于讯飞认知中台和相关工具,用户在解决常用认知过程中无需AI研究院,就能基本实现一个资深研究员成果80%以上的效果。同时,它的场景定义效率也提升50%以上。
在数据安全方面,讯飞认知中台支持全部流程的独立化部署及国产化。
认知中台也将在近期上线,未来讯飞也将持续开放更多产品和功能。
结语:AI落地浪潮背后,讯飞硬核AI技术发展加速
回顾今年的科大讯飞1024开发者节,不管是《1024计划》升级到4.0版本,还是讯飞AI云、认知中台等新技术的发布,我们不仅看到了讯飞在构建AI开发者生态、技术生态上的全方位探索和布局,同时在这之上,讯飞为整个行业发展所种下的AI科技树,也早已绿树成荫。
我们将视野拉至AI全行业,如今AI落地的抢位愈演愈烈,AI发展的红利也正逐渐涌入,而科大讯飞针对AI落地所推出的各类解决方案,也为行业健康有序的发展提供了新的思考方向。
但AI行业也并非一个“帝国”所能驾驭。未来,科大讯飞也将携手更多各行各业的开发者与合作伙伴,一同将AI片密林浇灌的更加茂盛。
AI中国网 https://www.cnaiplus.com
本文网址: