1本年度报告摘要来自年度报告全文,为全面了解本公司的经营成果、财务状况及未来发展规划,投资者应当到网站仔细阅读年度报告全文。
2023年,公司营业收入较去年同期下滑35.33%,扣非前后归母净利润均为负数。报告期内,受境外部分客户进行阶段性裁员、业务方向及研发节奏周期性调整等影响,部分客户2023年预算释放进度放缓,同时叠加2023年上半年数据出境相关法规落地实施的阶段性影响,公司境外收入同比大幅下滑。境内业务方面,虽然宏观稳经济政策已初见成效,但国内仍面临复杂严峻的内外部环境考验,部分境内客户对集中性研发投入仍持谨慎态度,基础数据服务领域客户预算及需求释放出现阶段性减缓,叠加行业内竞争加剧,综合导致境内收入同比下滑。此外,为配合整体战略发展及业务拓展目标,公司在营销体系建设等方面加大投入,使得销售费用同期较大幅度增长。与此同时,计提坏账金额阶段性增加、持有外币资产增值幅度较同期下降等因素,导致信用减值损失以及财务费用同比增长。以上因素共同导致2023年度归属于母公司所有者的净利润、归属于母公司所有者的扣除非经常性损益的净利润显著下滑并且出现亏损。上述不利因素目前已有所改善,但如果公司收入增长无法覆盖各类投入及期间费用支出,公司业绩存在下滑或亏损的风险。
3本公司董事会、监事会及董事、监事、高级管理人员保证年度报告内容的真实性、准确性、完整性,不存在虚假记载、误导性陈述或重大遗漏,并承担个别和连带的法律责任。
综合考虑公司目前经营状况以及未来发展需要,为保障公司生产经营的正常运行,增强抵御风险的能力,实现公司持续、稳定、健康发展,更好的维护全体股东的长远利益,公司2023年利润分配预案为:不派发现金红利,不进行公积金转增股本、不送红股。以上利润分配方案已经公司第二届董事会第二十四次会议和第二届监事会第二十三次会议审议通过,尚需公司2023年年度股东大会审议通过。
公司主要从事AI训练数据的研发设计、生产及销售业务。公司通过设计数据集结构、组织数据采集、对取得的原料数据进行加工,最终形成可供AI算法模型训练使用的专业数据集,通过软件形式向客户交付。
自2005年成立以来,公司始终致力于为AI产业链上的各类机构提供算法模型开发训练所需的专业数据集。经过多年发展,公司已成为人工智能基础数据服务领域具有较强国际竞争力的国内头部企业,并实现了标准化产品、定制化服务、相关应用服务全覆盖。公司所提供的训练数据涵盖智能语音(语音识别、语音合成等)、计算机视觉、自然语言等多个核心领域,全面服务于人机交互、智能家居、智能驾驶、智慧金融、智能安防等多种创新应用场景。
公司的产品和服务已获得阿里巴巴、腾讯、百度、科大讯飞、海康威视、字节跳动、微软、亚马逊、三星、中国科学院、清华大学等国内外客户的认可,应用于其研发的个人助手、智能音箱、语音导航、内容生成、搜索服务、短视频、虚拟人、智能驾驶、机器翻译等多种产品相关的算法模型训练过程中。目前公司客户累计数量超过930家,覆盖了科技互联网、社交、IoT、智能驾驶、智慧金融等领域的主流企业,教育科研机构以及部分政企机构。
公司研发、生产的训练数据覆盖了智能语音、计算机视觉及自然语言处理三大AI核心领域,广泛应用于算法模型的开发、训练、优化、应用场景拓展等环节。此外,公司还提供与训练数据相关的应用服务。
语音识别(AutomaticSpeechRecognition,ASR)是让机器能够“听懂”人类语音的技术,它能使机器自动将语音信号转换为对应的文本信息。
语音合成(TexttoSpeech,TTS)是让机器能够“说出”人类语音的技术,它使机器能将文字信息转化为流畅的语音“朗读”出来,相当于给机器安上了人工嘴巴。
以日常生活中的情景为例,语音输入法、即时通讯软件运用了语音识别技术将用户输入的语音实时转换为文字,实现了软件“听懂”语音并“听写”出文字的效果;而地图、导航软件则运用语音合成技术,实现了软件“发声说话”的效果,为用户提供即时语音导航。
公司通过设计(设计训练数据集结构、供发音人朗读录制的语料文本或对话场景、发音人分布、录音设备场景等)、采集(定义合适的发音人、选取录音设备及软件、组织发音人朗读录制音频)、加工(对音频文件进行切分、标注各类声音特征,形成带时间戳和特征标签的文本和标注文件等)、质检(对数据集进行质量检测,如音字一致性、标注准确率检查等)等训练数据集生产环节;或者针对客户提供的原料音频文件执行加工、质检工作,最终形成客户所需的智能语音训练数据集。
计算机视觉(ComputerVision,CV)是使机器具备“看”的功能的技术,它使得智能驾驶、智能家居、手机、安防设备等机器能够代替人眼对目标进行识别、跟踪和测量等。
以日常生活中的情景为例,在汽车的自动驾驶功能中,计算机视觉技术使得汽车能够“看见”并识别行车过程中的各种行人、路况场景,为后续作出相应的反应奠定基础;在机场、车站安检中,计算机视觉技术使得人脸识别设备能够识别被检验人员是否为其出示的身份证件显示的人员。
公司通过设计训练数据集结构、采集(如定义合适的人脸、动作、场景作为采集对象,组织被采集人按照要求拍摄照片、录制视频等)、加工(对图像、视频文件进行打点、拉框、分割标注等)、质检(对数据集进行质量检测,如检验图片、视频文件格式是否正确,检查光照环境、物体种类的数量是否达标,打点标框的准确率是否符合要求等);或者对客户提供的图像、视频文件执行加工、质检工作,最终形成客户所需的计算机视觉训练数据集。
自然语言处理(NaturalLanguageProcessing,NLP)是以机器能够像人一样理解语言意图的技术。
以日常生活中的情景为例,寄送快递时使用的“智能填写”功能即运用了自然语言处理技术,在输入框中填入整段联系信息,软件应用能够理解语义,并从中识别及提取“收件人”、“联系方式”、“地址信息”等所需信息,完成自动填写;智能客服、聊天机器人等人机交互程序也运用了自然语言处理技术,使得程序、机器能够读懂人类语言的真正意图,并相应做出反应、提供服务等。
公司通过设计训练数据集结构、采集(收集或编写自然语言文本、对话等数据信息)、加工(对自然语言文本数据进行单词分割、词性标注、语义语法标注、情感属性标注等)、质检(对数据集进行质量检测,如检验文本、词性或者语义的标注结果是否准确等);或者对客户提供的自然语言文本执行加工、质检工作,最终形成客户所需的自然语言训练数据集。
公司基于自身生产的训练数据提供算法模型相关的训练服务,运用训练数据研发能力助力下游客户完成其算法模型的语言拓展、特定算法模块拓展、垂直应用领域拓展等,为客户定制针对特定应用场景的专属算法模型,提高AI技术应用效果。
前述产品、服务均以公司生产的专业训练数据集为核心或基础。公司通过设计训练数据集结构、组织原料数据采集、对取得的原料数据进行加工,最终形成可供算法模型训练使用的专业数据集。
成品训练数据集主要由数据文档、说明文档、技术文档三部分构成。以智能语音训练数据集为例,成品训练数据集包含原始采集形成的音频文件、与音频文件对应的带有时间戳的标注文件,训练数据集相关的设计文档、训练数据集说明,发音词典,数据集参数信息文件等,图示如下:
公司提供的高质量、大规模、结构化的训练数据,为算法模型的训练拓展提供了可靠的训练素材,助力AI技术实现实践应用及商业化落地,赋能AI技术与实体经济深度融合。公司提供的训练数据广泛应用于众多主流AI产品及终端应用的训练过程中,覆盖了个人助手、语音输入、内容生成、智能家居、机器人、语音导航、智能客服、智能播报、语音翻译、移动社交、虚拟人、智能驾驶、智慧医疗、智慧教育、智慧交通、智慧城市、智慧金融、机器翻译、智能问答、信息提取、情感分析、OCR识别等多种应用场景。
(1)定务:公司根据客户需求提供定制训练数据集并收取服务费。在此种模式下,公司享有服务费收入,不享有最终生成的训练数据的知识产权,不可将此类业务生产的训练数据向其他客户重复销售。
(2)标准化产品:公司开发自有知识产权的训练数据集产品,通过销售训练数据集产品的使用授权许可,获取让渡资产使用权收入。此类训练数据集一经开发完成,可多次销售并获取授权许可收入。
(3)训练数据相关的应用服务:公司基于生产的训练数据提供算法模型相关的模型拓展及训练服务,通常以软件授权或软硬件一体化形式交付算法模型拓展、开发成果,获取让渡资产使用权收入和技术服务收入,以及少量硬件销售收入。
公司通过设计训练数据集结构、组织原料数据采集、对取得的原料数据进行加工,最终形成可供算法模型训练使用的专业数据集。
公司的训练数据生产过程主要包括四个环节:设计(训练数据集结构设计)、采集(获取原料数据)、加工(数据标注)及质检(各环节数据质量、加工质量检测)。
公司基于其生产的训练数据提供算法模型相关训练服务,助力下游客户完成其算法模型的语言拓展、特定算法模块拓展、垂直应用领域拓展等,为客户定制针对特定行业和口音的专属算法模型,提高AI技术应用效果。
以某大型科技公司客户项目为例,客户研发了特定语音识别算法模型,需要根据算法模型的实际场景(如法院庭审场景)开发落地应用。公司承担了部分落地应用拓展相关的开发工作,围绕客户的算法模型和接口开发,最终协助客户算法模型实现多个麦克风收集庭审语音内容并实时转成文字记录入系统的功能。
数据服务采购:公司在数据采集、加工环节中,向人力资源服务等类型的公司等供应商采购的,非核心技术环节的原料数据采集、标注服务。
岗位服务采购:主要针对临时性的、不设长期岗位的业务领域的外包采购,如保洁、临时招聘服务、少量实习生招聘等。
其他采购:(1)训练数据生产所需的资产,主要包括软、硬件设备及其他需求物品采购;(2)日常运营所需的资产及物品,如办公用房、车辆、办公家具、计算机设备等;(3)日常专项服务采购等,主要包括审计服务、会议服务、差旅服务等。
上述原料数据采集、加工环节所涉及的数据服务采购,为公司最主要的采购类别,由集采中心负责;各部门岗位服务采购由人力资源部负责;其余日常运营相关的资产物品采购、专项服务采购等非业务采购由集采中心负责。财务中心负责参与采购供应商的遴选、监督与管理,并对采购费用进行核算及结算。
经过多年的发展,公司已经建设有完善的《海天瑞声采购管理制度》、《海天瑞声项目资源采购管理制度》、《海天瑞声供应商管理制度》、《海天瑞声岗位服务采购管理制度》等内部规范制度,设立有完善的采购流程和体系,并与主要的供应商形成了良好稳定的长期合作关系。
公司采用直接对接并服务客户的直销模式进行营销,符合行业通行惯例。公司以高质量的训练数据集及相关服务吸引客户,并在持续服务客户的过程中提升服务价值和客户黏度。公司通过直接拜访潜在客户、参与学术会议和行业展会新产品发布、搭建并持续升级公司官方网站和建立自媒体矩阵等方式提升品牌知名度、开拓新客户,后续再通过商务谈判、招投标等形式获取具体业务机会。
当前,新一轮科技和产业变革深入发展,数字化转型成为大势所趋,世界主要国家均高度重视发展数字经济,纷纷出台战略规划,重塑数字时代的国际竞争新格局。人工智能作为数字经济发展的底层核心技术之一,正在发挥更加重要的作用。例如,随着数字经济发展的不断深入,数据体量以及复杂度均不断提升,为更好解决产业数字化中数据提取、处理、分析等工。