每日消息!海天瑞声拟定增募资不超7.9亿元 投向AI大模型训练数据集建设等项目
海天瑞声(688787)6月21日晚间公告,拟定增募资不超亿元,用于投资AI大模型训练数据集建设项目、数据生产垂直大模型研发项目。
公告显示,海天瑞声主要从事AI训练数据的研发设计、生产及销售业务。公司通过设计数据集结构、组织数据采集、对取得的原料数据进行加工,最终形成可供AI算法模型训练使用的专业数据集,用软件形式向客户交付。
本次募集资金两项投资项目,将全部围绕海天瑞声主营业务展开。
(资料图)
其中,AI大模型训练数据集建设项目是通过建设应用于通用和特定垂直领域的AI大模型训练数据集,提升行业内面向大模型训练数据集的类别和质量。
公开资料显示,虽然中国数据资源丰富,但由于数据挖掘不足,以及大量数据无法在市场上自由流通等原因,优质中文数据集仍然稀缺。
以ChatGPT为例,其模型训练数据中,中文数据来源不足千分之一。目前,国内头部科技企业主要基于公开数据集以及自身特有的数据进行大模型训练,但由于中文优质数据质量以及数据资源的制约,国内大模型的能力与以ChatGPT为代表的国际大模型相比仍存在一定差距。
而在本项目建成后,将提供可供大模型训练和评测的不少于10个品类的专业数据集,显著提升行业内面向大模型训练数据集的类别和质量,协助实现公共数据、社会数据等各类高价值数据资源汇聚,实现基于大模型通用能力和垂直领域数据的训练学习。
海天瑞声表示,将基于过往的数据服务经验,结合行业前沿需求,积极拓展大模型训练数据服务领域,力争将大模型训练数据等创新业务打造成为具有潜在高增长价值的新型业务板块。
此外,截至2022年底,海天瑞声累计服务客户数量已达到810家,包括阿里巴巴、腾讯、百度、科大讯飞、海康威视、字节跳动、微软、亚马逊、三星、中国科学院、清华大学等全球主流企业、教育科研机构以及政企机构。
海天瑞声的存量客户与新业务的客户重合程度较高,且存量客户群中的部分头部企业已输出或计划输出其大模型产品与服务,为公司该项新业务拓展提供了客户资源基础。
根据德勤数据,2022年中国人工智能基础数据服务市场规模为45亿元,2027年规模将达到130-160亿元,年复合增长率为%-%。
数据生产垂直大模型研发项目建设目标则是通过大模型基础研究,研发海天瑞声数据生产垂直大模型,并以海天瑞声数据生产垂直大模型为核心,升级海天瑞声一体化技术支撑平台。
公告称,数据集生产能力和一体化技术支撑平台是海天瑞声核心技术的重要体现。目前 ChatGPT等模型执行通用生成任务的效果证明了大模型可具备数据生成能力。
本项目的建设将基于海天瑞声在深度学习阶段数据集生产所积累的know-how,自主研发数据生产垂直大模型,构建大模型数据处理技术通用化解决方案能力,实现完整、可持续迭代的大模型数据技术框架和数据策略,进一步提高公司在人工智能基础数据服务领域的智能化水平。
海天瑞声表示,本次募集资金投资项目是公司在现有主营业务基础上,结合市场需求和未来发展趋势,加大对公司核心主业重点产品及重要研究方向投资力度的体现,符合国家大力支持人工智能发展的产业政策以及公司整体战略发展方向。
(文章来源:证券时报·e公司)
标签: