长沙两项目入选国家首批高质量数据集建设先行先试名单

相链区块链

长沙晚报掌上长沙9月16日讯(全媒体记者 王珂 通讯员 邓永俊)近日,国家数据局正式公布首批高质量数据集建设先行先试工作名单。长沙千博信息技术有限公司的“千博AI手语翻译高质量数据集建设项目”与湖南快乐阳光互动娱乐传媒有限公司的“芒果TV音视频行业高质量数据集建设项目”双双入选,不仅为长沙数字经济发展注入强劲动能,更以民生温度与产业深度,为AI与实体经济融合写下生动注脚。

千博手语:用80万条“无声密码”,为2780万听障者推开世界的窗

“老师,这道题的解法我懂,可试卷上的文字像隔了层玻璃……”在长沙某特殊教育学校的课堂上,12岁听障女孩小雨曾因“能看不能说”的手语翻译困境,急得直掉眼泪。这样的场景,在我国2780万听障人群中并不鲜见——他们常因手语标准不统一、专业翻译人才稀缺,陷入“有口难言”的信息孤岛。

面对这一社会痛点,千博信息用一场“数据突围战”破局。为了让AI“看懂”手语,团队不仅建立了覆盖普通话、方言甚至少数民族语言的“手语语料库”,更创新运用数据增强技术,模拟不同光照、角度、手势速度的场景,将原本稀缺的语料量提升5倍。

目前,千博已建成全国规模最大的手语数据库:80万条高清手语视频、千万字级标注语料,词级识别准确率达95%,更在实验室实现了句子级识别的“关键一跃”。未来团队将拓展至手语方言库,让更多听障者“说”出更丰富的人生。如今,这套系统已服务全国近千家学校、医院和政务大厅,小雨所在的班级成了首批试点——当AI手语翻译准确“说出”她的解题思路时,孩子眼里的光,比任何数据都耀眼。

芒果TV:30PB“视听燃料”点燃广电数智转型“新引擎”

在芒果TV的马栏山基地,25TB文本、24TB图像、30PB视频、2万小时音频……这些看似冰冷的数字,正酝酿着一场视听生产的“革命”。“过去做一档短剧,从剧本创作到成片播出要3个月,现在有了这套数据体系,最快20天就能搞定!”某项目负责人打了个形象的比方,“就像给创作者配了‘智能工具箱’,灵感来了就能快速‘组装’精品。”

这背后,是芒果TV依托数十年版权资源积累,打造的“数据+模型+应用”三位一体体系。走进内容生产车间,编剧小林打开AIGC内容生产平台,输入“都市职场+女性成长”关键词,系统立即推送30个经典剧情模板、500条符合年轻人口味的台词建议,甚至自动生成分镜脚本初稿。“以前憋大纲要熬通宵,现在AI能快速给出方向,我们只需要打磨细节。”小林笑着说。更惊艳的是智能审核系统——以往一部50集网剧需要10人审片1周,现在AI能在2小时内完成敏感内容识别、价值观校验,准确率超98%。

目前,项目已完成4个核心大模型研发(涵盖剧情生成、角色设计、台词优化等),上线AIGC内容生产、山海短剧生产等三大平台,整体进度超60%。预计建成五年内,这套体系将赋能至少50个重点项目,缩短生产周期30%,降低制作成本25%。“我们不仅要让自己‘轻装上阵’,更要输出‘芒果标准’。”负责人透露,团队正联合相关高校探索制定音视频数据采集、标注行业标准,未来还计划通过多语智译等技术助力内容出海,服务文化强国战略。

两个项目的成功入选,是长沙数字经济厚积薄发的缩影。作为首批国家数据标注基地、国家区域数据基础设施先行先试试点城市、国家新一代人工智能创新发展试验区、国家人工智能创新应用先导区、国家湖南省国家数据要素综合试验区核心区域、长株潭要素市场化配置综合改革试点核心区域,长沙始终将推动数据要素赋能人工智能创新发展作为战略重点。近年来,随着工程机械等世界级产业集群的蓬勃生长,这座“智造之城”正以高质量数据集建设为抓手,为传统优势产业装上“智能大脑”,为新兴数字产业注入“数据基因”,在数字经济与实体经济深度融合的赛道上跑出“长沙加速度”。

【作者:王珂】 【编辑:肖彪】
关键词:高质量数据集 数据局
>>我要举报
晚报网友
登录后发表评论

长沙晚报数字报

热点新闻

回顶部 到底部