作为教育科技的先行者,好未来近来敞开了一批长达587小时教育场景中的中英文混合语音数据集。该数据集源自语种混合最具代表性场景之一——教师英语授课场景。好未来此次敞开的数据集是迄今教育职业最大的语音开源数据集之一,也是现在已知全球较大的中英文混合场景开源数据集,有用添补了中英文混合语音辨认研讨的数据稀缺空白。
算法、算力、数据是人工智能技能开展的三大柱石。一个AI模型从规划到练习,再到布置运用,整个过程中,数据集的挑选十分重要。高质量的数据集往往可以进步模型练习的质量和猜测的准确率。因为职业的天然壁垒,智能教育范畴现在敞开的数据资源十分有限,而经过整理、标示、注释、结构化的数据,更为罕见。
作为教育职业内人工智能技能范畴的代表企业,好未来很早就开端布局人工智能技能的教育场景落地,也在多年的实践中沉积了很多优质教育资源和海量教育数据,并推进了多项才智教育解决方案的落地。一起,作为才智教育国家新一代人工智能敞开立异渠道的承建者,好未来肩负着为才智教育职业要害技能立异供给支撑和服务的任务,将经过开源敞开的方式,加快资源同享与技能交融立异。
早在2020年3月,好未来就敞开了第一批教育开源数据集——“小学低年级算式数据集”。该数据集包含33550张算式图画,均来源于小学1~3年级学生的数学练习册和作业,包括各类数学口算标题类型。每张图画经过手艺取舍,并供给相应标示。随后,好未来又连续敞开了手写中英文、手写公式、中文语音辨认、语音情感等多个数据集。
值得一提的是,好未来此前敞开的手写公式数据集成为了第五届我国立异挑战赛才智教育专题赛“教育手写公式辨认”竞赛的官方数据集。该竞赛依托于才智教育国家新一代人工智能敞开立异渠道,由北京市科学技能委员会与好未来联合承办,招引了来自清华大学、北京大学、我国科学技能大学等国内高校及科研组织,以及阿里、腾讯、百度等一线互联网公司数百支部队参赛。该数据集数据量更为丰厚、数据场景更为杂乱,均超越之前的同类开源数据。
历经18年的高速开展,好未来已成为国内抢先的科技教育公司。为完成技能资源同享与技能落地经历复用,好未来内部树立起跨事务的技能互通机制,活跃推进技能中台建造,推进内部开源。这也是好未来对职业开源敞开的坚实基础。跟着才智教育国家新一代人工智能敞开立异渠道的深化建造,好未来堆集的很多教育场景数据集也会逐渐开源敞开。一起也将经过树立数据规范和数据服务机制,招引更多的教育组织和科技企业,敞开同享更丰厚多元的教育数据,一起构建才智教育职业生态系统。