我们在全球范围内提供多样而精确的语音数据集,用来训练机器准确识别和理解不同种类的语言。
联系我们
了解更多
原理
算法研究
需求挖掘
定义设计
试验改进
产品形成
质量把控
数据打包
数据交付
数据采集
来自全球资源
多环境
室内
录音棚
室外
车载
多设备
移动手机 (iOS/Android)
电脑 (台式/手提)
Pro (高保真录音机/阵列麦克风)
录音对象
语言: 中文、英文、法语、德语…
性别比: 1:1
年龄: 儿童、成年人…
教育背景: 各阶段
机器标注
人工转写
人工&机器共同
完成3轮质检
标注
准确率超过95%
我们将自身研究算法应用于语音标注环节,确保标注效率及准确率。经过前期顶层设计,中期严格把控,后期三轮质检,最终的数据产品使得训练后的机器模型在语音识别、语义理解和人机交互方面表现优异。
语音数据集
基础分类
中文普通话:10,000人
中文对话:500人
年龄
中文儿童:10,000人
中文老人:800人
口音分类
客家方言:2,000 人
西南普通话:1,000 人
中原普通话:1,000 人
环境分类
车载:计划中
办公室:计划中
语言分类
中英混读:9,000 人
美式英语:1,500 人
澳大利亚英语:1,000 人
新加坡英语对话:300 人
法语对话:500 人