anuvaad parallel corpus 源码

上传：yourselves6766 浏览： 11 推荐： 0 文件：ZIP 大小：2.59KB 上传时间：2021-04-17 21:59:01 版权申诉

阿努瓦德平行语料库该库包含与开发的流行印度语言的并行语言语料库链接。请联系了解链接数据集的任何说明/解释/使用。状态建立的并行语料库的当前状态(并且每天都在增长!): 语言对平行语料库计数英语-印地语 1,906,384 英语-孟加拉语 1,253,146 泰米尔语 1,022,212 英语-马拉雅拉姆语 1,148,457 英语-泰卢固语 1,165,148 英语-卡纳达语 50,731 目标目标是为各个领域(司法,教育,医学,新闻等)的印度语言建立高质量的并行语料库。最终可以将其用于基于用例来训练ML模型。了解更多有关Anuvaad的信息@ 下提供了用于构建以下提到的数据集的代码链接英语-印地语领域来源年 En-Hi对计数语料库下载链接司法多种来源 2010-2020 947,148 司法 HC / SUVAS 不适用 81,88