数据集:用于数据源分析和机器学习的源{d}数据集(“大代码”) 源码

上传:elephant_95798 浏览: 22 推荐: 0 文件:ZIP 大小:21.62MB 上传时间:2021-02-23 11:57:56 版权申诉
来源{d}数据集 source {d}数据集,用于源代码分析和。 该存储库包含所有必要的工具和脚本,以重现数据集,以及它们可能涉及的学术论文。 可用数据集 公共Git存档 大小:6TB 描述:来自GitHub的260k +书签库,由1.36亿多个文件和约280亿行代码组成。 编程语言标识符 大小:1GB 描述:从10多种编程语言中提取的约49M个不同的标识符。 代码重复 大小:250MB 说明:2k Java文件和600个Java函数对,被多个程序员标记为相似或不同。 拉请求评论评论 大小:1.5GB 描述:自2015年1月到2018年12月,有2530万个GitHub PR评论评
上传资源
用户评论