[大数据]基于大规模语料的新词发现算法 DOCX文件[43.44KB]-码姐姐

基于古汉语语料的新词发现方法.pdf

古汉语语料的新词发现方法

PDF

4.28MB

2020-07-17 21:07

大规模语料重复串发现算法doc

大规模语料重复串发现算法.doc......................

DOC

0B

2019-01-10 21:14

搜狗词库新词发现算法

搜狗词库新词发现算法、常见的工具类、百度应用、翻译、天气预报、汉语纠错、字符串文本数据提取时间解析、实体抽取等等

GZ

1.61MB

2021-01-03 01:48

新词发现方法

不错的新词发现方法，利用了pat-array, 倒排索引

PDF

0B

2018-12-18 16:36

论文研究一种基于大规模语料的新词识别方法.pdf

针对k均值聚类提取关键帧存在的不足，提出了优化初始聚类中心的关键帧提取算法。该算法的初始聚类中心由视频数据本身的分布来决定，增强了结果的稳定性;聚类数k不再唯一地决定于给定值，而是根据视频内容自适应获

PDF

1.51MB

2020-07-17 21:07

论文研究基于数据挖掘的新词发现.pdf

利用文本挖掘技术提出了一种用于主题式搜索引擎的专业词典库发现新专业词汇的方法，详述了如何通过关联规则挖掘来实现专业词典库的扩展，并在此基础上进行了小样本实验，实验结果显示该方法有效可行。

PDF

263KB

2020-07-18 09:18

论文研究基于互信息和邻接熵的新词发现算法.pdf

如何快速高效地识别新词是自然语言处理中一项非常重要的任务。针对当前新词发现存在的问题，提出了一种从左至右逐字在未切词的微博语料中发现新词的算法。通过计算候选词语与其右邻接字的互信息来逐字扩展，得到候选

PDF

0B

2019-09-14 00:10

java使用Nagao算法实现新词发现热门词的挖掘

主要介绍了java使用Nagao算法实现新词发现、热门词的挖掘的思路和详细代码,需要的朋友可以参考下

PDF

0B

2020-10-28 06:01

论文研究基于视频搜索日志的新词发现方法.pdf

基于视频搜索日志的新词发现方法，李啸宇，程渤，在自然语言处理领域里面,新词发现一直以来就是一个具有重要意义的研究热点,在视频搜索日志上进行新词发现远比在一般语料库上要难

PDF

340KB

2020-07-17 21:07

一种基于海量语料的网络热点新词识别方法

基于海量语料的热点新词识别是汉语自动处理领域的一项基础性课题,因要求快速处理大规模语料,且在新词检测中需要更多智力因素,在研究中存在较多困难。构建了一个基于海量语料的网络热点新词识别框架,整合了所提出

PDF

1.45MB

2021-04-24 05:05

基于词内部结合度和边界自由度的新词发现

新词发现作为自然语言处理领域的一项基础研究,一直受到学术界和企业界的广泛关注。将新词发现问题转换为确定词语边界问题。首先对语料进行中文分词,然后统计"散串",最后提出一种基于词内部

PDF

249KB

2021-04-17 22:23

大规模复杂网络社区并行发现算法.pdf

算法利用基于模块度的聚类思想 , 首先计算出节点对之间的模块度增量 , 然后迭代查找出所有模块度增量最大的节点对 , 对所有节点对进行合并操作 , 并更新节点对之间的模块度增量 , 进而实现大规模复杂

PDF

3.08MB

2021-05-05 14:13

融合规则与统计的微博新词发现方法

结合微博新词的构词规则自由度大和极其复杂的特点,针对传统的C/NC-value方法抽取的结果新词边界的识别准确率不高,以及低频微博新词无法正确识别的问题,提出了一种融合人工启发式规则、C/NC-val

PDF

617KB

2021-04-24 10:10

基于改进互信息和邻接熵的微博新词发现方法

基于改进互信息和邻接熵的微博新词发现方法，大数据，自然语言处理

PDF

0B

2019-09-14 00:10

论文研究一种基于海量语料的网络热点新词识别方法.pdf

基于海量语料的热点新词识别是汉语自动处理领域的一项基础性课题，因要求快速处理大规模语料，且在新词检测中需要更多智力因素，在研究中存在较多困难。构建了一个基于海量语料的网络热点新词识别框架，整合了所提出

PDF

618KB

2020-07-17 21:07