自然语言生成评价指标
客观评价指标:
BLEU、METEOR、ROUGE、NIST、Distinct、Repetition、Embedding Average Score、Greedy Matching Score、Vector Extrema Score、BertScore、BARTScore、MoverScore、BLEURT、Perplexity
主观评价指标:
评估人员、评估维度、评估机制
一致性校验方法:
Percentage Agreement、Cohen’s Kappa、Fleiss‘ Kappa、Krippendorff’s Alpha
用户评论