首页| 行业标准| 论文文档| 电子资料| 图纸模型
购买积分 购买会员 激活码充值

您现在的位置是:团子下载站 > 其他 > 基于互信息和余弦的不良文档过滤

基于互信息和余弦的不良文档过滤

  • 资源大小:0.84 MB
  • 上传时间:2021-11-25
  • 下载次数:0次
  • 浏览次数:94次
  • 资源积分:1积分
  • 标      签: 互信息 余弦 过滤

资 源 简 介

针对网页中的维吾尔文不良文档信息的过滤问题,提出一种基于互信息和余弦相似度的不良文档信息过滤方案。首先,对输入文档进行预处理,过滤掉无用单词。然后,利用文档频率(DF)和互信息(MI)相结合,从文档中提取出高区分度的特征向量。最后,利用TF-IDF方法对特征进行加权,并计算加权特征向量与分类模板中的各类加权特征向量之间的余弦相似度,来分类文档并过滤掉不良文档信息。实验结果表明,该方案能够有效过滤不良维吾尔文文档,正确过滤率达到了83.5%。
VIP VIP