首页| 行业标准| 论文文档| 电子资料| 图纸模型
购买积分 购买会员 激活码充值

您现在的位置是:团子下载站 > 其他 > 基于视觉特征的网页正文提取方法研究

基于视觉特征的网页正文提取方法研究

  • 资源大小:328
  • 上传时间:2021-07-30
  • 下载次数:0次
  • 浏览次数:18次
  • 资源积分:1积分
  • 标      签: 视觉特征

资 源 简 介

利用网页的视觉特征和DOM树的结构特性对网页进行分块,并采用逐层分块逐层删减的方法将与正文无关的噪音块删除,从而得到正文块。对得到的正文块运用VIPS算法得到完整的语义块,最后在语义块的基础上提取正文内容。试验表明,这种方法是切实可行的
VIP VIP