首页| 行业标准| 论文文档| 电子资料| 图纸模型
购买积分 购买会员 激活码充值

您现在的位置是:团子下载站 > 通信网络 > 如何使用狄利克雷多项分配模型进行多源文本主题挖掘模型

如何使用狄利克雷多项分配模型进行多源文本主题挖掘模型

  • 资源大小:1.07 MB
  • 上传时间:2021-10-03
  • 下载次数:0次
  • 浏览次数:20次
  • 资源积分:1积分
  • 标      签: 模型 dma 互联网

资 源 简 介

随着文本数据来源渠道越来越丰富,面向多源文本数据进行主题挖掘已成为文本挖掘领域的研究重点。由于传统主题模型主要面向单源文本数据建模,直接应用于多源文本数据有较多的限制。针对该问题提出了基于狄利克雷多项分配( DMA)模型的多源文本主题挖掘模型——多源狄利克雷多项分配模型(MSDMA)。通过考虑主题在不同数据源的词分布的差异性,结合DMA模型的非参聚类性质,模型主要解决了如下三个问题:1)能够学习出同一个主题在不同数据源中特有的词分布形式;2)通过数据源之间共享主题空间和词项空间,使得数据源间可进行主题知识互补,提升对高噪声、低信息量的数据源的主题发现效果;3)能自主学习出每个数据源内的主题数量,不需要事先给定主题个数。最后通过在模拟数据集和真实数据集的实验结果表明,所提模型比传统主题模型能更有效地对多源数据进行主题信息挖掘。   在互联网发展早期,网络上可获取文本数据的渠道(数据源)较少,文本挖掘任务主要面向单源文本数据。随着互联网的快速发展,特别是移动互联网的普及率越来越高,几乎每个人都能上网获取资讯和发表观点,因此出现了各种各样的文本数据生产渠道,如各种社交媒体、新闻门户、博客及论坛等。这些渠道时刻都在产生海量的文本数据,同时对这些文本数据源进行主题信息提取通常具有比较重要的应用价值,如在网络新闻采编和网络舆情分析应用中,需要知道在每个渠道的主题分布,以及某个关注的主题在每个渠道的表现方式等。
VIP VIP