专业社交媒体中的主题图谱构建方法研究——以汽车论坛为例
发布时间:10-09-20

林 杰,苗润生

《情报学报》 第39卷 第1期 2020 年 1 月

推荐理由

随着移动互联网的发展,更多的用户将产品使用感受、品牌对比评论和需求愿望等数据发布在产品专业社交媒体中。利用专业社交媒体中的用户知识促进技术创新与产品改进,已成为诸多科技型企业的关注点。主题是专业社交媒体中的用户在发表评论时想要表达的核心思想,对知识导航与检索具有重要意义。主题图谱是企业系统地获取用户知识的基础。本研究提出了一种人工参与少、内容纯净且结构合理的主题图谱构建方法。

作者简介

林杰:同济大学经济与管理学院教授,博士生导师;研究方向为人工智能、决策支持系统。

苗润生:同济大学经济与管理学院博士研究生;研究方向为机器学习、社交媒体知识管理。

关键词

专业社交媒体;主题图谱;Skip-Gram模型;LDA主题模型;图模型

内容简介

专业社交媒体中主题图谱的内容包括论坛中的主题及主题之间的关系,其具有挖掘专业产品创新方向、构建专业知识索引等重要应用价值。

本文基于深度学习技术与文本挖掘技术,提出了专业社交媒体中的主题图谱构建方法。首先,使用专业社交媒体中的文本训练Skip-Gram模型,利用该模型的隐藏层权重与模型输出的预测结果,分别获取词语间的语义相似度与上下文关联度。其次,基于该语义相似度与上下文关联度,对已有领域种子本体词汇进行扩充,将语义相似或上下文相邻近的词汇纳入本体词汇,为主题抽取提供高质量的领域词汇。然后,基于扩充的专业本体词汇,使用结合本体词汇的LDA主题模型从专业社交媒体文本中抽取主题与主题词。最后,利用语义相似度与 上下文关联度,定义关联度权重,通过图模型与谱聚类,获取主题间与主题词的关联关系与层次结构。

本文使用汽车论坛语料进行主题图谱生成实验。实验从“汽车之家”论坛中选取了 10 个热门车型论坛进行语料爬取,包括迈腾论坛、雅阁论坛、凯美瑞论坛等。本实验生成的汽车论坛主题图谱,其内容包括“保险事故”、“驾驶巡航”、“违章”、“速度”等30个主题,主题中的主题词纯净度相比单独使用 LDA 模型提升了20.2%。此外,主题间的关联关系可为汽车企业确定研发方向提供参考,例如,“导航”主题与“违章”的主题相连,汽车企业在研发导航系统时,应注重对违章事项的提醒与预防;再例如,“速度”主题、“变速箱”主题以及“爆胎”主题的关联较为明显,“发动机”主题和“方向盘”主题关联较为明显,说明汽车企业在设计与改进这些功能时,应考虑功能之间的协同作用与相互影响。最后,根据主题图谱中的主题权重可知,高权重的主题为“驾驶、巡航”、“事故保险”、“违章”等,汽车企业在选择研发方向时,可着重考察这些主题及其子主题涉及的方向。