《名家视点·图书馆学情报学理论与实践系列丛书:知识网络研究的进展与创新》:
1.2从话题识别与演化模型研究角度看
主要运用聚类方法、基于概率的主题模型方法和社会网络分析方法。代表性研究有:楚克明等提出了一种挖掘话题随时间变化的方法,通过话题抽取和话题关联实现话题的演化,对不同时间段的文集进行话题的自动抽取,话题数目在不同时间段是可变的;计算相邻时间段中任意两个话题的分布距离和话题的特征向量相似度实现话题的关联。胡艳丽等分析了网络舆情信息的特点,在此基础上使用话题模型抽象描述文本内容的隐含语义,建立文本流在时间序列上的关联模型,进而提出基于OLDA的话题演化方法,针对舆情信息的特点,建立不同时间片话题间的关联。洪娜等对文本流中词的生命周期和背景词簇环境进行了研究,提炼出词演化过程中的现象以及网络内容演化趋势的影响因素,提出网络内容演化趋势预测的思路与方法。李保利等提出一种从科技文献中获得研究主题特征词并展现其演化趋势的方法,利用LDA模型对不同时间片内的话题进行自动抽取,得到不同数量的话题,然后通过话题过滤剔除意义有限的话题,并借助简单启发式规则选择种子话题,最后利用语义相关度将相邻时间片内内容相近的种子话题联系起来,以得到研究主题的演化趋势。赵旭剑针对新闻话题动态演化研究中的理论性问题与技术挑战,以中文新闻为基础,对新闻话题动态演化中的若干关键问题进行了深入研究,提出一种面向中文网络新闻的话题信息抽取方法,同时给出一种针对真实新闻文本的时态表达规范化处理算法。
……
展开