加入收藏 | 设为首页 | 会员中心 | 我要投稿 温州站长网 (https://www.0577zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

【重!磅!干!货

发布时间:2021-03-17 20:44:18 所属栏目:大数据 来源:网络整理
导读:副标题#e# 查看之前文章请点击右上角 ,关注并且 查看历史消息 ,还可以在文章最后评论留言。谢谢您的支持! 回复【文本挖掘】或者【点击阅读原文】获取链接与代码附录 一、 功能概述 ? ? ? ?关键词词频网络图是以股票论坛、 个股新闻、研究报告三个网站作

3) 统计模块
? ? ? ?设计统计模块是为了随后的关键词词频和网络模块进行数据的准备,和爬虫模块和检索模块一样,统计模块也是基础模块。 统计模块的主要功能有三个:
▲ 以【用户字典】为列表,计算用户字典中每个关键词在三个数据源中出现的总词频数
▲ 以【用户字典】为列表,计算用户字典中每个关键词在三个数据源中出现过的总文档数
▲ 以句子为单位,计算三个数据源中每天文档的总句子数

? ? ? ?其中,用户字典关键词的词频数和文档数,是为了关键词网络模块中计算TF-IDF 相关度指标所准备的数据,而每天的句子数则树为了关键词词频模块中计算词频占比所准备的数据。对于统计模块的这三个功能,分别有三个独立的程序进行,他们分别是:

IDFCalWord.py? ?计算关键词总词频数
IDFCal.py? ?计算关键词所在文档数

SentenceCal.py? 计算每天文档的句子数


4) 关键词词频模块
? ? ? ?通过建立三个基础模块, 能够完成一系列的应用,关键词词频模块是其中的一个应用模块, 关键词词频模块的主要功能在于:对于给定的关键词以及给定的股票代码,在一定的时间范围内,计算每周的平均词频占比, 给出词频占比序列的曲线和股票价格曲线的对比图, 同时给出该词频占比与股价之间的相关系数。

? ? ? 模块中没有直接使用关键词每天的词频,而是根据每天的词频,以及当天文档的句子总数计算关键词的词频占比。 对于关键词 ,词频占比 的计算公式如下:

【重!磅!干!货

? ? ? 其中, 公式的各个指标的意义如下:
? ? ? 分子: 概念关键词 在第 i 天出现的次数

? ? ? 分母: 第 i 天中文档的句子总数


? ? ? ?从词频占比的计算公式可以看出, 词频占比是将每个星期的关键词的词频总和除以每个星期文档的句子总数得到的。 使用词频占比而非直接采用词频,能够更公平地反应出关键词 每天的关注程度,从而更合理地对词频信号进行使用。另外,在计算关键词与给定股票的相关系数时, 模块会以一周为频率计算关键词的词频占比时间序列,同时计算该周内给定股票股价的均值,计算两个时间序列的相关系数作为两者相关性的依据。

? ? ? ?对于关键词词频模块, 只有一种调用的方式,调用时需给出关键词、股票代码以及时间范围:

sigWordSeq.py ??关键词词频时间序列


5) 关键词网络模块
? ? ? 和关键词词频模块一样,关键词网络模块也属于应用模块, 关键词网络模块的主要功能在于: 对于给定的关键词、在一定的时间范围内,根据 TF-IDF 关联度指标为依据,给出与关键词最相关的 20 个一级词,以及与一级词最相关的 5个二级词,组成关键词网络图。

? ? ? ?其中关联度指标采用的是TF-IDF算法, TF-IDF是一种常用的文本检索与本文探勘的加权技术,主要用于评估某个词对于一份特定文档的重要程度。 在本文的关键词网络模块中,将给定关键词的搜索结果集合作为特定文档, TF-IDF用于评估搜索结果中每个词对于该结果的关联程度,即对于关键词的关联程度。 TF-IDF的具体计算公式如下:

【重!磅!干!货

其中 x 为搜索结果中的某个词,

【重!磅!干!货为词 x 的与关键词的TF-IDF关联度指标,其他符号意义如下:

【重!磅!干!货

对于关键词网络模块,提供了两种形式的调用,一是对于给定的关键词,生成完整的关键词网络图,二是对于只给出与关键词关联度最高的20只股票组合,他们分别是:
WordNet.py ??完整关键词网络图
WordNet_stock.py ??关键词关联股票组合


三、 模块运行

1) 爬虫模块举例2个,其余不再呈现
路径: D:TotalCodeLuceneCodeGetDataGetGuba_pylucene.py
功能: 股票论坛网页爬虫
输入参数:无
运行举例: python ? GetGuba_pylucene.py

运行过程实例:

【重!磅!干!货

(编辑:温州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读