加入收藏 | 设为首页 | 会员中心 | 我要投稿 温州站长网 (https://www.0577zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

【重!磅!干!货

发布时间:2021-03-17 20:44:18 所属栏目:大数据 来源:网络整理
导读:副标题#e# 查看之前文章请点击右上角 ,关注并且 查看历史消息 ,还可以在文章最后评论留言。谢谢您的支持! 回复【文本挖掘】或者【点击阅读原文】获取链接与代码附录 一、 功能概述 ? ? ? ?关键词词频网络图是以股票论坛、 个股新闻、研究报告三个网站作
副标题[/!--empirenews.page--]

查看之前文章请点击右上角,关注并且查看历史消息,还可以在文章最后评论留言。谢谢您的支持!


  • 回复【文本挖掘】或者【点击阅读原文】获取链接与代码附录

一、 功能概述

? ? ? ?关键词词频&网络图是以股票论坛、 个股新闻、研究报告三个网站作为数据源,以文本数据挖掘作为核心技术,以 Lucene 检索作为系统框架, 以证券分析为目的, 实现的智能文本分析系统,该系统主要实现了以下功能:

  • 关键词词频统计

  • 关键词网络图

? ? ??其中,关键词词频统计功能是: 对于给定的关键词(Word)以及给定的股票代码(Ticker)在一定的时间范围[StartDate,EndDate]内,计算每周的平均词频占比, 同时给出该词频占比时间序列与股价之间的相关系数。

【重!磅!干!货

? ? ? ?关键词网络图的功能是: 对于给定的关键词(Word)在一定的时间范围[StartDate,EndDate]内,根据 TF-IDF 关联度指标为依据,给出与关键词最相关的 20 个一级词,以及与一级词最相关的 5 个二级词,组成关键词网络图。

【重!磅!干!货

二、功能模块
? ? ? ?如本文之前所述, 本文分析系统的两个功能是建立在三个文本的数据源,Lucene 检索的架构之上的。 所以,实现关键词词频、关键词网络图的功能需要先做一些准备工作和模块支持, 本文所实现的智能文本分析系统只要分为以下几个模块:

  • 爬虫模块

  • 检索模块

  • 统计模块

  • 关键词词频模块

  • 关键词网络模块


1) 爬虫模块
? ? ? ?爬虫模块的主要作用在于将股票论坛、 个股新闻、研究报告三个网站的网页数据通过网页解析的方式将文本内容爬下来, 用于之后模块的文本挖掘。 爬虫模块将爬到的文本数据以【 日期 + 股票代码】 为单位存至相应的 TXT 文本文件当中,同时将文本文件所在的位置以及其他相关信息写入数据库。对于每个数据源,都有一个独立的程序进行网页爬虫,他们分别是:
GetGuba_pylucene.py? ?股票论坛网页爬虫
GetMbReport_pylucene.py ??研究报告网页爬虫
GetSinaNews_pylucene.py? ?个股新闻网页爬虫


2) 检索模块

? ? ? ?检索模块的主要作用在于以 Lucene 为架构, 将爬虫模块爬到的文本数据加入到全文索引当中, 在建立索引的过程中,系统以“句子”作为基本的检索单位即检索关键词能够定位到该关键词所在的句子。 另外, 索引采用增量的方式来建立,即每次只将最新爬的文本加入到搜索索引当中, 而对于三个数据源,系统分别建立了三个独立的索引。同时,在建立的索引的基础上, 检索模块还实现了基本的文本检索功能, 检索程序能够在一定的时间范围内对于检索给定关键词,并返回该关键词所在的存储文件的文件名,以及该关键词所在的“句子”,并将所有的检索结果输出到一个给定的文件中。

? ? ? ?简而言之,检索模块提供了建立索引和文本搜索两个主要的功能,他们分别是:

IndexFiles_pylucene.py? ?增量建立索引
SearchFiles_pylucene.py? ?关键词全文检索


(编辑:温州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读