加入收藏 | 设为首页 | 会员中心 | 我要投稿 温州站长网 (https://www.0577zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

7. 通过网络爬虫采集大数据

发布时间:2022-11-17 17:01:28 所属栏目:大数据 来源:互联网
导读: Flume 的基本概念

此图借鉴网站
关键字
Flume 使用方法 配置文件的编写原则 从整体上描述 Agent 中 Sources、Sinks、Channels 所涉及的组件详细指定Agent中每个Sources,Sinks 和Channel

Flume 的基本概念

在这里插入图片描述

此图借鉴网站

关键字

Flume 使用方法 配置文件的编写原则 从整体上描述 Agent 中 Sources、Sinks、Channels 所涉及的组件详细指定Agent中每个Sources,Sinks 和Channels的具体实现 通过 Channel 将 Source 与 Sink 连接起来。启动 Agent 的 shell 操作 7. 通过网络爬虫采集大数据

网络爬虫工具基本可以分为 3 类

网络爬虫是一种按照一定的规则,自动地抓取 Web 信息的程序或者脚本

爬虫一般有数据采集、处理和存储 3 部分功能

网络爬虫示意图

上图引用网站

网络爬虫原理 网络爬虫工作流程 选取种子URL,将这些种子URL放入队列中从待取的队列中拿出URL,解析DNS,得到主机的 IP 地址,并将 URL 对应的网页下载下来大数据爬虫,存储到已下载网页库中。此外,将这些 URL 放进已抓取 URL 队列。解析已经抓取的URL,分析其中嵌套的URL,并将这些URL放入待取队列中,如此循环下去,直到获取数据达到某个条件停止。

网络爬虫基本流程

上图出自网站 网络爬虫抓取策略 网页间关系模型

网页关系模型

上图出自网站

网页分类 已下载未过期网页:抓取后下载存储到网页库的网页,其网页数据还没过期。已下载过期网页:抓取放到网页库中,但由于原网页信息进行更新了,已经下载的网页就过期了。待下载网页:在URL队列中还没下载保存到网页库。可知网页:还没有抓取下来,也没有在待抓取 URL 队列中,但是可以通过对已抓取页面或者待抓取 URL 对应页面进行分析,从而获取到的网页未可知网页:爬虫给不能抓取的网页。 常见的抓取策略 通过网络爬虫

广度优先策略

聚焦网络爬虫

3)基于增强学习的爬行策略

4)基于语境图的爬行策略

网络爬虫策略的简单认识

深层网络爬虫

网页按存在方式可以分为表层网页和深层网页。

深层网络爬虫体系结构包含 6 个基本功能模块(爬行控制器、解析器、表单分析器、表单处理器、响应分析器、LVS 控制器)和两个爬虫内部数据结构(URL 列表和 LVS 表)。

其中,LVS(LabelValueSet)表示标签和数值集合,用来表示填充表单的数据源。在爬取过程中,最重要的部分就是表单填写,包含基于领域知识的表单填写和基于网页结构分析的表单填写两种。

(编辑:温州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!