7. 通过网络爬虫采集大数据

发布时间：2022-11-17 17:01:28 所属栏目：大数据来源：互联网

导读： Flume 的基本概念

此图借鉴网站
关键字
Flume 使用方法配置文件的编写原则从整体上描述 Agent 中 Sources、Sinks、Channels 所涉及的组件详细指定Agent中每个Sources，Sinks 和Channel

Flume 的基本概念

在这里插入图片描述

此图借鉴网站

关键字

Flume 使用方法配置文件的编写原则从整体上描述 Agent 中 Sources、Sinks、Channels 所涉及的组件详细指定Agent中每个Sources，Sinks 和Channels的具体实现通过 Channel 将 Source 与 Sink 连接起来。启动 Agent 的 shell 操作 7. 通过网络爬虫采集大数据

网络爬虫工具基本可以分为 3 类

网络爬虫是一种按照一定的规则，自动地抓取 Web 信息的程序或者脚本

爬虫一般有数据采集、处理和存储 3 部分功能

网络爬虫示意图

上图引用网站

网络爬虫原理网络爬虫工作流程选取种子URL，将这些种子URL放入队列中从待取的队列中拿出URL,解析DNS,得到主机的 IP 地址，并将 URL 对应的网页下载下来大数据爬虫，存储到已下载网页库中。此外，将这些 URL 放进已抓取 URL 队列。解析已经抓取的URL,分析其中嵌套的URL,并将这些URL放入待取队列中，如此循环下去，直到获取数据达到某个条件停止。

网络爬虫基本流程

上图出自网站网络爬虫抓取策略网页间关系模型

网页关系模型

上图出自网站

网页分类已下载未过期网页：抓取后下载存储到网页库的网页，其网页数据还没过期。已下载过期网页：抓取放到网页库中，但由于原网页信息进行更新了，已经下载的网页就过期了。待下载网页：在URL队列中还没下载保存到网页库。可知网页：还没有抓取下来，也没有在待抓取 URL 队列中，但是可以通过对已抓取页面或者待抓取 URL 对应页面进行分析，从而获取到的网页未可知网页：爬虫给不能抓取的网页。常见的抓取策略通过网络爬虫

广度优先策略

聚焦网络爬虫

3）基于增强学习的爬行策略

4）基于语境图的爬行策略

网络爬虫策略的简单认识

深层网络爬虫

网页按存在方式可以分为表层网页和深层网页。

深层网络爬虫体系结构包含 6 个基本功能模块（爬行控制器、解析器、表单分析器、表单处理器、响应分析器、LVS 控制器）和两个爬虫内部数据结构（URL 列表和 LVS 表）。

其中，LVS（LabelValueSet）表示标签和数值集合，用来表示填充表单的数据源。在爬取过程中，最重要的部分就是表单填写，包含基于领域知识的表单填写和基于网页结构分析的表单填写两种。

（编辑：温州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

人工智能完善人力资源	智能化数字透明滑轨屏
小心陷阱！ AI算命正	成都智算中心将要对外