大数据采集概述

互联网大数据采集

  • 大数据来源丰富
  • 互联网大数据的特征

Python爬虫大数据的重要性

  • 爬虫获取大数据
  • python生态完整

爬虫问题

  • 遵守Robots协议
  • 爬虫策略优化
  • 多线程、分布式架构

应用类型

  • 采集型爬虫
  • 监测型爬虫

爬虫大数据采集技术体系

技术体系构成

  • 领域处理层
    • 主题爬取
  • 页面提取层
    • 页面解析
  • 页面采集层
    • 各种协议规范
  • 网络链接层
    • 建立链接
  • Web页面层
    • 对URL处理

相关技术

协议与规范

  • TCP
  • HTTP
  • Robots
  • Cookie
  • HTML
  • 网页编码规范

Web信息提取

  • 正则表达式

技术评价方法

  1. 遵守Robots协议
  1. 友好爬虫请求技术:根据服务器返回的状态码调整自己的请求强度
  1. 高效采集技术
  1. 对增量式采集的支持
  1. 动态页面支持
  1. 页面编码与语言处理
  1. 主题相关度
  1. 分布式架构
  1. 可配置线程

爬虫大数据规范性

数据抓取权限

  • 是否公开
    • 特定人群使用是不公开
  • Robots协议
  • 非法获取计算机信息系统数据罪
  • 未经授权公开展示

爬虫访问方式

  • Robots协议
  • 是否对服务器造成影响

数据量与数据的使用

  • 商用、版权
  • 个人隐私
  • 行业规范

课程需要的包

  • requests
  • re
  • bs4.BeutifulSoup
  • jieba
  • sklearn

python增加包的方法

windosShell

win+R cmd
pip install xxx

vscodeShell

pip install xxx
 
Prev
实验
Next
Web页面及相关技术
Loading...
Article List
一个NotionNext搭建的博客
数据库系统概论
大数据原理与应用
javaWeb应用开发基础教程
python
毕业设计
大数据技术综合应用
实训-航空数据系统
java面向对象程序设计
数据结构
算法分析与设计
SPARK
Python爬虫大数据采集与挖掘
云计算
概率论与数理统计
数字逻辑
计算机网络
计算机组成原理
linux
操作系统
人工智能导论
数据仓库与数据挖掘
数据可视化
大数据安全与隐私保护
c语言
C++