[第八章]Deep Web爬虫与Python实现

相关概念

Deep Web:未被搜索引擎收录的页面和站点
Surface Web:静态页面
  • Deep Web页面还需考虑
    • 数据产生过程
    • 业务流程限制
    • 数据语义

Deep Web特征和采集需求

  • Deep Web条件
      1. 页面中数据存储于数据库、数据文件等
      1. 为用户提供一定的查询接口,生成html页面
  • 表单:提供查询条件输入的控件集合
    • form
  • 表单输入项(表单字段):表单中的输入框
  • 标签:输入框前的文字
  • 记录:查询结果的每一行
  • 属性:每一个类别(列)
  • Deep Web需要考虑
      1. 某个属性的查询结果位置可能不定,可能经常调整
      1. 各个查询输入项要事先确定

深度网页内容获取技术架构

流程

图书信息采集

 
Prev
主题爬虫页面采集技术与Python实现
Next
简介
Loading...
Article List
一个NotionNext搭建的博客
数据库系统概论
大数据原理与应用
javaWeb应用开发基础教程
python
毕业设计
大数据技术综合应用
实训-航空数据系统
java面向对象程序设计
数据结构
算法分析与设计
SPARK
Python爬虫大数据采集与挖掘
云计算
概率论与数理统计
数字逻辑
计算机网络
计算机组成原理
linux
操作系统
人工智能导论
数据仓库与数据挖掘
数据可视化
大数据安全与隐私保护
c语言
C++