Ctrl+K

一个NotionNext搭建的博客

数据库系统概论

第一章]绪论

第二章]关系数据库

第三章]关系数据库标准语言SQL

第四章]数据库的安全性

第五章]数据库完整性

第六章]关系数据概论

第七章]数据库设计

第八章]数据库编程

第十章]数据库恢复技术

第十一章]并发控制

大数据原理与应用

[第一章]大数据概述

[第二章]大数据处理架构Hadoop

[第三章]分布式文件系统HDFS

[第四章]分布式数据库HBase

[第五章]NoSQL数据库

[第六章]云数据库

[第七章]MapReduce

[第八章]Hadoop再探讨

[第九章]数据仓库Hive

[第十章]Spark

[第十一章]流计算

[第十二章]Flink

[第十三章]图计算

javaWeb应用开发基础教程

[第一章]集成开发环境搭建

[第二章]JDBC

[第三章]Servlet

[第五章]JavaBean

[第八章]过滤器和监听器

[第十章]Spark

[第十一章]Spring框架核心基础

[第十三章]Spring MVC

毕业设计规划

python

常用内置函数

毕业设计

spring boot后端

系统功能模块设计

前后端框架

大数据技术综合应用

实训-航空数据系统

准备系统运行的先决条件

安装配置ZooKeeper

安装配置Hadoop集群

Python数据分析环境准备

数据预处理

java面向对象程序设计

搭建开发环境

编写第一个java程序

JAVA语言基础

面向对象编程

抽象类和接口

数据结构

树和森林的存储和遍历

算法分析与设计

[第一章]算法概述

[第二章]递归与分治策略

[第三章]动态规划

[第四章]贪心算法

[第五章]回溯法

[第六章]分支限界

判断奇偶数的条件

SPARK

【第二章】Spark设计与运行原理

【第四章】RDD编程

【第五章】DataFrame

【第六章】流计算

【第七章】Structured Streaming

【第八章】机器学习

Python爬虫大数据采集与挖掘

大数据采集概述

Web页面及相关技术

Web应用架构与协议

普通爬虫页面采集技术与Python实现

动态页面采集与Python实现

Web信息提取与Python实现

主题爬虫页面采集技术与Python实现

[第八章]Deep Web爬虫与Python实现

云计算

云计算概论

容器与容器云

概率论与数理统计

一、随机事件及其概率

二、随机变量及其分布

离散随机变量及其分布

连续型随机变量及其分布

二维离散型随机变量

二维连续型随机变量

期望与方差

中心极限定理

数字逻辑

数据选择器

计算机网络

计算机网络和因特网

网络层数据层面

网络层控制层面

计算机组成原理

第一章]计算机系统概述

第二章]数据信息的表示

第三章]运算方法与运算器

第四章]存储系统

第六章]中央处理器

第八章]总线系统

第九章]输入输出系统

linux

Linux基本概念与常用指令

Linux系统配置与管理

linux网络基础

shell程序设计

网络服务配置与管理

如何建立自己的linux系统

操作系统

[第一章]操作系统引论

[第二章]进程的描述与控制

[第三章]处理机调度与死锁

[第四章]进程同步

[第五章]存储器管理

[第六章]虚拟存储器

[第八章]文件管理

[第九章]磁盘存储管理

人工智能导论

[第一章]绪论

[第二章]知识表示与知识图谱

[第三章]确定性推理方法

[第四章]不确定性推理方法

[第五章]搜索求解策略

[第六章]智能计算及其应用

[第七章]专家系统与机器学习

[第八章]人工神经网络与深度学习

[第十章]自然语言处理及其应用

[第十一章]人工智能在游戏设计中的应用

数据仓库与数据挖掘

数据仓库和数据挖掘概述

数据仓库设计

[第五章]关联分析算法

[第六章]决策树分类算法

[第七章]贝叶斯分类算法

[第八章]神经网络算法

[第九章]回归分析算法

[第十章]时间序列分析

数据可视化

【第一章】概述

【第三章】数据读写和pandas

【第四章】类别比较型图表

【第九章】高维数据可视化

大数据安全与隐私保护

【第一章】网络空间安全：理解与认识

【第二章】常用的几个基本概念

【第三章】密码算法

【第五章】密钥管理

【第十二章】网络与系统攻击

【第十五章】互联网安全

c语言

C++

变量和数据类型

动态页面采集与Python实现

内容的生成与交互内容生成方式服务器端客户端动态交互 URL传递请求参数通过Cookie获取命令参数 Ajax 动态页面采集技术知识补充类型使用带参数的URL 页面带编码实现方式利用Cookie和Session cookie的获得/构造 cookie传递到服务器 Ajax 实现方式模拟浏览器实现方式模拟特定浏览器的header 使用浏览器内核页面结构分析编程实现

内容的生成与交互

内容生成方式

服务器端

主要内容在数据库

页面的结构和表现方式在Web服务器

jsp等语言编写连接数据库、查询数据库、生成用户的html文档
另一种方法，在html文档中嵌入SSI指令，默认扩展名.stm、.stm、.stml

 在文档合适方式插入文件指令

客户端

轻量级、局部的

需要嵌入一定的脚本和插件

动态交互

URL传递请求参数

URL:协议://域名：端口号/目录/文件名.文件后缀？参数1=值#标志&参数2=值#标志

？表示第一个参数的开始

#表示标签，一个Web页面中的特定部分

参数=值，不同参数用&连接

通过Cookie获取命令参数

记录了C/S交互参数，自动获取Cookie

Ajax

允许请求局部内容，其他部分不变

更新触发条件

页面中的定时器
鼠标或键盘事件驱动

动态页面采集技术

知识补充

requests.post() 是用于发送 HTTP POST 请求的 Python requests 库中的一个函数。以下是其主要参数：

url (str):

指定要发送请求的目标 URL。

data (dict, list of tuples, bytes, or file-like object):

请求中要包含的数据。可以是字典、元组列表、字节或类文件对象。

json (object):

以 JSON 格式发送的数据。如果设置了这个参数，它将覆盖 data 参数。

headers (dict):

用于设置 HTTP 请求头的字典。

params (dict or tuple):

作为 URL 查询参数发送的字典或元组。

auth (tuple):

HTTP 认证的元组，通常是 (username, password)。

cookies (dict):

要随请求一起发送的 cookies 字典。

files (dict):

要上传的文件，以字典形式提供，其中键是字段名称，值是文件名或文件对象。

timeout (float or tuple):

请求超时时间。可以是一个浮点数，也可以是一个包含连接和读取超时的元组。

allow_redirects (bool):

是否允许重定向，默认为 True。

proxies (dict):

代理字典，用于指定请求时要使用的代理。

verify (bool or str):

用于指定是否验证服务器的 SSL 证书。可以是布尔值或字符串（指定证书路径）。

stream (bool):

如果为 True，则内容不会立即下载。可以通过迭代响应的内容属性来手动处理流。

cert (str or tuple):

客户端证书文件路径，也可以是包含证书和密钥文件路径的元组。

hooks (dict):

钩子函数的字典，允许用户在请求的不同阶段注册回调函数。

params (dict or tuple):

作为 URL 查询参数发送的字典或元组。

其中只有URL是必须有的参数

类型

构造带参数的URL，利用参数动态请求

构造Cookie携带参数，利用HTTP头部传递动态请求

离线分析Ajax的动态请求，使用动态页面采集或Cookie、POST发送动态请求

模拟浏览器技术

使用带参数的URL

页面带编码

模拟编码

主要有utf-8、gbk、gb2312、unicode之间的转换

编码转换

仿照目标代码，比如\转换成%

实现方式

url参数放在字典，通过字典和字符串运算拼接带参数的url

利用Cookie和Session

cookie的获得/构造

浏览器→开发者模式→访问网站→获取Cookie→存放Cookie到一个txt文件

notion image

notion image

cookie传递到服务器

cookie中存的是键值对，所以可以用字典存放

Cookie传递的是HTTP协议的请求头

需要使用request.get（“url”,cookies=cookies)中指定cookies的属性值

可以创建Session把cookie信息放到服务器，减少访问次数降低cookie信息泄露风险

需要使用request.session().get(URL)

Ajax

寻找Ajax动态加载的URL

重复执行的JS其中的URL

打开url返回的是多个键值对

实现方式

notion image

notion image

notion image

notion image

一些页面还支持POST提交向服务器发送请求的动态参

把Pyload数据封装成json

dataj=json.dumps(payload)

以post方法发送url请求

requests.post(url, data=dataj, header=payloadHeader)

模拟浏览器

实现方式

模拟特定浏览器的header

使用浏览器内核

直接在浏览器上开发组件

模拟特定浏览器的header

requests.get(url,headers=http_headers)

其中 http_headers是字典，存放 User-Agent 、 Accpet 等键值对
User-Agent 存放的是头部文件

使用浏览器内核

pip install selenium

下载chromedriver，与浏览器版本对应，解压后放到浏览器安装目录

将chromedriver.exe所在的目录名添加到操作系统的path环境变量中

页面结构分析

通过页面源代码寻找界面控件对应的控件名称

编程实现

普通爬虫页面采集技术与Python实现

Web信息提取与Python实现

Loading...

Article List

一个NotionNext搭建的博客

数据库系统概论

第一章]绪论

第二章]关系数据库

第三章]关系数据库标准语言SQL

第四章]数据库的安全性

第五章]数据库完整性

第六章]关系数据概论

第七章]数据库设计

第八章]数据库编程

第十章]数据库恢复技术

第十一章]并发控制

大数据原理与应用

[第一章]大数据概述

[第二章]大数据处理架构Hadoop

[第三章]分布式文件系统HDFS

[第四章]分布式数据库HBase

[第五章]NoSQL数据库

[第六章]云数据库

[第七章]MapReduce

[第八章]Hadoop再探讨

[第九章]数据仓库Hive

[第十章]Spark

[第十一章]流计算

[第十二章]Flink

[第十三章]图计算

javaWeb应用开发基础教程

[第一章]集成开发环境搭建

[第二章]JDBC

[第三章]Servlet

[第五章]JavaBean

[第八章]过滤器和监听器

[第十章]Spark

[第十一章]Spring框架核心基础

[第十三章]Spring MVC

毕业设计规划

python

常用内置函数

毕业设计

spring boot后端

系统功能模块设计

前后端框架

大数据技术综合应用

实训-航空数据系统

准备系统运行的先决条件

安装配置ZooKeeper

安装配置Hadoop集群

Python数据分析环境准备

数据预处理

java面向对象程序设计

搭建开发环境

编写第一个java程序

JAVA语言基础

面向对象编程

抽象类和接口

数据结构

树和森林的存储和遍历

算法分析与设计

[第一章]算法概述

[第二章]递归与分治策略

[第三章]动态规划

[第四章]贪心算法

[第五章]回溯法

[第六章]分支限界

判断奇偶数的条件

SPARK

【第二章】Spark设计与运行原理

【第四章】RDD编程

【第五章】DataFrame

【第六章】流计算

【第七章】Structured Streaming

【第八章】机器学习

Python爬虫大数据采集与挖掘

大数据采集概述

Web页面及相关技术

Web应用架构与协议

普通爬虫页面采集技术与Python实现

动态页面采集与Python实现

Web信息提取与Python实现

主题爬虫页面采集技术与Python实现

[第八章]Deep Web爬虫与Python实现

云计算

云计算概论

容器与容器云

概率论与数理统计

一、随机事件及其概率

二、随机变量及其分布

离散随机变量及其分布

连续型随机变量及其分布

二维离散型随机变量

二维连续型随机变量

期望与方差

中心极限定理

数字逻辑

数据选择器

计算机网络

计算机网络和因特网

网络层数据层面

网络层控制层面

计算机组成原理

第一章]计算机系统概述

第二章]数据信息的表示

第三章]运算方法与运算器

第四章]存储系统

第六章]中央处理器

第八章]总线系统

第九章]输入输出系统

linux

Linux基本概念与常用指令

Linux系统配置与管理

linux网络基础

shell程序设计

网络服务配置与管理

如何建立自己的linux系统

操作系统

[第一章]操作系统引论

[第二章]进程的描述与控制

[第三章]处理机调度与死锁

[第四章]进程同步

[第五章]存储器管理

[第六章]虚拟存储器

[第八章]文件管理

[第九章]磁盘存储管理

人工智能导论

[第一章]绪论

[第二章]知识表示与知识图谱

[第三章]确定性推理方法

[第四章]不确定性推理方法

[第五章]搜索求解策略

[第六章]智能计算及其应用

[第七章]专家系统与机器学习

[第八章]人工神经网络与深度学习

[第十章]自然语言处理及其应用

[第十一章]人工智能在游戏设计中的应用

数据仓库与数据挖掘

数据仓库和数据挖掘概述

数据仓库设计

[第五章]关联分析算法

[第六章]决策树分类算法

[第七章]贝叶斯分类算法

[第八章]神经网络算法

[第九章]回归分析算法

[第十章]时间序列分析

数据可视化

【第一章】概述

【第三章】数据读写和pandas

【第四章】类别比较型图表

【第九章】高维数据可视化

大数据安全与隐私保护

【第一章】网络空间安全：理解与认识

【第二章】常用的几个基本概念

【第三章】密码算法

【第五章】密钥管理

【第十二章】网络与系统攻击

【第十五章】互联网安全

c语言

C++

变量和数据类型