一个NotionNext搭建的博客
数据库系统概论
大数据原理与应用
javaWeb应用开发基础教程
python
毕业设计
大数据技术综合应用
实训-航空数据系统
java面向对象程序设计
数据结构
算法分析与设计
SPARK
Python爬虫大数据采集与挖掘
云计算
概率论与数理统计
数字逻辑
计算机网络
计算机组成原理
linux
操作系统
人工智能导论
数据仓库与数据挖掘
数据可视化
大数据安全与隐私保护
c语言
C++
Web页面及相关技术
HTML语言规范
HTML标签
由<>和关键字组成
- 元素
开标签到闭标签之间的代码
分类
- 是否闭合
- 闭合标签
- 空标签
开始标签到结束标签
没有内容,通常用来占位
- 按文件位置
- 块级标
- 行内标签
- 行内-块级标签
签独占一行可以设置元素
和其他元素在同一行不可设置元素
多个元素显示在同一行可以设置元素
整体结构
头部
<head> </head>页面标题、关键字、说明等内容
头部
<body> </body> CSS
层叠样式表单,用来定义如何显示HTML元素
- 内联样式
- 内部样式表
- 外部引用
常用标签
<meta>
charset属性声明Web文档的字符编码
<p>
定义段落
<div>
将文档分割成独立的部位
<table>
定义表格
<a>
定义超链接
- href属性指示链接目标
<form>
将数据传送到服务器的表单
<base>
为所有超链接提供根目录
<script>
脚本
编码体系与规范
网页编码
- ASCII
- UTF-8
- gbk
- unicode
网页中的编码和python处理
python编码转换时会通过中间转换(unicode)
- charset包自动监测编码模式
正则表达式
匹配搜索分割替换
import re常用的pattern
- ‘.’通配符
除了/n以外,一个’.’代表一个字符
- ‘*’重复匹配
允许*之前的一个字符重复多次’caaaaaaat’
- ‘?’重复匹配(01)
允许?之前的一个字符重复0或1次caat’
- ‘+’重复匹配(>1)
允许+之前的一个字符重复至少1次caat’
- ‘{}’重复匹配(自定义)
- {5}#5次
- {1,5}#1到5次
允许{}之前的一个字符重复自定义次‘caat’
- ’[]’
- [a-zA-Z0-9]
定义匹配的字符范围
- ‘^’
必须从字符串起始位置开始匹配,不考虑后续字符串是否存在
- ‘$’
字符串从最后开始匹配
- ‘|’
两个模式进行或的匹配
- ‘\’转义字符
- . ? + $ ^ [] {} | \ - 。要匹配前面加’\’
特殊字符的匹配
Prev
大数据采集概述
Next
Web应用架构与协议
Loading...
