Web页面及相关技术

HTML语言规范

HTML标签

由<>和关键字组成
  • 元素
    • 开标签到闭标签之间的代码

分类

  • 是否闭合
    • 闭合标签
      • 开始标签到结束标签
    • 空标签
      • 没有内容,通常用来占位
  • 按文件位置
    • 块级标
      • 签独占一行可以设置元素
    • 行内标签
      • 和其他元素在同一行不可设置元素
    • 行内-块级标签
      • 多个元素显示在同一行可以设置元素

整体结构

头部

<head> </head>
页面标题、关键字、说明等内容

头部

<body> </body>

CSS

层叠样式表单,用来定义如何显示HTML元素
  1. 内联样式
  1. 内部样式表
  1. 外部引用

常用标签

<meta>

charset属性声明Web文档的字符编码

<p>

定义段落

<div>

将文档分割成独立的部位

<table>

定义表格

<a>

定义超链接
  • href属性指示链接目标

<form>

将数据传送到服务器的表单

<base>

为所有超链接提供根目录

<script>

脚本

编码体系与规范

网页编码

  • ASCII
  • UTF-8
  • gbk
  • unicode

网页中的编码和python处理

python编码转换时会通过中间转换(unicode)
  • charset包自动监测编码模式

正则表达式

匹配搜索分割替换
import re

常用的pattern

  • ‘.’通配符
    • 除了/n以外,一个’.’代表一个字符
  • ‘*’重复匹配
    • 允许*之前的一个字符重复多次’caaaaaaat’
  • ‘?’重复匹配(01)
    • 允许?之前的一个字符重复0或1次caat’
  • ‘+’重复匹配(>1)
    • 允许+之前的一个字符重复至少1次caat’
  • ‘{}’重复匹配(自定义)
    • 允许{}之前的一个字符重复自定义次‘caat’
    • {5}#5次
    • {1,5}#1到5次
  • ’[]’
    • 定义匹配的字符范围
    • [a-zA-Z0-9]
  • ‘^’
    • 必须从字符串起始位置开始匹配,不考虑后续字符串是否存在
  • ‘$’
    • 字符串从最后开始匹配
  • ‘|’
    • 两个模式进行或的匹配
  • ‘\’转义字符
    • 特殊字符的匹配
    • . ? + $ ^ [] {} | \ - 。要匹配前面加’\’
 
 
Prev
大数据采集概述
Next
Web应用架构与协议
Loading...
Article List
一个NotionNext搭建的博客
数据库系统概论
大数据原理与应用
javaWeb应用开发基础教程
python
毕业设计
大数据技术综合应用
实训-航空数据系统
java面向对象程序设计
数据结构
算法分析与设计
SPARK
Python爬虫大数据采集与挖掘
云计算
概率论与数理统计
数字逻辑
计算机网络
计算机组成原理
linux
操作系统
人工智能导论
数据仓库与数据挖掘
数据可视化
大数据安全与隐私保护
c语言
C++