主题爬虫页面采集技术与Python实现

使用场景

  • 垂直搜索引擎
  • 舆情监测
  • 商业情报搜索

技术框架

  • 主题定义
  • 主题相关度
  • 内容相关度

核心框架

  • 主题建模
    • 关键词集合
      • 文本预处理
      • 特征提取
      • 建立数学模型
  • 相关度计算

计算相似性

  • 杰卡德相似性
    • 集合
  • 余弦相似性
    • 向量空间
    • notion image
  • 链接相关度
    • 链接周围的锚文本
 
Prev
Web信息提取与Python实现
Next
[第八章]Deep Web爬虫与Python实现
Loading...
Article List
一个NotionNext搭建的博客
数据库系统概论
大数据原理与应用
javaWeb应用开发基础教程
python
毕业设计
大数据技术综合应用
实训-航空数据系统
java面向对象程序设计
数据结构
算法分析与设计
SPARK
Python爬虫大数据采集与挖掘
云计算
概率论与数理统计
数字逻辑
计算机网络
计算机组成原理
linux
操作系统
人工智能导论
数据仓库与数据挖掘
数据可视化
大数据安全与隐私保护
c语言
C++