“大数据基础知识”的版本间的差异

来自CloudWiki
跳转至: 导航搜索
数据爬取 -- 爬虫基础知识
 
(未显示同一用户的3个中间版本)
第36行: 第36行:
 
*[[使用pandas保存豆瓣短评数据]]
 
*[[使用pandas保存豆瓣短评数据]]
 
*[[浏览器抓包及headers设置(案例一:爬取知乎)]]
 
*[[浏览器抓包及headers设置(案例一:爬取知乎)]]
 +
*[[Centos7 安装python3]]、[[数据入库之MongoDB(案例二:爬取拉勾)]]
 +
*[[使用自动化神器Selenium爬取动态网页(案例三:爬取淘宝商品)]]
 +
  
 
===Python爬虫之Scrapy框架===
 
===Python爬虫之Scrapy框架===
第60行: 第63行:
 
* scrapy写入数据到elasticsearch中  
 
* scrapy写入数据到elasticsearch中  
  
 +
*[[ElasticSearch入门]]
  
 
=== django搭建搜索网站===
 
=== django搭建搜索网站===
第68行: 第72行:
 
* django实现搜索结果分页  
 
* django实现搜索结果分页  
 
* 搜索记录、热门搜索功能实现
 
* 搜索记录、热门搜索功能实现
 +
 +
*[[Django搭建网站]]
  
 
==数据分析 -- 关键词提取技术==
 
==数据分析 -- 关键词提取技术==
 
*通过中文分词算法提取关键词
 
*通过中文分词算法提取关键词
*通过文本分析算法分析数据的热点
+
*通过文本分析算法分析热点词汇
 
*绘制关键词词云
 
*绘制关键词词云
  
[[文件:Python10-1.png]]
+
[[文件:Python10-1.png|700px]]

2019年7月30日 (二) 07:50的最新版本

Html5基础知识

  • Html5 基础知识
  • CSS 基础知识
  • Javascript基础知识
  • 用Javascript制作条形图、柱状图、饼图,各种炫图
  • 设计大数据展示网页
  • 微信小程序开发

Python基础知识

Python的安装与使用

  • Python的安装
  • 第一个Python程序

Python的基本语法

  • Python基本数据类型
  • Python程序的控制结构
  • Python函数的基本使用
  • 组合数据类型
  • Python文件操作
  • Python计算生态

Python库的使用

  • Python标准库的使用
  • Python第三方库概览:jieba分词


数据爬取 -- 爬虫基础知识

Python爬虫入门


Python爬虫之Scrapy框架

  • 爬虫工程化及Scrapy框架初窥
  • Scrapy安装及基本使用
  • Scrapy选择器的用法
  • Scrapy的项目管道
  • Scrapy的中间件
  • Scrapy的Request和Response详解

数据存储 -- 数据库与开源引擎

elasticsearch搜索引擎的使用

  • elasticsearch安装
  • elasticsearch-head插件以及kibana的安装
  • elasticsearch的基本概念
  • 倒排索引
  • elasticsearch 基本的索引和文档CRUD操作
  • scrapy写入数据到elasticsearch中

django搭建搜索网站

  • es完成搜索建议-搜索建议字段保存
  • django实现elasticsearch的搜索建议
  • django实现elasticsearch的搜索功能
  • django实现搜索结果分页
  • 搜索记录、热门搜索功能实现

数据分析 -- 关键词提取技术

  • 通过中文分词算法提取关键词
  • 通过文本分析算法分析热点词汇
  • 绘制关键词词云

Python10-1.png