“大数据基础知识”的版本间的差异
来自CloudWiki
(→数据爬取 -- 爬虫基础知识) |
|||
(未显示同一用户的3个中间版本) | |||
第36行: | 第36行: | ||
*[[使用pandas保存豆瓣短评数据]] | *[[使用pandas保存豆瓣短评数据]] | ||
*[[浏览器抓包及headers设置(案例一:爬取知乎)]] | *[[浏览器抓包及headers设置(案例一:爬取知乎)]] | ||
+ | *[[Centos7 安装python3]]、[[数据入库之MongoDB(案例二:爬取拉勾)]] | ||
+ | *[[使用自动化神器Selenium爬取动态网页(案例三:爬取淘宝商品)]] | ||
+ | |||
===Python爬虫之Scrapy框架=== | ===Python爬虫之Scrapy框架=== | ||
第60行: | 第63行: | ||
* scrapy写入数据到elasticsearch中 | * scrapy写入数据到elasticsearch中 | ||
+ | *[[ElasticSearch入门]] | ||
=== django搭建搜索网站=== | === django搭建搜索网站=== | ||
第68行: | 第72行: | ||
* django实现搜索结果分页 | * django实现搜索结果分页 | ||
* 搜索记录、热门搜索功能实现 | * 搜索记录、热门搜索功能实现 | ||
+ | |||
+ | *[[Django搭建网站]] | ||
==数据分析 -- 关键词提取技术== | ==数据分析 -- 关键词提取技术== | ||
*通过中文分词算法提取关键词 | *通过中文分词算法提取关键词 | ||
− | * | + | *通过文本分析算法分析热点词汇 |
*绘制关键词词云 | *绘制关键词词云 | ||
− | [[文件:Python10-1.png]] | + | [[文件:Python10-1.png|700px]] |
2019年7月30日 (二) 07:50的最新版本
目录
Html5基础知识
- Html5 基础知识
- CSS 基础知识
- Javascript基础知识
- 用Javascript制作条形图、柱状图、饼图,各种炫图
- 设计大数据展示网页
- 微信小程序开发
Python基础知识
Python的安装与使用
- Python的安装
- 第一个Python程序
Python的基本语法
- Python基本数据类型
- Python程序的控制结构
- Python函数的基本使用
- 组合数据类型
- Python文件操作
- Python计算生态
Python库的使用
- Python标准库的使用
- Python第三方库概览:jieba分词
数据爬取 -- 爬虫基础知识
Python爬虫入门
- 什么是爬虫
- 初识Python爬虫
- 使用Requests爬取豆瓣短评
- 使用Xpath解析豆瓣短评
- 使用pandas保存豆瓣短评数据
- 浏览器抓包及headers设置(案例一:爬取知乎)
- Centos7 安装python3、数据入库之MongoDB(案例二:爬取拉勾)
- 使用自动化神器Selenium爬取动态网页(案例三:爬取淘宝商品)
Python爬虫之Scrapy框架
- 爬虫工程化及Scrapy框架初窥
- Scrapy安装及基本使用
- Scrapy选择器的用法
- Scrapy的项目管道
- Scrapy的中间件
- Scrapy的Request和Response详解
数据存储 -- 数据库与开源引擎
elasticsearch搜索引擎的使用
- elasticsearch安装
- elasticsearch-head插件以及kibana的安装
- elasticsearch的基本概念
- 倒排索引
- elasticsearch 基本的索引和文档CRUD操作
- scrapy写入数据到elasticsearch中
django搭建搜索网站
- es完成搜索建议-搜索建议字段保存
- django实现elasticsearch的搜索建议
- django实现elasticsearch的搜索功能
- django实现搜索结果分页
- 搜索记录、热门搜索功能实现
数据分析 -- 关键词提取技术
- 通过中文分词算法提取关键词
- 通过文本分析算法分析热点词汇
- 绘制关键词词云