“大数据分析”的版本间的差异
来自CloudWiki
(未显示2个用户的28个中间版本) | |||
第1行: | 第1行: | ||
*[[Hadoop平台安装部署]] | *[[Hadoop平台安装部署]] | ||
==网址收藏== | ==网址收藏== | ||
− | *[ | + | *[[大数据网站收藏]] |
− | |||
==网络爬虫入门== | ==网络爬虫入门== | ||
第12行: | 第11行: | ||
*[[Python爬取静态网页]] | *[[Python爬取静态网页]] | ||
+ | *[[Python 爬虫 1 - Requests 库入门与实战]] | ||
+ | *[[Python 爬虫 2 - 信息提取(Beautiful Soup 库)]] | ||
+ | |||
*[[Python爬取动态网页]] | *[[Python爬取动态网页]] | ||
==解析网页== | ==解析网页== | ||
*[[Python解析网页]] | *[[Python解析网页]] | ||
− | |||
− | |||
− | |||
− | |||
==存储数据== | ==存储数据== | ||
第33行: | 第31行: | ||
==其他== | ==其他== | ||
*[[数据获取]] | *[[数据获取]] | ||
+ | *[[通过API获取数据]] | ||
+ | *[[搭建 PySpider 爬虫服务]] | ||
*[[数据清洗和整理]] | *[[数据清洗和整理]] | ||
*[[数据计算和表达]] | *[[数据计算和表达]] |
2018年8月27日 (一) 13:08的最新版本
网址收藏
网络爬虫入门
获取网页
解析网页
存储数据
存储数据的基础技术:存入txt文件和存入csv文件。存储数据的进阶技术:存入MySQL数据库和存入MongoDB数据库。
提升爬虫速度
其他
参考文档: