大数据分析

来自CloudWiki
Cloud17讨论 | 贡献2018年7月19日 (四) 01:56的版本 网址收藏
跳转至: 导航搜索

网址收藏

网络爬虫入门

获取网页

解析网页

解析网页的基础技术:re正则表达式、BeautifulSoup和lxml。

解析网页的进阶技术:解决中文乱码。

存储数据

存储数据的基础技术:存入txt文件和存入csv文件。存储数据的进阶技术:存入MySQL数据库和存入MongoDB数据库。

提升爬虫速度

其他

参考文档:

[1] https://github.com/Santostang/PythonScraping