|
|
第15行: |
第15行: |
| ==解析网页== | | ==解析网页== |
| *[[Python解析网页]] | | *[[Python解析网页]] |
− |
| |
− | 解析网页的基础技术:re正则表达式、BeautifulSoup和lxml。
| |
− |
| |
− | 解析网页的进阶技术:解决中文乱码。
| |
| | | |
| ==存储数据== | | ==存储数据== |
2018年7月19日 (四) 06:45的版本
网址收藏
网络爬虫入门
获取网页
解析网页
存储数据
存储数据的基础技术:存入txt文件和存入csv文件。存储数据的进阶技术:存入MySQL数据库和存入MongoDB数据库。
提升爬虫速度
其他
参考文档:
[1] https://github.com/Santostang/PythonScraping