查看“丝路通:分布式爬虫任务分配”的源代码
←
丝路通:分布式爬虫任务分配
跳转至:
导航
,
搜索
因为以下原因,您没有权限编辑本页:
您所请求的操作仅限于该用户组的用户使用:
用户
您可以查看与复制此页面的源代码。
==任务切割== 将原始的待爬目录表 分割成许多小份,当作许多小任务去完成。 ===敦煌网=== <nowiki> import time task_header ='../../task/dh_task/dh_task_' #header def assign_task(): task_content = "" # 创建类别网址列表 fp = open('dh_sub_category.csv', "rt") # 打开csv文件 count= 0 num =0 #类别名 类目级别 父类目级别 s =set()#储存已有的类别 for line in fp: # 文件对象可以直接迭代 count +=1 task_content +=line if count%100 ==0: num += 1 fw = open(task_header+str(num)+".csv","w",encoding="utf-8") fw.write(task_content) fw.close() task_content ="" fw = open(task_header+str(num)+".csv","a",encoding="utf-8") fw.write(task_content) fw.close() task_content ="" fp.close() if __name__ == '__main__': assign_task() </nowiki> ===阿里巴巴=== <nowiki> import time task_header ='../../task/ali_task/ali_task_' #header def assign_task(): task_content = "" # 创建类别网址列表 fp = open('alibaba_categary.csv', "rt") # 打开csv文件 count= 0 num =0 #类别名 类目级别 父类目级别 for line in fp: # 文件对象可以直接迭代 count +=1 task_content +=line if count%100 == 0: num += 1 fw = open(task_header+str(num)+".csv","w",encoding="utf-8") fw.write(task_content) fw.close() task_content ="" if num <= 50: fw = open(task_header+str(num)+".csv","a",encoding="utf-8") else: fw = open(task_header+str(num+1)+".csv","a",encoding="utf-8") fw.write(task_content) fw.close() task_content ="" fp.close() if __name__ == '__main__': assign_task() </nowiki> ===中国制造网=== <nowiki> import time task_header ='../../task/mc_task/mc_task_' #header def assign_task(): task_content = "" # 创建类别网址列表 fp = open('made_in_china_sub_cat.csv', "rt") # 打开csv文件 count= 0 num =0 for line in fp: # 文件对象可以直接迭代 count +=1 task_content +=line if count%200 ==0: num += 1 fw = open(task_header+str(num)+".csv","w",encoding="utf-8") fw.write(task_content) fw.close() task_content ="" if num <= 100: fw = open(task_header+str(num)+".csv","a",encoding="utf-8") else: fw = open(task_header+str(num+1)+".csv","a",encoding="utf-8") fw.write(task_content) fw.close() task_content ="" fp.close() if __name__ == '__main__': assign_task() </nowiki> ==任务表建立== ===安装mysql和django=== *[[Centos7 安装python3]],本项目安装python3.6 *[[Centos7 安装MySQL]] *[[Django安装与启动]] ===model设计和资源导入 === *[[项目初始化]]、补充:[[MySQL中的character set和collation]] *[[user models设计]] *[[goods modeles设计]]、补充:[[django中choice的使用]] *[[trade交易的model设计]] *[[用户操作的model设计]]、补充:[[django中unique together使用]]
返回至
丝路通:分布式爬虫任务分配
。
导航菜单
个人工具
登录
命名空间
页面
讨论
变种
视图
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
帮助
工具
链入页面
相关更改
特殊页面
页面信息