Python网络爬虫实习报告[精品文档]
下面是小编为大家整理的Python网络爬虫实习报告[精品文档],供大家参考。
Python网络爬虫实习报告
目录
一、选题背景.................................................................................... - 1 -
二、爬虫原理.................................................................................... - 1 -
三、爬虫历史和分类......................................................................... - 1 -
四、常用爬虫框架比较..................................................................... - 1 -
五、数据爬取实战(豆瓣网爬取电影数据)................................... - 2 -1分析网页 .. (2)
2爬取数据 (2)
3数据整理、转换 (3)
4数据保存、展示 (8)
5技术难点关键点 (9)
六、总结 ......................................................................................... - 12 -
一、选题背景
二、爬虫原理
三、爬虫历史和分类
四、常用爬虫框架比较
Scrapy框架:Scrapy框架是一套比较成熟的Python爬虫框架,是使用Python开发的快速、高层次的信息爬取框架,可以高效的爬取web页面并提取出结构化数据。Scrapy应用范围很广,爬虫开发、数据挖掘、数据监测、自动化测试等。
Crawley框架:Crawley也是Python开发出的爬虫框架,该框架致力于改变人们从互联网中提取数据的方式。
Portia框架:Portia框架是一款允许没有任何编程基础的用户可视化地爬取网页的爬虫框架。
newspaper框架:newspaper框架是一个用来提取新闻、文章以及内容分析的Python爬虫框架。
Python-goose框架:Python-goose框架可提取的信息包括:<1>文章主体内容;<2>文章主要图片;<3>文章中嵌入的任heYoutube/Vimeo视频;<4>元描述;<5>元标签
五、数据爬取实战(豆瓣网爬取电影数据)1分析网页
# 获取html源代码
def __getHtml():
data = []
pageNum = 1
pageSize = 0
try:
while (pageSize <= 125):
# headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko)
Chrome/23.0.1271.64 Safari/537.11",
# "Referer":None #注意如果依然不能抓取的话,这里可以设置抓取网站的host
# }
# opener = urllib.request.build_opener()
# opener.addheaders = [headers]
url = "https://http://www.wendangku.net/doc/b92f866a900ef12d2af90242a8956bec0875a513.html /top250?start=" + str(pageSize) + "&filter=" + str(pageNum)
# data["html%s" %
i ]=urllib.request.urlopen(url).read().decode("utf-8")
data.append(urllib.request.urlopen(url).read().decode("utf-8"))
pageSize += 25
pageNum += 1
print(pageSize, pageNum)
except Exception as e:
raise e
return data
2爬取数据
def __getData(html):
title = [] # 电影标题
#rating_num = [] # 评分
range_num = [] # 排名
#rating_people_num = [] # 评价人数
movie_author = [] # 导演
data = {}
# bs4解析html
soup = BeautifulSoup(html, "html.parser")
for li in soup.find("ol", attrs={"class":
"grid_view"}).find_all("li"):
title.append(li.find("span", class_="title").text) #rating_num.append(li.find("div",
class_="star").find("span", class_="rating_num").text) range_num.append(li.find("div",
class_="pic").find("em").text)
#spans = li.find("div",
class_="star").find_all("span")
#for x in range(len(spans)):
# if x <= 2:
# pass
# else:
#
rating_people_num.append(spans[x].string[-len(spans[x].stri ng):-3])
str = li.find("div", class_="bd").find("p",
class_="").text.lstrip()
index = str.find("主")
if (index == -1):
index = str.find("...")
print(li.find("div",
class_="pic").find("em").text)
if (li.find("div", class_="pic").find("em").text
相关热词搜索: python数据分析报告总结 爬虫 实习报告 文档下一篇:疾控中心实习心得体会
最新推荐New Ranking
酒店西餐厅实习工作内容
2实习日记100篇(2篇)实习日记100篇
3吊车司机实习总结(7篇)吊车司机实习总结
4会计助理实习过程会计助理实习过程
5中药学医院药房实习总结6篇中药学医院药房实习总结6篇中药学医院药房实习总结篇1一、主要内容1、认真总结好20__年度工作。今年是...
6关于大学生暑假实习的工作计划4篇关于大学生暑假实习的工作计划4篇 根据这次客户经理述职会议的安排,现结合我日常工作实际情况向大家...
72024年幼儿园实习工作总结报告篇3篇2023年幼儿园实习工作总结报告精选篇3篇2023年幼儿园实习工作总结报告精选篇篇1在和家长的沟通方面也...
8工程地质实习心得体会范文3篇工程地质实习心得体会范文3篇2023年安全检查自查报告完整版模板 为保证税务系统网络与信息安全,进一...
9暑假实习个人心得体会4篇暑假实习个人心得体会4篇预防校园欺凌国旗下校长讲话3篇。以下是为大家整理的关于暑假实习个人心得体...
10实习幼儿园老师毕业总结篇4篇实习幼儿园老师毕业总结篇4篇实习幼儿园老师毕业总结篇篇1根据综合实践环节教学大纲的要求,同时更重...