Ⅰ 怎么用python抓取豆瓣上用户对电影的评分
#!/usr/bin/env python2.7# encoding=utf-8"""
爬取豆瓣电影TOP250 - 完整示例代码
"""import codecsimport requestsfrom bs4 import BeautifulSoup
DOWNLOAD_URL = 'http://movie.douban.com/top250/'def download_page(url):
return requests.get(url, headers={ 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36'
}).contentdef parse_html(html):
soup = BeautifulSoup(html)
movie_list_soup = soup.find('ol', attrs={'class': 'grid_view'})
movie_name_list = [] for movie_li in movie_list_soup.find_all('li'):
detail = movie_li.find('div', attrs={'class': 'hd'})
movie_name = detail.find('span', attrs={'class': 'title'}).getText()
movie_name_list.append(movie_name)
next_page = soup.find('span', attrs={'class': 'next'}).find('a') if next_page: return movie_name_list, DOWNLOAD_URL + next_page['href'] return movie_name_list, Nonedef main():
url = DOWNLOAD_URL with codecs.open('movies', 'wb', encoding='utf-8') as fp: while url:
html = download_page(url)
movies, url = parse_html(html)
fp.write(u'{movies}\n'.format(movies='\n'.join(movies)))if __name__ == '__main__':
main()
Ⅱ Python爬虫实战(1)requests爬取豆瓣电影TOP250
爬取时间:2020/11/25
系统环境:Windows 10
所用工具:Jupyter NotebookPython 3.0
涉及的库:requestslxmlpandasmatplotlib
umpy
蛋肥想法: 先将电影名称、原名、评分、评价人数、分类信息从网站上爬取下来。
蛋肥想法: print数据列表后发现电影原名、分类信息等存在不需要的字符,需预先处理;同时因为后续想做一个豆瓣电影TOP250的维度分布图,而同一电影存在多个发行国家、类型(如“法国 美国 / 剧情 动作 犯罪”),为了简(偷)便(懒),这里均取第一个作为记入的数据;最后将数据保存为xlsx。
蛋肥想法: 蛋肥想知道在豆瓣电影TOP250中年份、国家、类型的维度数据,为了练手,使用刚才保存成xlsx的数据,并分别画成雷达图、柱形图、扇形图。
Ⅲ 怎么在豆瓣里看到自己的影评
短评还是长评?短评就是你加这个片子为“看过”时弹出的对话框写的内容,可以点开“我看”找到“看过”,点看过旁边的数字,就能看到自己所有的短评。同样,在“我看”页面,即“id号的电影”页面,点“影评”就可以看到自己为影片写的长评论。
也可以打开那个片子的页面,在海报下方,评星的位置下面就看得到你自己写的短评。在电影页面的下方有大家的评论即“XXX影片的评论”,找自己的就可以(但是对于那些评论很多的片子,还是需要找上一阵的,不方便)。
Ⅳ 怎样避开豆瓣对爬虫的封锁,从而抓取豆瓣上电影内容
用前嗅的ForeSpider数据采集软件可以采集,我之前采过豆瓣的影评,可以设置各种过滤规律,比如我只要豆瓣评分6.0以上的电影,就可以精确的过滤。ForeSpider可以智能模拟浏览器和用户行为,突破反爬虫限制。可以设置代理IP,并且可以自动过滤优质IP代理,提高使用代理的速度。
对于一些高难度的网站,反爬虫措施比较多,可以使用ForeSpider内部自带的爬虫脚本语言系统,简单几行代码就可以采集到高难度的网站。
可以去下载免费版,免费版不限制采集功能。有详细的操作手册可以学习。如果自己不想学习,可以让前嗅进行配置。
而且客服可以教你怎样用,有问题出错了客服会远程操作,非常好的服务态度。