导航:首页 > 电影影评 > 怎么爬取豆瓣电影页面的短评

怎么爬取豆瓣电影页面的短评

发布时间:2023-09-29 05:16:00

怎么用python抓取豆瓣上用户对电影的评分

#!/usr/bin/env python2.7# encoding=utf-8"""
爬取豆瓣电影TOP250 - 完整示例代码
"""import codecsimport requestsfrom bs4 import BeautifulSoup

DOWNLOAD_URL = 'http://movie.douban.com/top250/'def download_page(url):
return requests.get(url, headers={ 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36'
}).contentdef parse_html(html):
soup = BeautifulSoup(html)
movie_list_soup = soup.find('ol', attrs={'class': 'grid_view'})

movie_name_list = [] for movie_li in movie_list_soup.find_all('li'):
detail = movie_li.find('div', attrs={'class': 'hd'})
movie_name = detail.find('span', attrs={'class': 'title'}).getText()

movie_name_list.append(movie_name)

next_page = soup.find('span', attrs={'class': 'next'}).find('a') if next_page: return movie_name_list, DOWNLOAD_URL + next_page['href'] return movie_name_list, Nonedef main():
url = DOWNLOAD_URL with codecs.open('movies', 'wb', encoding='utf-8') as fp: while url:
html = download_page(url)
movies, url = parse_html(html)
fp.write(u'{movies}\n'.format(movies='\n'.join(movies)))if __name__ == '__main__':
main()

Ⅱ Python爬虫实战(1)requests爬取豆瓣电影TOP250

爬取时间:2020/11/25
系统环境:Windows 10
所用工具:Jupyter NotebookPython 3.0
涉及的库:requestslxmlpandasmatplotlib umpy

蛋肥想法: 先将电影名称、原名、评分、评价人数、分类信息从网站上爬取下来。

蛋肥想法: print数据列表后发现电影原名、分类信息等存在不需要的字符,需预先处理;同时因为后续想做一个豆瓣电影TOP250的维度分布图,而同一电影存在多个发行国家、类型(如“法国 美国 / 剧情 动作 犯罪”),为了简(偷)便(懒),这里均取第一个作为记入的数据;最后将数据保存为xlsx。

蛋肥想法: 蛋肥想知道在豆瓣电影TOP250中年份、国家、类型的维度数据,为了练手,使用刚才保存成xlsx的数据,并分别画成雷达图、柱形图、扇形图。

Ⅲ 怎么在豆瓣里看到自己的影评

短评还是长评?短评就是你加这个片子为“看过”时弹出的对话框写的内容,可以点开“我看”找到“看过”,点看过旁边的数字,就能看到自己所有的短评。同样,在“我看”页面,即“id号的电影”页面,点“影评”就可以看到自己为影片写的长评论。

也可以打开那个片子的页面,在海报下方,评星的位置下面就看得到你自己写的短评。在电影页面的下方有大家的评论即“XXX影片的评论”,找自己的就可以(但是对于那些评论很多的片子,还是需要找上一阵的,不方便)。

Ⅳ 怎样避开豆瓣对爬虫的封锁,从而抓取豆瓣上电影内容

用前嗅的ForeSpider数据采集软件可以采集,我之前采过豆瓣的影评,可以设置各种过滤规律,比如我只要豆瓣评分6.0以上的电影,就可以精确的过滤。ForeSpider可以智能模拟浏览器和用户行为,突破反爬虫限制。可以设置代理IP,并且可以自动过滤优质IP代理,提高使用代理的速度。
对于一些高难度的网站,反爬虫措施比较多,可以使用ForeSpider内部自带的爬虫脚本语言系统,简单几行代码就可以采集到高难度的网站。
可以去下载免费版,免费版不限制采集功能。有详细的操作手册可以学习。如果自己不想学习,可以让前嗅进行配置。
而且客服可以教你怎样用,有问题出错了客服会远程操作,非常好的服务态度。

阅读全文

与怎么爬取豆瓣电影页面的短评相关的资料

热点内容
国学电影有哪些内容是什么意思 浏览:840
怎么观看刚出的新电影 浏览:740
我看过的电影作文英语怎么说 浏览:64
电影20号古宅怎么不能看了 浏览:28
哪个国产电影海报最好看 浏览:757
免费在线电影美丽的童年 浏览:94
严智英电影叫什么名字 浏览:195
最美的你电影免费完整 浏览:142
白雪姬电影讲什么 浏览:551
怎么评价姜文在中国电影的位置 浏览:187
关于富豪生活的电影有哪些 浏览:703
在沙漠里喝马血是什么电影 浏览:181
90年代电影好看的国产 浏览:398
2004年电影电视剧有哪些 浏览:845
无名小卒粤语电影免费 浏览:114
如何看英语电影关字幕 浏览:207
推荐几个日本好看的电影网站 浏览:397
深圳有多少家大型电影院 浏览:158
泰国电影鬼夫女主角怎么死的 浏览:835
中国高清电影下载免费下载 浏览:354