从一个初始网页开始, 获得足够多的豆瓣电影评论(数据可以定义为3万部电影)
必须要获得的数据:
<豆瓣电影的id, 电影名称, 时间, 评论, 星级>
例如:
- <21345, 阿甘正传, 1994, “简直太棒了”, 5>
- <21345, 阿甘正传, 1994, “五星好评!!!”, 5>
- <21345, 阿甘正传, 1994, “五星好评!!!”, 5>
- <21345, 阿甘正传, 1994, “五星好评!!!”, 5>
- <12314, 西游外传, 2001, “真懒!!!”, 1>
- bs4 # beautiful soup
- requests
- jieba
- pandas
- 每个人提交自己的源代码工程;
- 每个人提交自己爬去的数据csv文件;
- 使用DFS 广度优先 进行遍历
- 使用bs4, requests 进行解析;
- 自己设计策略不要让豆瓣封号 :P
- 使用python自带的csv文件读写存储文件