GitHub - computing-intelligence/assignment_get_douban_comment: DeeplearningForNLP Assignemtn01: assignemt_get_douban_comment

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
readme.md		readme.md

Repository files navigation

Assignment 01 写爬虫获得豆瓣的电影评论

从一个初始网页开始，获得足够多的豆瓣电影评论（数据可以定义为3万部电影）

必须要获得的数据:

<豆瓣电影的id，电影名称，时间，评论，星级>

例如:

<21345, 阿甘正传， 1994， “简直太棒了”, 5>
<21345, 阿甘正传， 1994， “五星好评！！！”, 5>
<21345, 阿甘正传， 1994， “五星好评！！！”, 5>
<21345, 阿甘正传， 1994， “五星好评！！！”, 5>
<12314, 西游外传， 2001， “真懒！！！”, 1>

Requirement

bs4 # beautiful soup
requests
jieba
pandas

提交

每个人提交自己的源代码工程；
每个人提交自己爬去的数据csv文件;

提示

使用DFS 广度优先进行遍历
使用bs4, requests 进行解析；
自己设计策略不要让豆瓣封号 :P
使用python自带的csv文件读写存储文件

最终提示(实在写不出来的时候再看)

源代码参考链接

About

DeeplearningForNLP Assignemtn01: assignemt_get_douban_comment

Custom properties

Report repository

Releases

No releases published

Packages

No packages published