-
Notifications
You must be signed in to change notification settings - Fork 99
Open
Description
将页面上的超链接插入 pages 表,但是会碰到页面中有泛解析站群的网站,内容都是js生成随机调用链接,就会无限循环爬虫
我遇到了很多这样的站,如下:
"link_url": "http://smp47ccf.gdyaauc.com",
"href_domains": [
"http://05u2svrf.zjjzgh.org",
"http://0l3p7aft.qiliangjy.top",
"http://19vmozz2.zcfgwn.com",
"http://1lgvfoe.sdjdlw.com",
"http://2xys6axot.qifeng365.com.cn",
"http://3a8n6t66d.jscysg.com",
"http://3b5g5f5.sckcjsqg.com",
"http://4tbtzl1uu.tumourcloud.com",
"http://5rwocxf.666ic.net",
"http://5wjhuzbgw.t4h.cn",
"http://61loq0d.lshlyd.com",]
"link_url": "http://nmmqtrv.ciduw.com",
"href_domains": [
"http://1.ciduw.com",
"http://11.ciduw.com",
"http://1118741.ciduw.com",
"http://112.ciduw.com",
"http://112579.ciduw.com",
"http://12237.ciduw.com",
"http://1227.ciduw.com",
"http://126139.ciduw.com",
"http://129.ciduw.com",
"http://13581966.ciduw.com",
"http://1359143.ciduw.com",
"http://13838252.ciduw.com",
"http://14.ciduw.com",]
大多都是随机几位英文+数字组合,但是通过过滤英文+数字组合还是会爬取到其他站群
我目前是限制了域名个数,减低程序在泛解析站群上花费的时间
不知道大家有什么更优的方法来爬出这些陷阱?
Metadata
Metadata
Assignees
Labels
No labels