Skip to content

泛解析站群的问题 #3

@c1y2m3

Description

@c1y2m3

将页面上的超链接插入 pages 表,但是会碰到页面中有泛解析站群的网站,内容都是js生成随机调用链接,就会无限循环爬虫
我遇到了很多这样的站,如下:

"link_url": "http://smp47ccf.gdyaauc.com",
"href_domains": [
  "http://05u2svrf.zjjzgh.org",
  "http://0l3p7aft.qiliangjy.top",
  "http://19vmozz2.zcfgwn.com",
  "http://1lgvfoe.sdjdlw.com",
  "http://2xys6axot.qifeng365.com.cn",
  "http://3a8n6t66d.jscysg.com",
  "http://3b5g5f5.sckcjsqg.com",
  "http://4tbtzl1uu.tumourcloud.com",
  "http://5rwocxf.666ic.net",
  "http://5wjhuzbgw.t4h.cn",
  "http://61loq0d.lshlyd.com",]

"link_url": "http://nmmqtrv.ciduw.com",
"href_domains": [
  "http://1.ciduw.com",
  "http://11.ciduw.com",
  "http://1118741.ciduw.com",
  "http://112.ciduw.com",
  "http://112579.ciduw.com",
  "http://12237.ciduw.com",
  "http://1227.ciduw.com",
  "http://126139.ciduw.com",
  "http://129.ciduw.com",
  "http://13581966.ciduw.com",
  "http://1359143.ciduw.com",
  "http://13838252.ciduw.com",
  "http://14.ciduw.com",]

大多都是随机几位英文+数字组合,但是通过过滤英文+数字组合还是会爬取到其他站群
我目前是限制了域名个数,减低程序在泛解析站群上花费的时间
不知道大家有什么更优的方法来爬出这些陷阱?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions