泛解析站群的问题

将页面上的超链接插入 pages 表，但是会碰到页面中有泛解析站群的网站，内容都是js生成随机调用链接，就会无限循环爬虫
我遇到了很多这样的站，如下：

    "link_url": "http://smp47ccf.gdyaauc.com",
    "href_domains": [
      "http://05u2svrf.zjjzgh.org",
      "http://0l3p7aft.qiliangjy.top",
      "http://19vmozz2.zcfgwn.com",
      "http://1lgvfoe.sdjdlw.com",
      "http://2xys6axot.qifeng365.com.cn",
      "http://3a8n6t66d.jscysg.com",
      "http://3b5g5f5.sckcjsqg.com",
      "http://4tbtzl1uu.tumourcloud.com",
      "http://5rwocxf.666ic.net",
      "http://5wjhuzbgw.t4h.cn",
      "http://61loq0d.lshlyd.com",]

    "link_url": "http://nmmqtrv.ciduw.com",
    "href_domains": [
      "http://1.ciduw.com",
      "http://11.ciduw.com",
      "http://1118741.ciduw.com",
      "http://112.ciduw.com",
      "http://112579.ciduw.com",
      "http://12237.ciduw.com",
      "http://1227.ciduw.com",
      "http://126139.ciduw.com",
      "http://129.ciduw.com",
      "http://13581966.ciduw.com",
      "http://1359143.ciduw.com",
      "http://13838252.ciduw.com",
      "http://14.ciduw.com",]

大多都是随机几位英文+数字组合，但是通过过滤英文+数字组合还是会爬取到其他站群
我目前是限制了域名个数，减低程序在泛解析站群上花费的时间
不知道大家有什么更优的方法来爬出这些陷阱？


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

泛解析站群的问题 #3

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

泛解析站群的问题 #3

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions