站长家园(原代码之家)(www.adminjie.com)网站源码,微信源码,游戏源码,商业源码分享平台。
当前位置:网站首页 技术文章 网络编程 正文

聊聊node中怎么借助第三方开源库实现网站爬取功能

时间:2021-12-21 [网络编程]作者:fabuyuan 浏览:9 次

本篇文章给大家介绍一下node中借助第三方开源库轻松实现网站爬取功能的方法,希望对大家有所帮助!

聊聊node中怎么借助第三方开源库实现网站爬取功能

nodejs实现网站爬取功能

第三方库介绍

  • request 对网络请求的封装

  • cheerio node 版本的 jQuery

  • mkdirp 创建多层的文件夹目录

实现思路

  • 通过request获取指定 url 内容

  • 通过cheerio找到页面中跳转的路径(去重)

  • 通过mkdirp创建目录

  • 通过fs创建文件,将读取的内容写入

  • 拿到没有访问的路径重复以上执行步骤

代码实现

const fs = require("fs");
const path = require("path");
const request = require("request");
const cheerio = require("cheerio");
const mkdirp = require("mkdirp");
// 定义入口url
const homeUrl = "https://www.baidu.com";
// 定义set存储已经访问过的路径,避免重复访问
const set = new Set([homeUrl]);
function grab(url) {
  // 校验url规范性
  if (!url) return;
  // 去空格
  url = url.trim();
  // 自动补全url路径
  if (url.endsWith("/")) {
    url += "index.html";
  }
  const chunks = [];
  // url可能存在一些符号或者中文,可以通过encodeURI编码
  request(encodeURI(url))
    .on("error", (e) => {
      // 打印错误信息
      console.log(e);
    })
    .on("data", (chunk) => {
      // 接收响应内容
      chunks.push(chunk);
    })
    .on("end", () => {
      // 将相应内容转换成文本
      const html = Buffer.concat(chunks).toString();
      // 没有获取到内容
      if (!html) return;
      // 解析url
      let { host, origin, pathname } = new URL(url);
      pathname = decodeURI(pathname);
      // 通过cheerio解析html
      const $ = cheerio.load(html);
      // 将路径作为目录
      const dir = path.dirname(pathname);
      // 创建目录
      mkdirp.sync(path.join(__dirname, dir));
      // 往文件写入内容
      fs.writeFile(path.join(__dirname, pathname), html, "utf-8", (err) => {
        // 打印错误信息
        if (err) {
          console.log(err);
          return;
        }
        console.log(`[${url}]保存成功`);
      });
      // 获取到页面中所有a元素
      const aTags = $("a");
      Array.from(aTags).forEach((aTag) => {
        // 获取到a标签中的路径
        const href = $(aTag).attr("href");
        // 此处可以校验href的合法或者控制爬去的网站范围,比如必须都是某个域名下的
        // 排除空标签
        if (!href) return;
        // 排除锚点连接
        if (href.startsWith("#")) return;
        if (href.startsWith("mailto:")) return;
        // 如果不想要保存图片可以过滤掉
        // if (/\.(jpg|jpeg|png|gif|bit)$/.test(href)) return;
        // href必须是入口url域名
        let reg = new RegExp(`^https?:\/\/${host}`);
        if (/^https?:\/\//.test(href) && !reg.test(href)) return;
        // 可以根据情况增加更多逻辑
        let newUrl = "";
        if (/^https?:\/\//.test(href)) {
          // 处理绝对路径
          newUrl = href;
        } else {
          // 处理相对路径
          newUrl = origin + path.join(dir, href);
        }
        // 判断是否访问过
        if (set.has(newUrl)) return;
        if (newUrl.endsWith("/") && set.has(newUrl + "index.html")) return;
        if (newUrl.endsWith("/")) newUrl += "index.html";
        set.add(newUrl);
        grab(newUrl);
      });
    });
}
// 开始抓取
grab(homeUrl);

总结

简单的网页爬虫就完成了,可以把homeUrl改成自己想要爬取的网站试试。

更多node相关知识,请访问:nodejs 教程!!

以上就是聊聊node中怎么借助第三方开源库实现网站爬取功能的详细内容,更多请关注站长家园其它相关文章!

本文标签:  node网站爬取

转载请注明来源:聊聊node中怎么借助第三方开源库实现网站爬取功能

本文永久链接地址:https://www.adminjie.com/post/6686.html

免责声明:
本站所发布的一切资源仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。

附:
二○○二年一月一日《计算机软件保护条例》第十七条规定:为了学习和研究软件内含的设计思想和原理,通过安装、显示、传输或者存储软件等方式使用软件的,可以不经软件著作权人许可,不向其支付报酬!鉴于此,也希望大家按此说明研究软件!

版权声明:
一、本站致力于为软件爱好者提供国内外软件开发技术和软件共享,着力为用户提供优资资源。
二、本站提供的部分源码下载文件为网络共享资源,请于下载后的24小时内删除。如需体验更多乐趣,还请支持正版。
三、我站提供用户下载的所有内容均转自互联网。如有内容侵犯您的版权或其他利益的,若有侵犯你的权益请:提交版权证明文件到邮箱 2225329873#qq.com(#换为@) 站长会进行审查之后,情况属实的会在三个工作日内为您删除。

  • 站长家园(原代码之家)会员升级
  • 最新文章
    • 如何解决centos7 vnc界面乱码问题

      如何解决centos7 vnc界面乱码问题

      centos7vnc界面乱码的解决办法:1、执行“yum-yinstallcjkuni-ukai-fonts”;2、执行“yum-yinstall...

    • wap和html5的区别有哪些

      wap和html5的区别有哪些

      区别:1、HTML5是一种脚本语言,而wap是一种无线应用协议;2、HTML5目前支持大多数web平台和移动终端,可以通过自己的脚本语言进行跨平台访问,而wap...

    • 如何解决centos navicat 乱码问题

      如何解决centos navicat 乱码问题

      centosnavicat乱码的解决办法:1、打开Navicat安装目录,找到start_navicat文件;2、修改字符集;3、重新启动Navicat即可。...

    • 怎样查询docker跑了多少镜像

      怎样查询docker跑了多少镜像

      在docker中,可以利用images命令查询docker的镜像,该命令的作用就是列出本地镜像,当参数设置为“-a”时,会列出本地中包含中间映像层的所有的镜像,...

    • html5可以播放什么格式的视频和音频

      html5可以播放什么格式的视频和音频

      html5可以播放的格式:1、视频格式主要包括ogg(一种开源的视频封装容器)、mpeg4、wehm(由Google发布的一个开放、免费的媒体文件格式)等;2、...

  • 买服务器送会员
  • 热门文章
  • 买服务器送会员