我正在用Node和Cheerio构建一个网页刮板,对于某个网站,我得到以下错误(它只发生在这一个网站上,没有其他我试图刮的网站。

它每次都发生在不同的位置,所以有时是url x抛出错误,其他时候url x是好的,它是一个完全不同的url:

    Error!: Error: socket hang up using [insert random URL, it's different every time]

Error: socket hang up
    at createHangUpError (http.js:1445:15)
    at Socket.socketOnEnd [as onend] (http.js:1541:23)
    at Socket.g (events.js:175:14)
    at Socket.EventEmitter.emit (events.js:117:20)
    at _stream_readable.js:910:16
    at process._tickCallback (node.js:415:13)

这是非常棘手的调试,我真的不知道从哪里开始。首先,什么是套接字挂起错误?是404错误还是类似的错误?或者仅仅意味着服务器拒绝连接?

我在任何地方都找不到解释!

编辑:下面是(有时)返回错误的代码示例:

function scrapeNexts(url, oncomplete) {
    request(url, function(err, resp, body) {

        if (err) {
            console.log("Uh-oh, ScrapeNexts Error!: " + err + " using " + url);
            errors.nexts.push(url);
        }
        $ = cheerio.load(body);
        // do stuff with the '$' cheerio content here
    });
}

没有直接调用关闭连接,但我使用节点请求(据我所知)使用http。get所以这是不需要的,如果我错了纠正我!

编辑2:下面是一段实际使用的代码,它会导致错误。prodURL和其他变量主要是前面定义的jquery选择器。这使用了Node的异步库。

function scrapeNexts(url, oncomplete) {
    request(url, function (err, resp, body) {

        if (err) {
            console.log("Uh-oh, ScrapeNexts Error!: " + err + " using " + url);
            errors.nexts.push(url);
        }
        async.series([
                function (callback) {
                    $ = cheerio.load(body);
                    callback();
                },
                function (callback) {
                    $(prodURL).each(function () {
                        var theHref = $(this).attr('href');
                        urls.push(baseURL + theHref);
                    });
                    var next = $(next_select).first().attr('href');
                    oncomplete(next);
                }
            ]);
    });
}

当前回答

您的问题也可能来自试图连接到HTTP URL,而您的服务仅在HTTPS上发布…

绝对是一个耗时的错误!

其他回答

已经很长时间了,但另一种情况是,在服务器端执行请求需要很长时间(超过2分钟,这是express的默认值),并且服务器端没有配置超时参数。在我的情况下,我正在做客户端->服务器->服务器请求(Node.js express),我应该在服务器和客户端上的每个请求路由器上设置超时参数。 因此,在这两个服务器中,我需要通过使用设置请求超时

req.setTimeout([your needed timeout])

在路由器上。

我同时做web(节点)和Android开发,并一起打开Android Studio设备模拟器和docker,它们都使用端口8601,它抱怨套接字挂起错误,关闭Android Studio设备模拟器后,它在节点端工作良好。不要同时使用Android Studio设备模拟器和docker。

我使用require('http')来消费https服务,它显示“套接字挂起”。

然后我把require('http')改为require('https'),它正在工作。

在使用http时也会发生此错误。请求,可能您的请求还没有完成。

例子:

Const req = https。请求(options, res => {})

你总是需要添加这一行: 有了这个功能,我们将按顺序完成请求的发送。

如文献所述:

对于http.request(),必须总是调用req.end()来表示请求的结束——即使没有数据写入请求体。

对于请求模块用户

超时 有两种主要类型的超时:连接超时和读取超时。如果在客户端试图建立到远程机器的连接(对应于套接字上的connect()调用)时超时,则会发生连接超时。当服务器太慢而无法发送回部分响应时,就会发生读超时。

注意,连接超时发出一个ETIMEDOUT错误,读取超时发出一个ECONNRESET错误。