在线观看不卡亚洲电影_亚洲妓女99综合网_91青青青亚洲娱乐在线观看_日韩无码高清综合久久

鍍金池/ 問答/HTML/ nodejs爬蟲中標(biāo)簽選擇的問題

nodejs爬蟲中標(biāo)簽選擇的問題

一直以來非常感謝各位的幫助。
寫了一個(gè)簡單的爬蟲,目的是把慕課網(wǎng)課程的章節(jié)抓取下來。
url是:https://www.imooc.com/learn/951
代碼可以順利的運(yùn)行,但我的理想結(jié)果是如下:

第1章 課程介紹
第2章 MyCAT介紹
第3章 MyCAT基礎(chǔ)
第4章 課程總結(jié)

但是實(shí)際卻是:
圖片描述

出現(xiàn)這樣的原因是<strong>標(biāo)簽中有兩段文字
圖片描述

我的代碼是這樣的:

const http=require('https');
const fs=require('fs');
const cheerio=require('cheerio');

const url='https://www.imooc.com/learn/951';

http.get(url,function(res){
  var html='';
  var titles=[];
  res.setEncoding('utf-8');

  res.on('data',function(chunk){
    html+=chunk;
  });
  res.on('end',function(){
    var  $=cheerio.load(html);
    $('strong').each(function(){
      var x=$(this).text().trim();
      console.log(x);
    });
  });
});

如何把后面那段介紹文字去掉。只留一個(gè)大章節(jié)的標(biāo)題。
text()取得文本數(shù)據(jù)的時(shí)候,如何才能讓文字前面的空格和換行都去掉。

另外我是做電商運(yùn)營的,我用這個(gè)去爬取亞馬遜排行top100的標(biāo)題的時(shí)候,發(fā)現(xiàn)一個(gè)結(jié)果都出不來,但是爬取慕課網(wǎng)卻還是可以運(yùn)行的, 如果要爬取亞馬遜的話,我該如何做。
謝謝大家的幫助!

回答
編輯回答
孤酒

你可以用先$('strong i').next().remove();去除你不想要的

...
 var  $=cheerio.load(html);
    $('strong i').next().remove();
    $('strong').each(function(){
      var x=$(this).text().trim();
      console.log(x);
    });
...
2017年2月14日 13:48