在线观看不卡亚洲电影_亚洲妓女99综合网_91青青青亚洲娱乐在线观看_日韩无码高清综合久久

鍍金池/ 問(wèn)答/Python/ xpath怎么提取相同標(biāo)簽下的某一內(nèi)容

xpath怎么提取相同標(biāo)簽下的某一內(nèi)容

網(wǎng)頁(yè)源


<div class="fl name">

          <ul>
              <li>
                  <span>郝振平教授</span>
                  <span>清華大學(xué)</span><span>經(jīng)濟(jì)管理學(xué)院會(huì)計(jì)</span>
              </li>

                    <li><span class="ri-tag fl" data-start="2018-03-05 00:00:00+00:00" data-end="2018-06-15 15:30:00+00:00"
                      data-enrollment-start="2018-01-23 16:00:00+00:00" data-enrollment-end="2018-06-15 15:30:00+00:00"><b class="list-icon">$</b></span></li>
                    <li><span class="ri-tag fl"><b class="list-icon">g</b>5.5萬(wàn)人</span></li>
                    <li><span class="ri-tag fl"><b class="list-icon">7</b>已更新至第10章</span></li>
          </ul>
    </div>
  </div>
  <div class="txt_all">
    <p class="txt"><span class="courseintro">簡(jiǎn)介</span>


我要分別提取清華大學(xué)和5.5萬(wàn)人
最初我直接設(shè)置:
item["school"]=response.xpath("http://div[@class='fl name']/ul/li/span/text()").extract()
結(jié)果是:


郝振平教授
清華大學(xué)
經(jīng)濟(jì)管理學(xué)院會(huì)計(jì)
5.5萬(wàn)人
已更新至第10章


由此肯推測(cè)提取了這里面所有的內(nèi)容,
然后:提取學(xué)校的xpath改成:(加了一個(gè)下標(biāo))
item["school"]=response.xpath("http://div[@class='fl name']/ul/li/span[2]/text()").extract()
得到正確的結(jié)果即清華大學(xué);
然后提取5.5萬(wàn)人這個(gè)數(shù)據(jù)時(shí),怎么設(shè)置規(guī)則都提取不到,主要是5.5萬(wàn)人數(shù)據(jù)附近標(biāo)簽都是相同的,我向上面添加下標(biāo)也沒(méi)用,這個(gè)該怎么設(shè)置才能單獨(dú)提取人數(shù)這個(gè)數(shù)據(jù)???

回答
編輯回答
何蘇葉

google應(yīng)用商店下載一個(gè)chrome插件xpath拾取器
圖片描述

2017年6月18日 10:26
編輯回答
忠妾

我能直接點(diǎn)獲得結(jié)果嗎

html = '''
    <div class="fl name">
          <ul>
              <li>
                  <span>郝振平教授</span>
                  <span>清華大學(xué)</span><span>經(jīng)濟(jì)管理學(xué)院會(huì)計(jì)</span>
              </li>

                    <li><span class="ri-tag fl" data-start="2018-03-05 00:00:00+00:00" data-end="2018-06-15 15:30:00+00:00"
                      data-enrollment-start="2018-01-23 16:00:00+00:00" data-enrollment-end="2018-06-15 15:30:00+00:00"><b class="list-icon">$</b></span></li>
                    <li><span class="ri-tag fl"><b class="list-icon">g</b>5.5萬(wàn)人</span></li>
                    <li><span class="ri-tag fl"><b class="list-icon">7</b>已更新至第10章</span></li>
          </ul>
    </div>
  </div>
  <div class="txt_all">
    <p class="txt"><span class="courseintro">簡(jiǎn)介</span>
'''
import re
reg_fl_name = re.compile(r'<div class="fl name">(.+?)</div>', re.S)
reg_span = re.compile(r'<span\s*.*?[b]*\s*>([\w\.]+?)</span>', re.S)
p = reg_fl_name.search(html)
if p:
    fl_name = p.group(1)
    print(reg_span.findall(fl_name))
2018年8月9日 14:02
編輯回答
涼薄
xpath("http://div[@class='fl name']/ul/li[3]/span[1]/text()")

試試?
2017年9月14日 10:51