在线观看不卡亚洲电影_亚洲妓女99综合网_91青青青亚洲娱乐在线观看_日韩无码高清综合久久

鍍金池/ 問答/Java  Python/ requests-html 怎么獲取對(duì)應(yīng)的innerText

requests-html 怎么獲取對(duì)應(yīng)的innerText

requests-html 怎么獲取一個(gè) 標(biāo)簽的innerText

def stage_catch():
    session = HTMLSession()
    r = session.get('http://www.dmzx.com/manhua/358/')
    div = r.html.find('.subsrbelist')
    list_a = div[0].find('ul')[0].find('a')     # 找到對(duì)應(yīng)目錄列表
    for a in list_a:

        print(a)
        print(a.attrs)
        print(a.text)

        # pages = re.sub("\D", "", total_pages)
        # print(pages)
    pass
if __name__ == '__main__':
    stage_catch()

這個(gè)是我對(duì)應(yīng)的節(jié)點(diǎn)

<a  title="第360話" target="_blank">
    <span class="red">第360話</span> 
        (18頁)
</a>
<Element 'a'  title='第360話' target='_blank'>
{'href': 'http://www.dmzx.com/manhua/358/2000089062.html', 'title': '第360話', 'target': '_blank'}
全職獵人 (第360話) (18頁)

這是我的三次輸出。 我使用a.text 輸出的時(shí)候不是

我想調(diào)用類似 a.innerText直接獲取到innerText 也就是"(18頁)",但是沒有這個(gè)方法。

我暫時(shí)轉(zhuǎn)成字符串然后處理對(duì)應(yīng)的字符串了。。。。

我想知道對(duì)于這些python庫我有什么辦法測(cè)試他有什么對(duì)應(yīng)的js中的方法。

我試了下dir(a) 獲取到了方法,和text有關(guān)的都試了一次頁發(fā)現(xiàn)不行。。。。

回答
編輯回答
柒喵

如果你有jquery基礎(chǔ)的話用pyquery庫吧

2017年2月11日 20:17
編輯回答
爆扎

據(jù)我了解, css selector是無法直接獲得末尾text的.
另外將您的代碼簡(jiǎn)化一些.

我能想到的代碼是(獲取全部a):

r=session.get('http://www.dmzx.com/manhua/358/')
a_ls=r.html.find('div.subsrbelist.center > ul > li > a')  

data=[]

for a in a_ls:
    chapter=' '.join(a.text.split(' ')[:-1])
    pages=a.text.split(' ')[-1]
    link=a.attrs['href']
    data.append({'chapter':chapter, 'pages':pages, 'link':link})

print(data)
2017年9月4日 07:39