在线观看不卡亚洲电影_亚洲妓女99综合网_91青青青亚洲娱乐在线观看_日韩无码高清综合久久

鍍金池/ 問答/Python/ Python如何提取復(fù)制文本中的超鏈接?

Python如何提取復(fù)制文本中的超鏈接?

比如我復(fù)制了一段文字 ,里面包含有幾個(gè)超鏈接,比如像下面這樣。如何把其中的超鏈接提取出來,作為一個(gè)list?個(gè)人想法是是利用剪貼板模塊,但是貌似pyperclip模塊只能處理純文本來著。

圖片描述

利用pyperclip無法獲取富文本

回答
編輯回答
撥弦

mac環(huán)境的話,可以用richxerox,配合BeautifulSoup模塊,代碼如下

from richxerox import *
from bs4 import BeautifulSoup

soup = BeautifulSoup(pasteboard.get_contents(format='html'),'lxml')
links = [i.attrs['href'] for i in soup.find_all('a')]
print(links)
2017年11月17日 14:13
編輯回答
亮瞎她

網(wǎng)頁(yè)的話,你需要了解一下網(wǎng)頁(yè)前端的語(yǔ)言。瀏覽器界面按F12就會(huì)調(diào)出調(diào)試窗口。你看一下代碼結(jié)構(gòu),如果是360瀏覽器的話,頁(yè)面上右擊超鏈接文本審查元素,或者是檢查,或者是什么的,就能定位到你需要的連接。然后你再看怎么獲取和解析網(wǎng)頁(yè)的源碼吧,其實(shí)不復(fù)雜,有很多現(xiàn)成的庫(kù),比如BeautifulSoup。

2018年2月25日 02:21