在线观看不卡亚洲电影_亚洲妓女99综合网_91青青青亚洲娱乐在线观看_日韩无码高清综合久久

鍍金池/ 問答/PHP  Python  C++  網(wǎng)絡安全  HTML/ 求大佬幫忙寫一個正則表達式,非常感謝!

求大佬幫忙寫一個正則表達式,非常感謝!

問題描述

我正則表達式一直是個盲區(qū),希望會的朋友幫忙寫一個正則表達式,將下面一段網(wǎng)頁內(nèi)容提取出來標題、圖片鏈接、文章鏈接以及描述。小弟在此謝過!

需要正則的網(wǎng)頁文本內(nèi)容

<article class="excerpt excerpt-1">
            <a href='/szb/eth/28157.html' class='focus' target='_blank'><img alt='推出期貨交易后,以太坊能否擺脫“歸零”爭議?' class='thumb lazy' data-original='/uploads/allimg/180906/8-1PZ6094Za45-lp.png'/></a>
            <header>
                <h2><a href="/szb/eth/28157.html" title="<b>推出期貨交易后,以太坊能否擺脫“歸零”爭議?</b>" target="_blank"><b>推出期貨交易后,以太坊能否擺脫“歸零”爭議?</b></a></h2>
            </header>
            <p class="meta">
                <time><i class="fa fa-clock-o"></i><font color="#e15c34">2018-09-06</font></time>
                <span class="pv"><i class="fa fa-eye"></i>閱讀(1986)</span>
                <span class="pc"><i class="fa fa-comments-o"></i>評論(<span id="url::http://www.bitcoin86.com/szb/eth/28157.html" class = "cy_cmt_count" ></span>)</span>
            </p>
            <p class="note">芝加哥期權(quán)交易所(CBOE) 將要推出以太坊(ETH)期貨了!據(jù) Business Insider 報道,CBOE可能會在2018年底推出以太坊期貨。 提到虛擬貨幣領域的期貨,大部分從業(yè)者可能會對2017年底比特幣期貨推出時的情景記憶猶新,記憶更深刻的則是由此間接引發(fā)的...</p>
        </article>

你期待的結(jié)果是什么?實際看到的錯誤信息又是什么?

我需要將A標簽中的href提取出來作為文章鏈接URL
<header>中標簽的文本內(nèi)容提取出來作為標題。
<img>標簽中的data-original屬性作為圖片鏈接。
<p class="note">中的text作為描述。

因為我對正則不熟,所以不知道可不可以一個表達式下來將上面四個屬性全部獲取到,然后放入一個數(shù)組list中,索引分別是0,1,2,3

如果上面想法不現(xiàn)實的情況下,希望懂的大神幫忙寫四個正則表達式即可。再次表示感謝。


我的問題已經(jīng)自己解決了,不過如果大家有好的解決辦法歡迎貼出來,來幫助其他需要的人。

回答
編輯回答
笑忘初
  1. 從網(wǎng)頁里找東西,不要用正則,因為會寫的很復雜,通用性很差。大部分語言都有現(xiàn)成的包,直接裝一個建樹遍歷吧。
  2. 學正則推薦 正則表達式30分鐘入門教程
2017年8月17日 11:28
編輯回答
情殺

Python 直接用lxml中的etree包做xpath匹配就好了

2017年10月11日 18:05
編輯回答
離觴

用PHP寫的正則表達式

preg_match_all('/<h2><a href="(.*?)" .*><b>(.*?)<\/b>.*<\/h2>/', $data, $title);
$href = $title[1][0];
$title = $title[2][0];
echo $title.'<br>';//標題
echo $href.'<br>';//文章鏈接

preg_match_all('/<img.* class="thumb lazy" data-original="(.*?)"\/>/', $data, $img);
$img = $img[1][0];
echo $img.'<br>';//圖片鏈接

preg_match_all('/<p class="note">(.*?)<\/p>/', $data, $message);
$content = $message[1][0];
echo $content.'<br>';//描述

效果圖:
圖片描述

JS的正則應該和這差不多,可以參考一下

2018年3月14日 21:03