在线观看不卡亚洲电影_亚洲妓女99综合网_91青青青亚洲娱乐在线观看_日韩无码高清综合久久

鍍金池/ 教程/ Python/ 提取URL地址
文本翻譯
提取URL地址
處理PDF
塊分類
搜索和匹配
大寫轉換
提取電子郵件地址
字符串的不變性
文本處理狀態(tài)機
雙字母組
閱讀RSS提要
單詞替換
WordNet接口
重新格式化段落
標記單詞
向后讀取文件
塊和裂口
美化打印數(shù)字
拼寫檢查
將二進制轉換為ASCII
文本分類
文字換行
頻率分布
字符串作為文件
約束搜索
詞干算法
符號化
同義詞和反義詞
過濾重復的字詞
刪除停用詞
Python文本處理教程
文字摘要
段落計數(shù)令牌
語料訪問
文字改寫
文本處理簡介
處理Word文檔
Python文本處理開發(fā)環(huán)境
排序行

提取URL地址

通過使用正則表達式從文本文件實現(xiàn)URL提取。表達式在文本與模式匹配的任何位置獲取文本。 只有re模塊用于此目的。

我們可以將輸入文件包含一些URL并通過以下程序處理它以提取URL。 findall()函數(shù)用于查找與正則表達式匹配的所有實例。

輸入的文本文件

顯示的是下面的輸入文件。 其中包含幾個URL。

Now a days you can learn almost anything by just visiting http://www.google.com. But if you are completely new to computers or internet then first you need to leanr those fundamentals. Next
you can visit a good e-learning site like - https://www.yiibai.com to learn further on a variety of subjects.

現(xiàn)在,當獲取上述輸入文件并通過以下程序處理它時,我們得到所需的輸出,也就是從文件中提取出來URL地址。

import re

with open("path\url_example.txt") as file:
        for line in file:
            urls = re.findall('https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+', line)
            print(urls)

執(zhí)行上面示例代碼,得到以下結果 -

['http://www.google.com.']
['https://www.yiibai.com']

上一篇:文字摘要下一篇:約束搜索