在上一篇[爬蟲入門實作(一)]中,我用字典進行對爬蟲進行擴展,但是現實中的網頁存在著很多眉眉角角,不一定都是那麼規律,可能連簡單的請求伺服器訪問都有限制(像是進入網站前詢問是否滿18歲),PTT八卦版就是一個很好的例子,因此本次實作要來做PTT八卦的貼文爬蟲。
我先列出這次爬蟲程式要達到的需求,以便寫出函式框架
- 要有貼文標題,作者,發佈時間
- 能直接打印出來
- 能轉成CSV表格(我也不知道PTT貼文轉表格要幹嘛,但是上篇有做這篇也做一下)
- 能用關鍵字篩選標題
- 可以選擇要爬幾頁
條件列出後,我寫先出五個函式框架,分別是
#用requests回傳 url.text給其他函式熬美麗湯
def getHtml(url):
pass#獲取資訊的主要函式,要能傳入頁數,是否要轉表格,關鍵字篩選
def getmsg(url, page, data_cvs=True, keyword=''):
pass#從當前的頁面找到下一頁的連結並回傳
def nextpage(url):
pass#回傳貼文連結,要有能關鍵字篩選功能
def get_article_href(url, keyword):
pass#轉成csv表格的函式
def csvmsg():
pass
這邊要補充說明的函式是get_article_herf()這個函式,因為在PTT八卦版的頁面,原始碼中是找不到文章作者的資訊跟時間的
點進一篇文章查看原始碼,會看到文章標題作者跟時間都被放在<span class=”article-meta-value”>這個tag裡面
因此我寫了這個抓取文章連結的函式get_article_herf(),讓我們能獲取資訊,這個函式也要加上關鍵字篩選功能,不是我們要的貼文就不用麻煩回傳了
第一步,先import所有需要的libs
from bs4 import BeautifulSoup
import requests
import re
import pandas as pd
import os
import datetime
再來,我們先看第一個函式getHtml(url),用try和except功能增加程式穩定度,接下來按照標準程序走,利用raise_for_status()檢查伺服器請求情況
import requestsdef getHtml(url):
try:
resp = requests.get(url)
resp.encoding = 'utf-8'
resp.raise_for_status()
return resp.text except: return '獲取Html訊息失敗'
這時候卻發現,沒辦法順利進入,用過ptt的人都知道,八卦版有個小朋友守門員,一進去會先問你有沒有滿18,所以直接訪問的話會訪問到這個畫面
這時候我們來看一下這個限制頁面的運作,點開原始碼會看到這邊有個很可疑的over18,想必跟我們能不能訪問到內容有大的關係。
當我點下,”我同意”以後,在網頁的原始碼終會看到over18是cookie的回應,如果滿18歲的話over18會返回1的值
所以在這裡我們將函式改一下,讓他帶有cookie值的去訪問,伺服器看到over18=1就沒問題了
import requestsdef getHtml(url):
try: headers = {'cookie': 'over18=1'}
resp = requests.get(url, headers=headers)
resp.encoding = 'utf-8'
resp.raise_for_status()
return resp.textexcept:return '獲取Html訊息失敗'
再來我們來看翻頁的函式nextpage,在原始碼中,PTT的翻頁連結放在<a class “btn wide”>的href裡面,(PTT是從新頁往回翻,所以翻頁是上頁)
因此我將連結回傳,熬湯,利用find_all將所有a tag class=’btn wide’的內容找出來,會回“最舊”,“上頁”,“最新”的tag,我們需要的是第二個“上頁”tag的href,因此用[1][‘href’]將其slide出來,再加上 ‘https://www.ptt.cc’回傳即可。
def nextpage(url):
soup = BeautifulSoup(getHtml(url), 'lxml')
link = soup.find_all('a', class_='btn wide')[1]['href']
link = 'https://www.ptt.cc' + link
return link
統整一下目前的code
from bs4 import BeautifulSoup
import requests
import re
import pandas as pd
import os
import datetime#用requests回傳 url.text給其他函式熬美麗湯
def getHtml(url):
try:
resp = requests.get(url)
resp.encoding = 'utf-8'
resp.raise_for_status()
return resp.textexcept:return '獲取Html訊息失敗'#獲取資訊的主要函式,要能傳入頁數,是否要轉表格,關鍵字篩選
def getmsg(url, page, data_cvs=True, keyword=''):
pass#從當前的頁面找到下一頁的連結並回傳
def nextpage(url):
soup = BeautifulSoup(getHtml(url), 'lxml')
link = soup.find_all('a', class_='btn wide')[1]['href']
link = 'https://www.ptt.cc' + link
return link#回傳貼文連結,要有能關鍵字篩選功能
def get_article_href(url, keyword):
pass#轉成csv表格的函式
def csvmsg():
pass
這part要看的是get_article_href()函式,這個函式接收到的是已經熬好的湯,作用是把<div class=”title”>裡的a tag的連結提取出來回傳,因此我們只需要find(‘a’)就可以。
後面的text的功能,beautifulsoup中很好用的一個參數,能夠靠tag裡的string去做搜尋,下圖的例子就可以用 find(‘a’, text=’前面’)的方式來找到,這邊搭配re正則器來使用,就可以回傳含有關鍵的標題,最後一樣提取出href加上’https://www.ptt.cc'便可回傳。
def get_article_href(row, keyword=''):
wordcheck = row.find('a', text= re.compile(keyword)) #如果有找到再做提取href
if wordcheck:
address = wordcheck['href']
article_url = 'https://www.ptt.cc' + address
return article_url
接著是csvmsg函數,跟上篇一樣,先將資訊轉成DataFrame後加上時間戳,再轉csv檔即可
def csvmsg(content):
columns = ['作者', '標題', '發佈時間']
df = pd.DataFrame(content, columns=columns)#時間戳
timestamp = datetime.datetime.now().strftime('%Y%m%d')
timestamp = timestamp[:4] + '-' + timestamp[4:6] + '-' + timestamp[6:9]
filename = 'ptt gossip ' + timestamp+ '.csv' #轉成csv檔
df.to_csv(filename, index=False)
print(f'文件{filename}已成功保存至{os.getcwd()}')
統整一下目前的code
from bs4 import BeautifulSoup
import requests
import re
import pandas as pd
import os
import datetime#用requests回傳 url.text給其他函式熬美麗湯
def getHtml(url):
try:
resp = requests.get(url)
resp.encoding = 'utf-8'
resp.raise_for_status()
return resp.textexcept:return '獲取Html訊息失敗'#獲取資訊的主要函式,要能傳入頁數,是否要轉表格,關鍵字篩選
def getmsg(url, page, data_cvs=True, keyword=''):
pass#從當前的頁面找到下一頁的連結並回傳
def nextpage(url):
soup = BeautifulSoup(getHtml(url), 'lxml')
link = soup.find_all('a', class_='btn wide')[1]['href']
link = 'https://www.ptt.cc' + link
return link#回傳貼文連結,要有能關鍵字篩選功能
def get_article_href(row, keyword=''):
wordcheck = row.find('a', text= re.compile(keyword)) #如果有找到再做提取href
if wordcheck:
address = wordcheck['href']
article_url = 'https://www.ptt.cc' + address
return article_url#轉成csv表格的函式
def csvmsg(content):
columns = ['作者', '標題', '發佈時間']
df = pd.DataFrame(content, columns=columns)#時間戳
timestamp = datetime.datetime.now().strftime('%Y%m%d')
timestamp = timestamp[:4] + '-' + timestamp[4:6] + '-' + timestamp[6:9]
filename = 'ptt gossip ' + timestamp+ '.csv' #轉成csv檔
df.to_csv(filename, index=False)
print(f'文件{filename}已成功保存至{os.getcwd()}')
確認沒問題過後,剩下的就是主要函式了。
最後主要函式getmsg(),利用前面的getHtml()函式回傳,熬湯。fina_all找出所有<div class=title>的tag
def getmsg(url, pages, data_csv=False, keyword=''):
'''
:param url: 字串 --> 網址
:param keyword: 字串 --> 關鍵字搜尋,預設返回全部
:param data_csv: 布林值-->是否輸出成表格
:return:
''' #儲存內容轉成表格
content = []
soup = BeautifulSoup(getHtml(url), 'lxml')
rows = soup.find_all('div', class_='title')
rows應該是回傳這樣的內容
利用迴圈將rows的內容分別提取出來,剛剛寫的get_article_href可以提取出底下a tag的href並回傳連結,再用文章鏈結熬湯。這邊我使用select,select的功能其實和find_all一樣,select主要是針對css去做搜尋。
前面我們提到我們所需要的資訊都在<span class=”article-meta-value”>裡面,用select找就是select(‘span.article-meta-value’),回傳的格式應該會像下面這樣。
[<span class=”article-meta-value”>marunouchi (marunouchi)</span>, <span class=”article-meta-value”>Gossiping</span>, <span class=”article-meta-value”>[問卦] 大安區公寓會漲到一坪200萬嗎?</span>, <span class=”article-meta-value”>Sat Mar 13 11:27:45 2021</span>]
看得出來總共回傳四個tag,第一個是作者,第二個是看板,第三個是標題,第四個是發佈時間,所以我們就可以直接打印出我們要的資訊。
def getmsg(url, pages, data_csv=False, keyword=''):
'''
:param url: 字串 --> 網址
:param keyword: 字串 --> 關鍵字搜尋,預設返回全部
:param data_csv: 布林值-->是否輸出成表格
:return:
''' #儲存內容轉成表格
content = []
soup = BeautifulSoup(getHtml(url), 'lxml')
rows = soup.find_all('div', class_='title') for row in rows:
article_url = get_article_href(row, keyword)
article_soup = BeautifulSoup(getHtml(article_url), 'lxml')
article_info = article_soup.select('span.article-meta-value')
if article_info:
print(f'作者:{article_info[0].string}')
print(f'標題:{article_info[2].string}')
print(f'時間:{article_info[3].string}')
print()
接著要來加上翻頁功能,利用for迴圈來實現,在迴圈的最後加上我們之前寫所nextpage()函式,將url替換成nextpage(url),下次一迴圈,就會使用翻頁厚的url來爬取資料。
def getmsg(url, pages, data_csv=False, keyword=''):
'''
:param url: 字串 --> 網址
:param keyword: 字串 --> 關鍵字搜尋,預設返回全部
:param data_csv: 布林值-->是否輸出成表格
:return:
'''
#儲存內容轉成表格
content = []
#要爬取的頁數
pages = pages
for page in range(pages):
soup = BeautifulSoup(getHtml(url), 'lxml')
rows = soup.find_all('div', class_='title')
for row in rows:
article_url = get_article_href(row, keyword)
article_soup = BeautifulSoup(getHtml(article_url), 'lxml')
article_info = article_soup.select('span.article-meta-value')
print(article_info)
if article_info:
print(f'作者:{article_info[0].string}')
print(f'標題:{article_info[2].string}')
print(f'時間:{article_info[3].string}')
print()
url = nextpage(url)
最後的最後再加上轉成csv的功能就大功告成了
def getmsg(url, pages, data_csv=False, keyword=''):
'''
:param url: 字串 --> 網址
:param keyword: 字串 --> 關鍵字搜尋,預設返回全部
:param data_csv: 布林值-->是否輸出成表格
:return:
'''
content = []
pages = pages
for page in range(pages):
soup = BeautifulSoup(getHtml(url), 'lxml')
rows = soup.find_all('div', class_='title')
for row in rows:
article_url = get_article_href(row, keyword)
article_soup = BeautifulSoup(getHtml(article_url), 'lxml')
article_info = article_soup.select('span.article-meta-value')
print(article_info)
if article_info:
print(f'作者:{article_info[0].string}')
print(f'標題:{article_info[2].string}')
print(f'時間:{article_info[3].string}')
print()
# 是否要轉成csv檔,要的話再存入content list
if data_csv: c = [article_info[0].string,
article_info[2].string,
article_info[3].string] content.append(c) url = nextpage(url)
#利用之前寫的csvmsg函式來轉csv檔
if data_csv:
csvmsg(content)
完整的code
from bs4 import BeautifulSoup
import requests
import re
import pandas as pd
import os
import datetime
url = 'https://www.ptt.cc/bbs/Gossiping/index.html'
headers = {'cookie': 'over18=1'}
def getHtml(url):
try:
headers = {'cookie': 'over18=1'}
resp = requests.get(url, headers=headers)
resp.encoding = 'utf-8'
resp.raise_for_status()
return resp.text
except:
return '獲取Html訊息失敗'
def getmsg(url, pages, data_csv=False, keyword=''):
'''
:param url: 字串 --> 網址
:param keyword: 字串 --> 關鍵字搜尋,預設返回全部
:param data_csv: 布林值-->是否輸出成表格
:return:
'''
content = []
pages = pages
for page in range(pages):
soup = BeautifulSoup(getHtml(url), 'lxml')
rows = soup.find_all('div', class_='title')
for row in rows:
article_url = get_article_href(row, keyword)
article_soup = BeautifulSoup(getHtml(article_url), 'lxml')
article_info = article_soup.select('span.article-meta-value')
print(article_info)
if article_info:
print(f'作者:{article_info[0].string}')
print(f'標題:{article_info[2].string}')
print(f'時間:{article_info[3].string}')
print()
if data_csv:
c = [article_info[0].string,
article_info[2].string,
article_info[3].string]
content.append(c)
url = nextpage(url)
if data_csv:
csvmsg(content)
def nextpage(url):
soup = BeautifulSoup(getHtml(url), 'lxml')
link = soup.find_all('a', class_='btn wide')[1]['href']
link = 'https://www.ptt.cc' + link
return link
def get_article_href(row, keyword=''):
wordcheck = row.find('a', text= re.compile(keyword))
if wordcheck:
address = wordcheck['href']
article_url = 'https://www.ptt.cc' + address
return article_url
def csvmsg(content):
columns = ['作者', '標題', '發佈時間']
df = pd.DataFrame(content, columns=columns)
timestamp = datetime.datetime.now().strftime('%Y%m%d')
timestamp = timestamp[:4] + '-' + timestamp[4:6] + '-' + timestamp[6:9]
filename = 'ptt gossip ' + timestamp+ '.csv'
df.to_csv(filename, index=False)
print(f'文件{filename}已成功保存至{os.getcwd()}')
最後測試內容,尋找關鍵字’房’,5頁的八卦版貼文,並輸出成表格
sample code: