Python基礎 – 讀寫 CSV、EXCEL、WORD檔

python

因為上一篇爬小說排行有使用到讀寫CSV檔的部分,所以就再寫一篇關於Python基礎的讀寫文件資料的方法。

逗點分隔(Comma-Separated Values,簡稱 csv)是一種簡單的文字檔格式,以逗號分隔不同欄位的資料,很多軟體在儲存與交換表格資料時都支援這樣的格式。

閱讀更多Python基礎 – 讀寫 CSV、EXCEL、WORD檔

Python 爬蟲 Aiohttp 爬各大小說網站排行榜

Aiohttp

簡介

用於Asyncio(Python3.4開始引用的標準函數庫)和Python的非同步HTTP客戶端/服務器。

可開發服務端和使用者端,也可開發網路爬蟲。

由於Asyncio具有高平行處理的特性,因此Aiohttp繼承了Asyncio的特性,使得Aiohttp特別適合開發網路爬蟲。

閱讀更多Python 爬蟲 Aiohttp 爬各大小說網站排行榜

Python 爬蟲函數庫 Urllib、Requests

requests

Urllib

  Urllib是Python附帶的標準函數庫,無須安裝,可直接import。通常用於爬蟲開發、API資料取得和測試。在Python2 分為Urllib和Urllib2,Urllib2 可接收一個Request物件,並以此來設定一個URL的Headers,但Urllib只接收一個URL,表示不能偽裝使用者代理字串等。

Urllib模組可以提供進行Urlencode的方法,該方法用於GET查詢字串的產生,Urllib2不具有這樣的功能。這也是Urllib和Urllib2經常在一起使用的原因。

Python3中,Urllib模組是一個收集幾個模組來使用URL的軟體套件,就是將Urllib和Urllib2 合併在一起使用,並命名為Urllib。

閱讀更多Python 爬蟲函數庫 Urllib、Requests