AWS Lambda による Web Scraping プラクティス in 2020
久しぶりに AWS Lambda 上でスクレイピング処理を実装しようとしたところ、 PhantomJS 開発終了以来あんまりスクレイピングしていなかったこともあり、勝手がまったくわからなくなっており、いろいろ調べたので書いておく。
なお、あくまでデータ取得のための簡単なスクレイピングであり、 E2E テストのような複雑なシナリオが想定される用途でも適用可能なプラクティスではないと思われる。また筆者が使いたい言語は第一に Go で第二が Python である。
スクレイピング用ライブラリは主に2種類
スクレイピングに活用できるライブラリは各言語様々あると思われるが、ざっくり2種類に大別できると考えている。
- 直接 HTTP アクセスするライブラリ
- Headless ブラウザを使うライブラリ
外部のツールに依存せず、ライブラリの機能だけで HTTP アクセスや DOM の解析を行うものが前者。そのライブラリさえ import すれば使うことができるので、基本的にはこの手のものを使うほうが楽だと思われる。ただしブラウザの機能を再現しているわけではなく、生の HTML をそのままダウンロードするだけなので、凝ったことはできない可能性がある。
凝ったこととはなんぞと言えば、例えばブラウザ表示した画面のスクリーンショットを撮りたい、 JS で動的に DOM 生成されるページをうんにゃらしたい、といった場合がある。こういった用途では Headless ブラウザを使うことになる。
直接 HTTP アクセスするライブラリ
個人的には PuerkitoBio/goquery を使うことが多い。 README から例を抜粋するが、 CSS クラスタの記法で取得する要素を指定できるのが好き。
1 // Find the review items
2 doc.Find(".sidebar-reviews article .content-block").Each(func(i int, s *goquery.Selection) {
3 // For each item found, get the band and title
4 band := s.Find("a").Text()
5 title := s.Find("i").Text()
6 fmt.Printf("Review %d: %s - %s\n", i, band, title)
7 })
ライブラリを import すればいいだけなので、ビルドなども特別なことはない。
Headless ブラウザを使うライブラリ
Headless ブラウザを操作するフレームワークとしては Selenium が有名。各種メジャーな言語で実装があるのだが、残念ながら Go に対応した公式のパッケージは提供されていない。そのため Python で使うことにしている。
Selenium を使うときはライブラリのインポートだけではなく、実際にウェブアクセスするための Headless ブラウザと、 Selenium がブラウザ操作するための WebDriver も Lambda のデプロイパッケージに含める必要がある。
Headless ブラウザと WebDriver
Headless Chrome を使いたいところなのだが、そのまま AWS Lambda のランタイム上で使えるわけではない。各種 FaaS ランタイム向けに Headless Chromium をビルドした serverless-chrome というプロジェクトがあるので、これを使わせてもらう。
WebDriver には Chrome (Chromium) 向けの ChromeDriver を Downloads - ChromeDriver - WebDriver for Chrome からダウンロードして使う。
注意しなければならないのは、 Selenium, serverless-chrome, ChromeDriver の三者で compatible な version の組み合わせが決まっているということ。任意のバージョンを好きに組み合わせて動くわけではない。現状 serverless-chrome のドキュメントがこれをアップデートしきれていないようで、以下の issue に有志が稼働確認した組み合わせを書き込んでいるのが見受けられるので参考にしている。
本記事執筆時点において、最新の serverless-chrome を使った Selenium for Python との compatible な組み合わせが検証済みになっていない。そのため新し目の API が使えない、ということがしばしばある。例えば自分が経験したものとしては、 element.screenshot_as_png()
が利用できず、要素単位でのスクリーンショットが取得できなかった。代替策として、 Can't get the screenshot of the current element · Issue #2898 · SeleniumHQ/selenium に記載のある、要素の座標から PIL でページスクリーンショットを切り取る方式を使っている。
Lambda layer を使った Headless ブラウザ等のデプロイ
Lambda にはデプロイパッケージサイズに 50 MB の制限があるので、 Headless ブラウザと chromedriver は Lambda layer を用いてデプロイし、 Function 本体のデプロイパッケージから分離する。
Lambda layer にデプロイしたファイルは、 Lambda 実行時に /opt
配下に展開されるので、それに合わせて Selenium からパスを指定して読み込む。自分の場合は以下の Makefile で Lambda layer 向けの zip パッケージを作成しているが、この場合は /opt/bin
配下に chromedriver
と chromium
が配置されることになる。
1layer_headless_chrome/bin:
2 mkdir -p layer_headless_chrome/bin
3
4layer_headless_chrome/bin/headless-chromium: layer_headless_chrome/bin
5 wget https://github.com/adieuadieu/serverless-chrome/releases/download/v1.0.0-37/stable-headless-chromium-amazonlinux-2017-03.zip -O chromium.zip
6 unzip chromium.zip
7 mv headless-chromium layer_headless_chrome/bin/
8 rm chromium.zip
9
10layer_headless_chrome/bin/chromedriver: layer_headless_chrome/bin
11 wget https://chromedriver.storage.googleapis.com/2.37/chromedriver_linux64.zip -O chromedriver.zip
12 unzip chromedriver.zip
13 mv chromedriver layer_headless_chrome/bin/
14 rm chromedriver.zip
Selenium を使うときは、割愛した書き方をするとこういう感じ。
1from selenium import webdriver
2from selenium.webdriver.chrome.options import Options
3
4options = Options()
5options.binary_location = "/opt/bin/chromium"
6driver = webdriver.Chrome(chrome_options=options, executable_path="/opt/bin/chromedriver")
日本語フォントの内包
特にスクリーンショットを撮りたい場合、 Lambda のランタイムには日本語フォントが存在しないため、デプロイパッケージに含めてやらなければ文字化けする。
これはそう面倒な問題でもなく、通常 Linux では $HOME/.fonts
にフォントファイルを置けば読んでくれるので、デプロイパッケージを zip するときに .fonts
配下へ使いたいフォントファイルを置いておけばよい。僕は IPA フォントを使っているので、 Makefile だとこういう感じ。
1.fonts:
2 mkdir .fonts
3
4.fonts/ipaexg.ttf .fonts/ipaexm.ttf: .fonts
5 curl https://ipafont.ipa.go.jp/IPAexfont/IPAexfont00401.zip -o IPAexfont.zip
6 unzip IPAexfont.zip
7 mv ./IPAexfont00401/*.ttf ./.fonts/
8 rm -rf ./IPAexfont00401
9 rm IPAexfont.zip
Serverless Framework によるデプロイ
Lambda layer と Function を個別にデプロイするのは面倒なので、 Serverless Framework を遣う。先に書いた Makefile の例に倣い、 ./layer_headless_chrome
配下に Headless ブラウザと chromedriver が置かれているものとして、以下のようなサンプルになる。
1functions:
2 sample_function:
3 handler: sample_function.lambda_handler
4 layers:
5 - { Ref: HeadlessChromeLambdaLayer }
6 role: LambdaBasicExecution
7 package:
8 include:
9 - '.fonts/**'
10
11layers:
12 headlessChrome:
13 path: layer_headless_chrome