ども、まじめです。
Janperでは「商品情報抽出サービス」と称し、現在7件の卸やショップからJANコードを含む商品情報を抽出して、ユーザー様に提供するサービスを行っています。
案内には「卸の規約的にもグレーな為…」などと謳っておりますが、正直言って、完全にブラックのアウトなんですよね。普通に考えても。(笑
さらには、卸側もプログラムによるスクレイピングを排除すべく、色々と対策を講じており、今まで提供できていた卸の商品情報抽出も停止せざるを得ない状況になっています。(一部のログインまわりの処理が現在の僕のスキルでは対処できなくなっています。すみません。)
そこで色々と考えましたが、まず大前提としてユーザー様がユーザー様の権限(アカウント)で商品情報を抽出する。(ここが一番大事。)
次に直接プログラムからではなく、ブラウザを介した商品情報抽出を行う。(ログインした状態でブラウザを自動操縦する。)
そうなると、やはり思いつくのが、(seleniumですがそれは置いといて)皆さんもご存じ「雷神」という超高機能(でも高いw)ツールに付属の「ブレイカー」みたいなツールをつくりたいと思い、ネットを色々と調べてみると、なんと、どんなサイトからも(商品)情報を抽出できるchromeの拡張機能があるではありませんか。(笑
前置きが長くなりましたが、本日はそんな超すばらしいツール「Easy Scraper」の使い方からJanperでのリサーチ方法まで、解説しますので、興味のある方は是非ご覧下さい。
Easy Scraperとは
卸やショップはもちろん、あらゆるウエブサイトから情報を抽出(スクレイピング)する事ができる、Google Chromeの拡張機能で、Chromeをお使いの方なら誰でも無料で使う事が可能です。
【注意】
これからお伝えする検証結果は全てが、僕の環境での事です。このツールの使用に起因した如何なる損害などについて当方は保証できませんので、全て自己責任でお願い致します。
またブラウザを介してアクセスするとはいっても、ツールの名前が示す通り、スクレイピングツールである事には変わりありません。サイトから情報を抽出するさいは、節度をわきまえ、サイト側に大きな負荷を与えないように努めて下さい。(サイト側からアクセス制限されても、僕は責任は負えませんので、ご了承下さい。)
Easy Scraperのインストール
Chromeウェブストアにアクセスして、上部「拡張機能とテーマを検索」欄に「Easy Scraper」と入力して検索して下さい。
または以下のリンクをクリックする事で直接アクセスできます。
その後、「Chromeに追加」をクリックしてインストールは完了です。(ピン留めしておけば簡単に起動できます。)
Easy Scraperを使ってみる
では、早速使ってみましょう。
今回はスーパーデリバリーの中央物産というサプライヤーを例に説明します。
ページを開いたら、まずはログインして、その後、右上赤丸の「Easy Scraper」のアイコンをクリックします。

すると抽出したい商品一覧が自動的に選択された状態になり、「Easy Scraper」の画面上にはすでに抽出済みのデータが表示されています。(めっちゃ簡単w)
商品一覧は自動的に選択されますが、もし違うものが選択されていた場合は「リストを変更」で目的の一覧を選択し直して下さい。
まだこの状態だと1ページ分の抽出しか完了していない為、「アイテムをもっと読み込む操作」から「次のページに移動するためのリンクをクリックしてください」を選択して「選択」をクリックします。

赤丸の「次へ」をクリックし、その後「Easy Scraper」の画面で「スクレイピングを開始」をクリックします。

これで、スーパーデリバリー中央物産のデータ(9343件)全てを抽出する事ができます。
※ブラウザを見ると自動で次のページに移動しているので、確かにブラウザを自動操縦しているようです。
完了後、「CSV」をクリックして抽出結果をダウンロードしておきます。(僕の環境では、なぜか文字化けしてしまいますが、とりあえずそのままで)
【Tips】商品一覧ページをスクロースしていくと、自動で次の商品一覧が表示されるようなページの場合は、「さらにアイテムを読み込むためにスクロールダウンしてください」を選択します。
「詳細をスクレイプする」
今回はテストの為600件ほどで「スクレイピングを停止」をクリックして商品情報抽出を停止しました。
これで、もう完了?簡単すぎっ!
って言いたいとこですが、抽出したリストをみて下さい。何かが足りないですよね。

そう、一番重要なJANコードがありません。なぜならスーパーデリバリーの商品一覧ページにはJANコードの記載がなくJANコードの情報は商品個別ページにアクセスしなければ、取得できないからなんです。
商品一覧ページにJANコードの記載があるサイトの場合はこれでJanperに読み込ませる事ができますが、稀です。(涙
それでは、先ほどダウンロードしたCSVファイルをもとに、商品個別ページにアクセスしてJANコードなどの情報を抽出しましょう。
右上の「リストをスクレイプ」を「詳細をスクレイプ」に変更して「①URLをアップロード」で「ファイルを選択」からダウンロードしたCSVファイルを選択します。
次に「②スクレイパーを選択」で「新しいスクレイパー」をクリックして自動で開く商品個別ページで抽出したい情報を選択していきます。

Janperのリサーチで必須なJANコードと価格は最低限必要ですが、中央物産のように1点売りでない場合は入数(セット)も必ず選択します。商品名は必須ではありませんが、あとでCSVファイルをみてわかりやすいように選択しておきます。すべて選択したら右上の「完了」をクリックします。
入数は選択時「1セット(6点)」のようにも選択できますが、必ず「(6点)」だけを選択して下さい。前者のような選択をした場合、Janperのリサーチ時に入数が16になってしまいます。
もし、そのように選択できないサイトがありましたら、個別に対応しますので、ご相談下さい。
その後、「③データを抽出」の「スクレイピングを開始」をクリックすると商品個別ページのスクレイピングがはじまります。
商品一覧ページの場合は一度のアクセスで120商品分のデータを抽出できますが、ここからは1商品づつ個別ページにアクセスする為、時間がかかります。
スクレイピングが終了したら「CSV」をクリックしてデータをダウンロードしておきます。
JanperでリサーチできるのはExcelファイルなので、Excelファイルへ変換しておいて下さい。
CSVをクリックしてファイルを開くと文字化けしてしまう場合は、「CSV」ではなく「コピー」をクリックして、新規Excelファイルにペーストして下さい。
Janperでリサーチする
Janperの「Excelファイルからリサーチ」で以下のように設定してリサーチを実行して下さい。(今回の場合の例です。実際の項目に従って設定して下さい。)
- 「Excelファイルの種類」問屋(自由形式)
- 「問屋名」任意
- 「JANコード列」c
- 「価格列」e
- 「入数列」d
- 「商品ページURL列」a
まとめ&注意点
いかがでしたか?
こんな素晴らしいツールが無料で使えるなんて、すごいですよね~。
ただ無料のツールって、いつのまにか有料になったり、使えなくなったりしちゃう場合もあるので、なんとか頑張って同様のツールを作成したいですね。
どうしても使い方が分からない方や抽出できないサイトなどありましたら、お気軽にご連絡下さい。
あと上の方でも書きましたが、サイトのサーバーに高負荷をかけないように、節度をもって利用して下さいね。間違っても24時間フル稼働とか、何台ものPCから同時にスクレイピングとかは、絶対にやめて下さい。
アクセス制限や最悪垢バンくらっても責任は負えませんよ。(笑
お知らせ
今回紹介した「Easy Scraper」で全てを代用できる為、Janperの「商品情報抽出サービス」および「HTMLからJAN抽出」はサービスを終了させて頂く予定です。
では、またー。