BizRobo! ブログRPAの開発や運用に役立つ情報を配信
1 スクレイピングを禁止・制限しているサイトがある
Webサイトから情報を自動的に収集する行為は一般にウェブスクレイピング(Web scraping:scrapeは「かき集める」の意)、略して「スクレイピング」と呼ばれ、さまざまな用途で日常的に行われています。
スクレイピングを実行するソフトウエアは「ボット」と呼ばれ、インターネット上の通信のうち、4割以上がボットによるものであるとの調査結果もあります。
出典:日経クロステック「悪性ボットのトラフィックは12カ国中で最も少ない日本、でも油断できないワケ」(2022年7月1日公開)
ボットによるスクレイピングは、人手では到底不可能なスピード・件数の情報収集をこなせる大きなメリットの半面、使い方によっては無視できないデメリットが生じるため、禁止・制限されることも珍しくありません。
あるサイトがスクレイピングを禁止・制限する具体的な理由としては、次のようなものが考えられます。
理由1:利用規約がスクレイピングを禁止
スクレイピングが禁止・制限される理由として、まず挙げられるのは「Webサイトの利用規約で、スクレイピングを禁止している」というものです。
禁止を明言しているサイトに対し、スクレイピングをしないで済むのであれば、やらないに超したことはないでしょう。とはいえ、ユーザーの行為を一方的に制限するこうした条項にどれほど強制力があるかは、慎重な検討を要します。
あるサイトの訪問者が、そこでの禁止事項をきちんと確認し、承諾するよう求められるのは通常、新規会員としてアカウントを作成するか、その後ログインする際に限られます。しかし、スクレイピング禁止を公表しているサイトの多くは、未ログイン状態でもかなりの内容を自由に閲覧できる構造になっています。
技術的には、規約に同意するまで一切非公開とするサイト設計も十分可能と思われますから、あえてそうしなかったサイトが、単に規約で禁止しているという理由から、未ログイン状態でも閲覧可能なデータのスクレイピングそれ自体を問題視することは、実際のところ考えにくいでしょう。
ただし、「規約で禁止」という形式的な理由の裏には、「実害を未然に防ぎたい」という実質的な理由があります。ですから、かりにスクレイピングの実行そのものが問題とされないにしても、それによって実害が生じれば実行者には当然責任が生じますし、またそうした実害を防ぐために、サイト側が技術的な対策を施す場合もあります。
理由2:接続先サーバーへの過重な負荷
スクレイピングが禁止される実質的な理由として最も大きいのは「ロボットによる集中的なアクセスが、接続先サイトのサーバーに過重な負荷をかけるおそれがある」点です。
もともと人によるアクセスを予定しているサイトに、想定を大きく超えた頻度でボットがアクセスを続ければ、最悪の場合、閲覧困難などのアクセス障害を引き起こす可能性があります。
もしそうなれば、サイトの運営者や利用者に損害が及ぶのはもとより、スクレイピングの実行者も、電子計算機損壊等業務妨害罪(刑法234条の2、法定刑は5年以下の懲役または100万円以下の罰金)などの罪に問われるおそれがあります。
実際2010年には、公立図書館Webサイトの蔵書検索システムから図書情報を取得しようとした利用者男性が自作したボットに、サイト側が対応しきれずアクセス障害を起こした結果、男性が威力業務妨害の容疑で逮捕されています(ただし、本件のボットのアクセス頻度は常識的な範囲だったとされ、業務妨害の強い意図も認められなかったことから、起訴はされませんでした)。
理由3:著作権侵害のおそれ
スクレイピングの技術的な手法に問題がなくても、スクレイピングの対象としたデータを取得することで法的な問題が生じる場合もあります。
最も留意しなければならないのは、スクレイピングしたデータに著作物が含まれている場合、無断複製による著作権侵害が容易に起こりうるという点です。
著作権法が保護の対象とする著作物は、以下の条件を全て満たすものとされ、具体的には小説、音楽などのほか、コンピュータープログラム、百科事典などの編集物も該当するとされています。
- 1.「思想または感情」を表現したものであること(単なるデータは含まれない)
- 2.思想または感情を「表現したもの」であること(単なるアイデアは含まれない)
- 3.思想または感情を「創作的に」表現したものであること(単なる模倣は含まれない)
- 4.「文芸、学術、芸術または音楽の範囲」に属するものであること
参考:著作物について(文化庁)
純粋な私的利用を除くと、著作物の無断複製は違法となる可能性が高い行為であり、スクレイピングに際しても権利者から許諾を得るか、収集対象から外す必要があります。
ただし、スクレイピングがデータ解析や、その結果の提供などを目的に行われる場合、著作権法は一定の条件のもとで著作物データの複製を認めています(著作権法47条の5 1項2号)。
理由4:違法・不当な行為の手段となる可能性
スクレイピングが違法・不当な行為の「手段」として用いられる可能性が高い場面では、スクレイピングそのものが適正かどうかを問わず、まとめて禁止・制限されやすくなります。
例えばスクレイピングは、かりにアクセス障害などを起こさない方法であったとしても、人気商品をECサイトで買い占めたり、高値で転売したりするのに悪用されるおそれがあります。
買い占めや転売は、多くの消費者に不利益をもたらすものの、ただちに違法と言い切れないグレーゾーンが大きい行為です。そのため、それらを直接禁止する代わりに、有力な実行手段となるスクレイピングを制限しようとするECサイトは現に存在し、そうした規制は、今後も強化される可能性があります。
理由5:サイト側による技術的な対策
ここまで挙げた諸々の理由から、Webサイトの運営側が、利用者によるスクレイピングを技術的に困難にする対策を施すケースは、年々増えてきています。
中でも、以前からよく知られているのは、サイトへのログイン時に「私はロボットではありません」というチェックボックスへの入力、あるいは画像を交えた質問・パズルへの回答を求め、ボットによる自動操作を弾き出す仕組みの採用でしょう。
それ以外にも「サイトのURLを日々変更し、過去に作成されたボットのアクセスを阻む」「人間では明らかに不可能な速度の操作を受け付けない」など、対策の種類は多種多様で、対抗する自動化技術との“いたちごっこ”が、日々続けられているようです。
こうした対策の結果、もし悪質なボットであることが判明した場合は、意図したアクセスができないのはもとより、アカウント凍結などの制裁を受ける場合もあります。
2 規約などでスクレイピングを禁止しているサイトの例
利用規約などでスクレイピングを禁止しているサイトとしては、以下のような実例が挙げられます(ただし既述のとおり、こうした禁止に反する全ての行為が、実際上ただちに問題になるとは限りません)。
1:Amazon
アマゾンサービスを利用することにより、お客様は本利用規約に同意す
ることになります
本規約およびサービス規約の遵守を条件とし、アマゾンまたはコンテン
ツ提供者は、アマゾンサービスを限定的、非独占的、非商業的および個
人的に利用する権利をお客様に許諾します(譲渡およびサブライセンス
不可)。この利用許可には、アマゾンサービスまたはそのコンテンツの
転売および商業目的での利用、製品リスト、解説、価格などの収集と利
用、アマゾンサービスまたはそのコンテンツの二次的利用、第三者のた
めに行うアカウント情報のダウンロードとコピーやその他の利用、デー
タマイニング、ロボットなどのデータ収集・抽出ツールの使用は、一切
含まれません。
Amazonの利用規約では「ロボットなどのデータ収集・抽出ツールの使用」、つまりスクレイピングを伴うサイト利用を認めていない旨が明記されています。
また、同社の規約は一種の「みなし同意」、つまり「サイトを利用したことで、サイト内でスクレイピングできない条件に同意したものとみなすので、もし実際にスクレイピングをすれば、常に約束違反になる」という論理を採用しています。
日本法でみなし同意が有効となる条件については、民法に規定があります(民法548条の2)。これに照らすと、特に未ログイン状態でスクレイピングを行ったことが、ただちに「同意していながらそれに反した」と評価されたり、ましてそのことだけを理由に何らかの制裁を受けたりする事態は、まずないと思われます。
2:楽天
お客様は、本サービスの利用において以下の各号に定める行為をしては
ならないものとします。(中略)
当社の事前の許可を得ることなく、自動化された手段(自動購入ツー
ル・ロボットなどこれらに準ずる手段)を用いて商品を購入すること
(商品ページ上の情報取得等を含む)
楽天の利用規約では「自動購入ツール・ロボットなどこれらに準ずる手段」、つまりスクレイピングを用いた商品購入や、商品ページ上の情報取得を認めていない旨が明記されています。
また、同社の規約にも「みなし同意」の条項がありますが、この規約が「お客様が商品の購入等の取引を行うにあたっての諸条件」と定義されているため、取引を伴わない未ログイン状態でのスクレイピングまで禁止する趣旨かどうかは明らかではありません。
3:Yahoo!ファイナンス
Yahoo!ファイナンスでは、Yahoo!ファイナンスに掲載している株価や
その他のデータを、プログラム等を用いて機械的に取得する行為(スクレ
イピング等)について、システムに過度の負荷がかかり、安定したサー
ビス提供に支障をきたす恐れがあることから禁止しています。
出典:Yahoo!ファイナンスヘルプ「Yahoo!ファイナンス掲載情報の自動取得(スクレイピング)は禁止しています」
株価情報などを提供しているポータルサイトのYahoo!ファイナンスは、ヘルプページでスクレイピングを禁止している旨を告知し、株価データのダウンロードには同社提供の有償サービスを利用するよう案内しています。
4:Twitter
本サービスを利用することによって、ユーザーは本規約に拘束されることに同意したこと
になります。
本サービスへのクローリングは、robots.txtファイルの定めによる場合
は認められていますが、Twitterによる事前の同意がないまま本サービ
スのスクレイピングをすることは明示的に禁止されています
Twitterの利用規約は明示的にスクレイピングを禁止しており、サービスの利用をもってそれに同意したとみなす「みなし同意」条項が設けられています。
ただし、「Twitterを使ってみよう」とアカウント登録を促すサイトの記載などを見る限り、「Twitterのサービスを使っている」とはっきり言えるのは、規約への同意にチェックを求められるアカウント登録作業の後です。従って、未登録のログアウト状態(投稿の閲覧は可能です)でまで、スクレイピング禁止に同意したものとして扱われることは考えにくいでしょう。
3 スクレイピングを適法・適切に行う方法
スクレイピングによって目的とするデータを最大限・効率的に獲得しつつ、法的なトラブルを回避し、また接続先サイトへの損害を生じさせないためには、以下のような点に留意する必要があります。
ポイント1:明らかな規約違反は避ける
スクレイピングにあたっては、対象サイトの規約を確認した上で、それに明らかに反する行為は避けましょう。
スクレイピング禁止サイトで多用される「みなし同意」の効力には議論の余地がありますが、それでも規約でスクレイピングを禁じているサイトにアカウント登録後、ログインした状態でスクレイピングを行った場合は、明白な規約違反であると指摘されるリスクが高くなります。
従って、およそ実害が考えられないようなスクレイピングであっても、禁止ルールがあるサイトにログインした状態で行うのは、できるだけ避けるのが無難だといえるでしょう。
ちなみにネット上では、Webサイト内の「robots.txt」ファイル(=Google、Yahoo!などの検索エンジンに宛てた指示を記入し、Webサイトの最上部に配置しておくファイル)で指定されたページを、スクレイピングの対象から外すべきとの主張がみられます。
しかしrobots.txtは、ごく大まかに言えば「検索エンジンの情報収集機能であるクローラーに対し、あるページを検索サイトで表示するのを控えるよう伝える仕組み」であるため、スクレイピングの可否とは直接関係がないといえるでしょう。
ポイント2:過重なアクセスを避ける
スクレイピングにあたり、接続先サイトのサーバーに過重な負担をかけるアクセスを行うと、業務妨害として刑事・民事上の責任を問われるおそれがあります。絶対に避けましょう。
サーバーの処理能力がまちまちであるため、「過重な負担」がどの程度かは一概には言えませんが、手作業に近い作業速度であるほど望ましいのは間違いありません。
ちなみに、日本の公的機関によるWeb上の公開資料を自動収集している国立国会図書館では、対象機関のサーバー負担軽減のため「ダウンロードの間隔を1秒以上」空けていると公表しています。
出典:国立国会図書館「国立国会図書館法によるインターネット資料の収集について」(2019年2月更新)
スクレイピングに処理速度を求めている場合、作業間隔を空けることには抵抗があるかもしれません。しかし、悪質ボットと判定されてアクセス禁止になるといった事態を避ける意味でも、自動実行ならではの夜間処理なども活用しながら、焦らず処理するのが安全といえそうです。
ポイント3:違法・不当な目的のために使わない
スクレイピングの方法が適法・適切であるだけでなく、スクレイピングを行う目的も、適法かつ正当であることが必要です。
スクレイピングの用途は極めて広く、コンテンツを丸ごと無断複製したコピーサイトの作成や、違法・不当な買い占め行為にも応用できますが、実際に行うのは絶対避けるべきです。アカウント乗っ取りなどの不正アクセスにスクレイピングを悪用した場合、3年以下の懲役または100万円以下の罰金に処せられる可能性もあります(不正アクセス行為の禁止等に関する法律 2条4項1号、3条、11条)。
ポイント4:自動化困難な工程は人を介在させる
近年、スクレイピングに詳しいエンジニアからは、「悪質なボットを排除する目的でスクレイピング対策を取るWebサイトが増えたため、そうした対策を、正当な目的のスクレイピングが回避する難易度も高まっている」との声が聞かれます。
ボットによる完全自動化が難しくなった工程では無理をせず、「担当者にアラートメールを送信して呼び出し、代わりに操作してもらう」など、人を介在させてクリアするほうが、むしろ速く確実に処理できるはずです。したがって、こうした場面では、手作業と自動実行が入り交じった業務フローに適したデジタルツールであるRPAを用いたスクレイピングが、有効な選択肢となるでしょう。
関連記事:RPA(ロボットによる業務自動化)とは?
4 まとめ
Webサイトから情報を自動的に収集するスクレイピングは、人手では到底不可能な処理をこなせることから、メリットと同時にデメリットも大きく、スクレイピングを禁止・制限しているWebサイトも珍しくありません。そうした中でスクレイピングを適切かつ有効に活用するには、違法行為や権利侵害を避けるのはもとより、スクレイピングを行うサイトの規約を確認した上で、接続先サーバーに極力負荷をかけない運用に努める必要があります。悪質なロボットへの対策として、人間でなければ処理困難なステップを設けるサイトもあることから、ロボットと人間の共働に適したツールであるRPAは、スクレイピング用途でも大いに役立つと考えられます。
関連ページ:情報収集をRPAで自動化!メリットと効果的な用途を解説