投稿 2023年7月2日
更新 2023年7月2日
専門用語の数:多
スクレイピングを説明する前にクローリングを説明します。
Web上のサイトにアクセスし、HTMLを取得します。
HTMLを解析して、サイトの情報を収集することを指します。
クローリングは、情報を収集すること。
スクレイピングは、その情報をさらに抽出し、データを加工などすること。
スクレイピングは特定の情報を、ピンポイントで収集すること。
を指すようなイメージですが、
実際、厳密に違いがあるかと言われると、案外同じ意味でつかわれたりしています。
スクレイピング(クローリング)を行う際、
情報収集先のWebサイトで禁止されている場合もあるので、
行う前にルールを確認しましょう。
プライバシーポリシー、利用規約等、要チェックです。
脅すようですが、本当に法律にも関わります。
アクセスのしすぎで、アクセス集中による負荷が発生します。
サーバに負荷をかけると、他の方のアクセスが時間かかったり、
過度なレベルになると、サーバがダウンしアクセスできなくなることもあります。
サイトに多大な迷惑をかけないよう、細心の注意を払って行いましょう。
スクレイピングに限った話ではありませんが、
収集した情報を複製し、公開等を行うことは禁止されています。
プログラミングして、ツールを作成する方法です。
技術さえあれば、特異な言語で自由なスクレイピングが可能です。
プログラミングの経験がない場合、結構学習コストが必要です。
有識者が近くにいるのであれば、聞いてみましょう。
世の中には無料や有料のツールがあります。
無料だと多少知識は必要になりますが、
有料のツールだと、ほぼ知識なく使えるかと思います。
スクレイピングの利便性と危険性でした。
使いこなせれば、とても便利なものです。
便利なものですが、しっかり注意したうえで、扱いましょう。
何度も言います。
法律やマナーにはご注意ください。
以上、ここまで見ていただきありがとうございます。
皆さまの快適な開発ライフに、ほんの少しでもお役に立てれば幸いです。
コメント一覧