スクレイピングをする場合、同じアクセス元だとBanされたりすることがあるようで、なるべくコストを抑えつつプロキシサーバを運用したいと相談されたので、AWSで試してみることにしました。
前提
VPCとサブネットがすでに作成されている前提で書いていきます。 もし、この2つを作成していない場合は作成してください。
手順
EC2
まず、EC2作成します。AMIは Amazon Linux 2 AMI (HVM), SSD Volume Type - ami-00d101850e971728d
で、インスタンスタイプは t2.medium
を使いました。
理由は、インスタンスタイプによって、インターフェースあたりのIPv4アドレスを追加できる数に制限があるためです。 t2.mediumだと6つ追加できるようです。
※ 自動割り当てパブリックIPを有効にしてください
Elastic Network Interface
ネットワークインターフェースを作成します。 サブネットには既存のサブネットを指定し、セキュリティグループも指定します。作成していなければ、作成してください。
作成したネットワークインターフェースを先ほど作成したEC2にアタッチします。
eth1に新しいIPを割り当てる
またインスタンスの一覧に戻って、作成したインスタンスを指定した後、
アクション > ネットワーキング > IPアドレスの管理
を開きます。
そのあと、eth1側に新しいIPを5つ追加します。
追加したら更新します。
Elastic IPを割り当てる
Elastic IPを5つ割り当てます。 スコープはVPCで構いません。
Elastic IPを関連付ける
先ほど、eth1に新しいIPを割り当てたかと思いますが、 そのIPに対してElastic IPを関連づけていきます。
Elastic IPを選択し、アクション > アドレスの関連付け
をクリックします。
リソースタイプはネットワークインターフェースを選択し、 ネットワークインターフェースは、作成したものを選択します。
プライベートIPは、eth1で新しく割り当てたセカンダリプライベートIPを選んで、関連付けを5つ行ってください。
セキュリティグループのインバウンドのルールを追加する
Squid(プロキシサーバー)にアクセスする際のポートをインバウンドのルールに追加しておきます。
今回、タイプはカスタムTCP
、ポートは 4578
、ソースは カスタム 0.0.0.0/0
を設定しました。
Squidをインストールする
EC2にSSHで接続して以下のコマンドでSquidをインストールします。
sudo yum install -y squid
これでSquidがインストールされます。
Squidの設定ファイルを書き換える
アクセス元を分散するように設定ファイルを書き換えます。
sudo vim /etc/squid/squid.conf
以下のように書き換えました。
# # Recommended minimum configuration: # # Example rule allowing access from your local networks. # Adapt to list your (internal) IP networks from where browsing # should be allowed acl localnet src 10.0.0.0/8 # RFC1918 possible internal network acl localnet src 172.16.0.0/12 # RFC1918 possible internal network acl localnet src 192.168.0.0/16 # RFC1918 possible internal network acl localnet src fc00::/7 # RFC 4193 local private network range acl localnet src fe80::/10 # RFC 4291 link-local (directly plugged) machines acl SSL_ports port 443 acl Safe_ports port 80 # http acl Safe_ports port 21 # ftp acl Safe_ports port 443 # https acl Safe_ports port 70 # gopher acl Safe_ports port 210 # wais acl Safe_ports port 1025-65535 # unregistered ports acl Safe_ports port 280 # http-mgmt acl Safe_ports port 488 # gss-http acl Safe_ports port 591 # filemaker acl Safe_ports port 777 # multiling http acl CONNECT method CONNECT # # Recommended minimum Access Permission configuration: # # Deny requests to certain unsafe ports http_access deny !Safe_ports # Deny CONNECT to other than secure SSL ports http_access deny CONNECT !SSL_ports # Only allow cachemgr access from localhost http_access allow localhost manager http_access deny manager # We strongly recommend the following be uncommented to protect innocent # web applications running on the proxy server who think the only # one who can access services on "localhost" is a local user #http_access deny to_localhost # # INSERT YOUR OWN RULE(S) HERE TO ALLOW ACCESS FROM YOUR CLIENTS # # Example rule allowing access from your local networks. # Adapt localnet in the ACL section to list your (internal) IP networks # from where browsing should be allowed http_access allow localnet http_access allow localhost # And finally deny all other access to this proxy #http_access deny all # Squid normally listens to port 3128 #http_port 3128 # Uncomment and adjust the following to add a disk cache directory. #cache_dir ufs /var/spool/squid 100 16 256 # Leave coredumps in the first cache dir coredump_dir /var/spool/squid # # Add any of your own refresh_pattern entries above these. # refresh_pattern ^ftp: 1440 20% 10080 refresh_pattern ^gopher: 1440 0% 1440 refresh_pattern -i (/cgi-bin/|\?) 0 0% 0 refresh_pattern . 0 20% 4320 http_access allow all client_persistent_connections off server_persistent_connections off acl balance random 1/5 balance_on_multiple_ip on http_port 4578 visible_hostname unknown forwarded_for off request_header_access X-Forwarded-For deny all request_header_access Via deny all request_header_access Cache-Control deny all reply_header_access X-Forwarded-For deny all reply_header_access Via deny all reply_header_access Cache-Control deny all max_filedesc 65535 tcp_outgoing_address 192.168.xx.xxx balance tcp_outgoing_address 192.168.xx.xxx balance tcp_outgoing_address 192.168.xx.xxx balance tcp_outgoing_address 192.168.xx.xxx balance tcp_outgoing_address 192.168.xx.xxx balance
tcp_outgoing_address 192.168.xx.xxx balance
で書いているIP部分は、EC2のセカンダリプライベートIPの5つ書いてください。
※注意: http_access allow all
でアクセスを許可するクライアントをすべて許可しているため、ここはよしなに変更してください。
Squidを起動する
以下のコマンドで起動します。
sudo systemctl start squid
自動起動の設定もするのであれば、以下も実行してください。
sudo systemctl enable squid
試してみる
実行するたびに あなたのIPアドレス(IPv4)
の部分がランダムに切り替わっていたら成功です🎉
curl --proxy http://EC2の自動割り当てパブリックIP:4578 http://www.ugtop.com/spill.shtml
最後に
いかがでしたでしょうか?
これらの作業を自動化すれば、必要なときにプロキシーサーバーを立てて、 必要ないときはすべてのリソースを解放しておけばお金もかからないので、 VPSでプロキシサーバーを立てて置いとくより安くなるかもしれません。
自動化までやったら、またこれ関連の記事でも書こうと思います。
P.S. 作成したリソースはすべて削除しましょう! お金かかっちゃうので!