スクレイピングをする場合、同じアクセス元だとBanされたりすることがあるようで、なるべくコストを抑えつつプロキシサーバを運用したいと相談されたので、AWSで試してみることにしました。
前提
VPCとサブネットがすでに作成されている前提で書いていきます。
もし、この2つを作成していない場合は作成してください。
手順
EC2
まず、EC2作成します。AMIは Amazon Linux 2 AMI (HVM), SSD Volume Type - ami-00d101850e971728d
で、インスタンスタイプは t2.medium
を使いました。
理由は、インスタンスタイプによって、インターフェースあたりのIPv4アドレスを追加できる数に制限があるためです。
t2.mediumだと6つ追加できるようです。
※ 自動割り当てパブリックIPを有効にしてください
Elastic Network Interface
ネットワークインターフェースを作成します。
サブネットには既存のサブネットを指定し、セキュリティグループも指定します。作成していなければ、作成してください。
作成したネットワークインターフェースを先ほど作成したEC2にアタッチします。
eth1に新しいIPを割り当てる
またインスタンスの一覧に戻って、作成したインスタンスを指定した後、
アクション > ネットワーキング > IPアドレスの管理
を開きます。
そのあと、eth1側に新しいIPを5つ追加します。
追加したら更新します。
Elastic IPを割り当てる
Elastic IPを5つ割り当てます。
スコープはVPCで構いません。
Elastic IPを関連付ける
先ほど、eth1に新しいIPを割り当てたかと思いますが、
そのIPに対してElastic IPを関連づけていきます。
Elastic IPを選択し、アクション > アドレスの関連付け
をクリックします。
リソースタイプはネットワークインターフェースを選択し、
ネットワークインターフェースは、作成したものを選択します。
プライベートIPは、eth1で新しく割り当てたセカンダリプライベートIPを選んで、関連付けを5つ行ってください。
セキュリティグループのインバウンドのルールを追加する
Squid(プロキシサーバー)にアクセスする際のポートをインバウンドのルールに追加しておきます。
今回、タイプはカスタムTCP
、ポートは 4578
、ソースは カスタム 0.0.0.0/0
を設定しました。
Squidをインストールする
EC2にSSHで接続して以下のコマンドでSquidをインストールします。
sudo yum install -y squid
これでSquidがインストールされます。
Squidの設定ファイルを書き換える
アクセス元を分散するように設定ファイルを書き換えます。
sudo vim /etc/squid/squid.conf
以下のように書き換えました。
#
# Recommended minimum configuration:
#
# Example rule allowing access from your local networks.
# Adapt to list your (internal) IP networks from where browsing
# should be allowed
acl localnet src 10.0.0.0/8 # RFC1918 possible internal network
acl localnet src 172.16.0.0/12 # RFC1918 possible internal network
acl localnet src 192.168.0.0/16 # RFC1918 possible internal network
acl localnet src fc00::/7 # RFC 4193 local private network range
acl localnet src fe80::/10 # RFC 4291 link-local (directly plugged) machines
acl SSL_ports port 443
acl Safe_ports port 80 # http
acl Safe_ports port 21 # ftp
acl Safe_ports port 443 # https
acl Safe_ports port 70 # gopher
acl Safe_ports port 210 # wais
acl Safe_ports port 1025-65535 # unregistered ports
acl Safe_ports port 280 # http-mgmt
acl Safe_ports port 488 # gss-http
acl Safe_ports port 591 # filemaker
acl Safe_ports port 777 # multiling http
acl CONNECT method CONNECT
#
# Recommended minimum Access Permission configuration:
#
# Deny requests to certain unsafe ports
http_access deny !Safe_ports
# Deny CONNECT to other than secure SSL ports
http_access deny CONNECT !SSL_ports
# Only allow cachemgr access from localhost
http_access allow localhost manager
http_access deny manager
# We strongly recommend the following be uncommented to protect innocent
# web applications running on the proxy server who think the only
# one who can access services on "localhost" is a local user
#http_access deny to_localhost
#
# INSERT YOUR OWN RULE(S) HERE TO ALLOW ACCESS FROM YOUR CLIENTS
#
# Example rule allowing access from your local networks.
# Adapt localnet in the ACL section to list your (internal) IP networks
# from where browsing should be allowed
http_access allow localnet
http_access allow localhost
# And finally deny all other access to this proxy
#http_access deny all
# Squid normally listens to port 3128
#http_port 3128
# Uncomment and adjust the following to add a disk cache directory.
#cache_dir ufs /var/spool/squid 100 16 256
# Leave coredumps in the first cache dir
coredump_dir /var/spool/squid
#
# Add any of your own refresh_pattern entries above these.
#
refresh_pattern ^ftp: 1440 20% 10080
refresh_pattern ^gopher: 1440 0% 1440
refresh_pattern -i (/cgi-bin/|\?) 0 0% 0
refresh_pattern . 0 20% 4320
http_access allow all
client_persistent_connections off
server_persistent_connections off
acl balance random 1/5
balance_on_multiple_ip on
http_port 4578
visible_hostname unknown
forwarded_for off
request_header_access X-Forwarded-For deny all
request_header_access Via deny all
request_header_access Cache-Control deny all
reply_header_access X-Forwarded-For deny all
reply_header_access Via deny all
reply_header_access Cache-Control deny all
max_filedesc 65535
tcp_outgoing_address 192.168.xx.xxx balance
tcp_outgoing_address 192.168.xx.xxx balance
tcp_outgoing_address 192.168.xx.xxx balance
tcp_outgoing_address 192.168.xx.xxx balance
tcp_outgoing_address 192.168.xx.xxx balance
tcp_outgoing_address 192.168.xx.xxx balance
で書いているIP部分は、EC2のセカンダリプライベートIPの5つ書いてください。
※注意: http_access allow all
でアクセスを許可するクライアントをすべて許可しているため、ここはよしなに変更してください。
Squidを起動する
以下のコマンドで起動します。
sudo systemctl start squid
自動起動の設定もするのであれば、以下も実行してください。
sudo systemctl enable squid
試してみる
実行するたびに あなたのIPアドレス(IPv4)
の部分がランダムに切り替わっていたら成功です🎉
curl --proxy http://EC2の自動割り当てパブリックIP:4578 http://www.ugtop.com/spill.shtml
最後に
いかがでしたでしょうか?
これらの作業を自動化すれば、必要なときにプロキシーサーバーを立てて、
必要ないときはすべてのリソースを解放しておけばお金もかからないので、
VPSでプロキシサーバーを立てて置いとくより安くなるかもしれません。
自動化までやったら、またこれ関連の記事でも書こうと思います。
P.S.
作成したリソースはすべて削除しましょう!
お金かかっちゃうので!