EC2+Squidでプロキシサーバを立てて、複数IPでアクセス元を分散させる

スクレイピングをする場合、同じアクセス元だとBanされたりすることがあるようで、なるべくコストを抑えつつプロキシサーバを運用したいと相談されたので、AWSで試してみることにしました。

前提

VPCとサブネットがすでに作成されている前提で書いていきます。 もし、この2つを作成していない場合は作成してください。

手順

EC2

まず、EC2作成します。AMIは Amazon Linux 2 AMI (HVM), SSD Volume Type - ami-00d101850e971728dで、インスタンスタイプは t2.medium を使いました。

理由は、インスタンスタイプによって、インターフェースあたりのIPv4アドレスを追加できる数に制限があるためです。 t2.mediumだと6つ追加できるようです。

※ 自動割り当てパブリックIPを有効にしてください

Elastic Network Interface

ネットワークインターフェースを作成します。 サブネットには既存のサブネットを指定し、セキュリティグループも指定します。作成していなければ、作成してください。

作成したネットワークインターフェースを先ほど作成したEC2にアタッチします。

eth1に新しいIPを割り当てる

またインスタンスの一覧に戻って、作成したインスタンスを指定した後、 アクション > ネットワーキング > IPアドレスの管理を開きます。

f:id:ryskit:20190601211900j:plain

そのあと、eth1側に新しいIPを5つ追加します。

f:id:ryskit:20190601212311j:plain

追加したら更新します。

Elastic IPを割り当てる

Elastic IPを5つ割り当てます。 スコープはVPCで構いません。

Elastic IPを関連付ける

先ほど、eth1に新しいIPを割り当てたかと思いますが、 そのIPに対してElastic IPを関連づけていきます。

Elastic IPを選択し、アクション > アドレスの関連付け をクリックします。

f:id:ryskit:20190601220307j:plain

リソースタイプはネットワークインターフェースを選択し、 ネットワークインターフェースは、作成したものを選択します。

プライベートIPは、eth1で新しく割り当てたセカンダリプライベートIPを選んで、関連付けを5つ行ってください。

f:id:ryskit:20190601221518j:plain

セキュリティグループのインバウンドのルールを追加する

Squid(プロキシサーバー)にアクセスする際のポートをインバウンドのルールに追加しておきます。 今回、タイプはカスタムTCP、ポートは 4578、ソースは カスタム 0.0.0.0/0 を設定しました。

Squidをインストールする

EC2にSSHで接続して以下のコマンドでSquidをインストールします。

sudo yum install -y squid

これでSquidがインストールされます。

Squidの設定ファイルを書き換える

アクセス元を分散するように設定ファイルを書き換えます。

sudo vim /etc/squid/squid.conf

以下のように書き換えました。

#
# Recommended minimum configuration:
#

# Example rule allowing access from your local networks.
# Adapt to list your (internal) IP networks from where browsing
# should be allowed
acl localnet src 10.0.0.0/8 # RFC1918 possible internal network
acl localnet src 172.16.0.0/12  # RFC1918 possible internal network
acl localnet src 192.168.0.0/16 # RFC1918 possible internal network
acl localnet src fc00::/7       # RFC 4193 local private network range
acl localnet src fe80::/10      # RFC 4291 link-local (directly plugged) machines

acl SSL_ports port 443
acl Safe_ports port 80      # http
acl Safe_ports port 21      # ftp
acl Safe_ports port 443     # https
acl Safe_ports port 70      # gopher
acl Safe_ports port 210     # wais
acl Safe_ports port 1025-65535  # unregistered ports
acl Safe_ports port 280     # http-mgmt
acl Safe_ports port 488     # gss-http
acl Safe_ports port 591     # filemaker
acl Safe_ports port 777     # multiling http
acl CONNECT method CONNECT

#
# Recommended minimum Access Permission configuration:
#
# Deny requests to certain unsafe ports
http_access deny !Safe_ports

# Deny CONNECT to other than secure SSL ports
http_access deny CONNECT !SSL_ports

# Only allow cachemgr access from localhost
http_access allow localhost manager
http_access deny manager

# We strongly recommend the following be uncommented to protect innocent
# web applications running on the proxy server who think the only
# one who can access services on "localhost" is a local user
#http_access deny to_localhost

#
# INSERT YOUR OWN RULE(S) HERE TO ALLOW ACCESS FROM YOUR CLIENTS
#

# Example rule allowing access from your local networks.
# Adapt localnet in the ACL section to list your (internal) IP networks
# from where browsing should be allowed
http_access allow localnet
http_access allow localhost

# And finally deny all other access to this proxy
#http_access deny all

# Squid normally listens to port 3128
#http_port 3128

# Uncomment and adjust the following to add a disk cache directory.
#cache_dir ufs /var/spool/squid 100 16 256

# Leave coredumps in the first cache dir
coredump_dir /var/spool/squid

#
# Add any of your own refresh_pattern entries above these.
#
refresh_pattern ^ftp:       1440    20% 10080
refresh_pattern ^gopher:    1440    0%  1440
refresh_pattern -i (/cgi-bin/|\?) 0 0%  0
refresh_pattern .       0   20% 4320

http_access allow all

client_persistent_connections off
server_persistent_connections off

acl balance random 1/5
balance_on_multiple_ip on

http_port 4578

visible_hostname unknown
forwarded_for off
request_header_access X-Forwarded-For deny all
request_header_access Via deny all
request_header_access Cache-Control deny all
reply_header_access X-Forwarded-For deny all
reply_header_access Via deny all
reply_header_access Cache-Control deny all

max_filedesc 65535

tcp_outgoing_address 192.168.xx.xxx balance
tcp_outgoing_address 192.168.xx.xxx balance
tcp_outgoing_address 192.168.xx.xxx balance
tcp_outgoing_address 192.168.xx.xxx balance
tcp_outgoing_address 192.168.xx.xxx balance

tcp_outgoing_address 192.168.xx.xxx balance で書いているIP部分は、EC2のセカンダリプライベートIPの5つ書いてください。

f:id:ryskit:20190601214628j:plain

※注意: http_access allow all でアクセスを許可するクライアントをすべて許可しているため、ここはよしなに変更してください。

Squidを起動する

以下のコマンドで起動します。

sudo systemctl start squid

自動起動の設定もするのであれば、以下も実行してください。

sudo systemctl enable squid

試してみる

実行するたびに あなたのIPアドレス(IPv4) の部分がランダムに切り替わっていたら成功です🎉

curl --proxy http://EC2の自動割り当てパブリックIP:4578 http://www.ugtop.com/spill.shtml

最後に

いかがでしたでしょうか?

これらの作業を自動化すれば、必要なときにプロキシーサーバーを立てて、 必要ないときはすべてのリソースを解放しておけばお金もかからないので、 VPSでプロキシサーバーを立てて置いとくより安くなるかもしれません。

自動化までやったら、またこれ関連の記事でも書こうと思います。

P.S. 作成したリソースはすべて削除しましょう! お金かかっちゃうので!