태그 Archives: AWS

AWS 서버 발생 로그의 분리 보관 (amazon-cloudwatch-agent)

서버내 dbus -> rsyslogd 에 의해 수집된 시스템 로그는 /var/log 아래에 파일 형태로 저장 된다.

이는 /etc/logrotate.conf 설정에 따라 서버내에 보관이 된다.

다만 보관된 파일의 파일 형태로 저장되어 있기 때문에 구조만 알고 있다면 파일을 삭제 하거나 변조 할 수 있으므로

추후 추적을 용의 하게 하기 위해, 데이터 무결성을 보장하기 위해, 혹은 다중의 서버의 데이터를 모아서 보관 하기위해 log 콜렉팅을 하는것이 일반적인 보안 방법 이다.

단순한 rsyslogd 를 이용한 udp 푸시 및 graylog collecting 은 기존에 설명을 했지만

AWS 상에서는 CloudWatch Log 라는 기능을 제공 한다 이를 통해 지표 형태로 보거나 알람 설정등을 할 수 있다.

서버에서는 CloudWatch log 쪽으로 데이터를 넣어주는 프로그램을 설치해서 운용 하며 이후

Log 파일의 안전한 분리 보관, 보관 주기 설정, 알람 설정 등을 웹 콘솔상에서 편하게 진행할 수 있다.

기존에 centos 7 에서는 yum 을 이용하여 awslogs 라는 프로그램을 설치하여 같은 기능을 사용하고 있었으나

Rockylinux 8 에서는 dnf 패키지가 없는 관계로 RPM 설치를 필요로 한다.

AWS 웹콘솔 에서 IAM 메뉴의 Role (역할) 을 생성 하고 권한을 부여 한다. (중간에 권한은 지정하지 않고 생성 하고 추후 인라인 정책으로 생성 한다.)

인라인 정책을 생성 한다. (생성한 정책이 다른 계정 이나 역할에 공통으로 부여할 필요하 있으면 일반 정책 생성 후 연결 한다.)

{ "Version": "2012-10-17",

"Statement": [

{ "Sid": "VisualEditor0",

"Effect": "Allow",

"Action": [ "logs:CreateLogStream", "logs:DescribeLogStreams", "logs:PutLogEvents" ],

"Resource": [ "arn:aws:logs:ap-northeast-2:*:log-group:*" ]

{ "Sid": "VisualEditor1",

"Effect": "Allow",

"Action": "logs:PutLogEvents",

"Resource": [ "arn:aws:logs:ap-northeast-2:*:log-group:*:*:*" ]

{ "Sid": "VisualEditor2",

"Effect": "Allow",

"Action": "logs:CreateLogGroup",

"Resource": "*"

} ] }

위 json 정책은 ap-northeast-2 (서울) 리전에 로그 를 쌓는 기능만 허용 하는것으로 제한 하였다.

생성된 Role (역할) 을 필요한 EC2에 연결 한다.

위에서 이야기 했지만 yum(dnf) 설치가 RockyLinux 8 에서 되지 않는다. 때문에 AWS 에서 배포 하는 rpm 파일을 가지고 설치를 진행 한다. (amazon-cloudwatch-agent 설치 메뉴얼)

~]$ sudo -i

~]# cd /opt

~]# curl https://s3.amazonaws.com/amazoncloudwatch-agent/redhat/amd64/latest/amazon-cloudwatch-agent.rpm -O

~]# rpm -U ./amazon-cloudwatch-agent.rpm

편리하게 사용하라고 대화식 명령어를 실행 하도록 되어 있다.
/opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-config-wizard

하지만 문답 형식의 영어를 읽기도 귀찮고(어렵고) Role (정책)을 부여하여 키없이 로그를 쌓게 하고자 했으나

스크립트에서는 필수적으로 Access Key/Secret Key 를 입력 해야 하는 부분이 있기 때문에 스크립트로 진행이 어렵다.

때문에 /opt/aws/amazon-cloudwatch-agent/bin/config.json 파일을 직접 수정 해 준다. (amazon-cloudwatch-agent 설정 메뉴얼)

{ "agent": {

"metrics_collection_interval": 30,

"run_as_user": "root",

"logfile": "/var/log/aws-cw-agent.logs"

"logs": { "logs_collected": { "files": { "collect_list": [

{ "file_path": "/var/log/messages",

"log_group_name": "XXXX-syslog",

"log_stream_name": "XXXXXXXXXXXX-01_{instance_id}_messages",

"timestamp_format": "%b %d %H:%M:%S"

{ "file_path": "/var/log/secure",

"log_group_name": "XXXX-syslog",

"log_stream_name": "XXXXXXXXXXXX-01_{instance_id}_secure",

"timestamp_format": "%b %d %H:%M:%S"

{ "file_path": "/var/log/httpd/access_log",

"log_group_name": "XXXX-weblog",

"log_stream_name": "XXXXXXXXXXXX-01_{instance_id}_httpd-access_log",

"timestamp_format": "%d/%b/%Y:%H:%M:%S %z"

{ "file_path": "/var/log/httpd/error_log",

"log_group_name": "XXXX-weblog",

"log_stream_name": "XXXXXXXXXXXX-01_{instance_id}_httpd-error_log",

"timestamp_format": "%a %b %d %H:%M:%S.%f %Y"

{ "file_path": "/var/log/nginx/access.log",

"log_group_name": "XXXX-weblog",

"log_stream_name": "XXXXXXXXXXXX-01_{instance_id}_nginx-access_log",

"timestamp_format": "%d/%b/%Y:%H:%M:%S %z"

{ "file_path": "/var/log/nginx/error.log",

"log_group_name": "XXXX-weblog",

"log_stream_name": "XXXXXXXXXXXX-01_{instance_id}_nginx-error_log",

"timestamp_format": "%Y/%m/%d %H:%M:%S"

{ "file_path": "/var/log/php-fpm/www-error.log",

"log_group_name": "XXXX-weblog",

"log_stream_name": "XXXXXXXXXXXX-01_{instance_id}_php-fpm_log",

"timestamp_format": "%d-%b-%Y %H:%M:%S"

} ] } } } }

위 예제는 apache, php, nginx 등을 dnf(yum) 설치를 한경우 일반 적인 log 포멧의 timestamp를 인식 하도록 정리한 것이다. (secure, message 로그 및 apache, nginx, php-fpm 로그)

필요에 따라 수정을 해서 사용 하도록 한다.

이후 다음 명령어로 설정된 config.json 을 점검 하고 문제가 없다면 자동으로 서비스가 시작된다.

1 2	~]# cd /opt/aws/amazon-cloudwatch-agent/bin ~]# ./amazon-cloudwatch-agent-ctl -a fetch-config -m ec2 -c file:/opt/aws/amazon-cloudwatch-agent/bin/config.json -s

****** processing amazon-cloudwatch-agent ******

/opt/aws/amazon-cloudwatch-agent/bin/config-downloader --output-dir /opt/aws/amazon-cloudwatch-agent/etc/amazon-cloudwatch-agent.d --download-source file:/opt/aws/amazon-cloudwatch-agent/bin/config.json --mode ec2 --config /opt/aws/amazon-cloudwatch-agent/etc/common-config.toml --multi-config default

Successfully fetched the config and saved in /opt/aws/amazon-cloudwatch-agent/etc/amazon-cloudwatch-agent.d/file_config.json.tmp

Start configuration validation...

/opt/aws/amazon-cloudwatch-agent/bin/config-translator --input /opt/aws/amazon-cloudwatch-agent/etc/amazon-cloudwatch-agent.json --input-dir /opt/aws/amazon-cloudwatch-agent/etc/amazon-cloudwatch-agent.d --output /opt/aws/amazon-cloudwatch-agent/etc/amazon-cloudwatch-agent.toml --mode ec2 --config /opt/aws/amazon-cloudwatch-agent/etc/common-config.toml --multi-config default

2022/04/07 20:54:16 Reading json config file path: /opt/aws/amazon-cloudwatch-agent/etc/amazon-cloudwatch-agent.d/file_config.json.tmp ...

Valid Json input schema.

I! Detecting run_as_user...

No csm configuration found.

No metric configuration found.

Configuration validation first phase succeeded

/opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent -schematest -config /opt/aws/amazon-cloudwatch-agent/etc/amazon-cloudwatch-agent.toml

Configuration validation second phase succeeded

Configuration validation succeeded

amazon-cloudwatch-agent has already been stopped

Created symlink /etc/systemd/system/multi-user.target.wants/amazon-cloudwatch-agent.service → /etc/systemd/system/amazon-cloudwatch-agent.service.

Redirecting to /bin/systemctl restart amazon-cloudwatch-agent.service

웹 콘솔 에서 Cloudwatch > 로그 그룹에서 보관 기간 을 설정 하고 로그 데이터가 잘 적재 되고 있는지 확인 한다.

AWS SES – SMTP 계정 의 키 변경

AWS SES (Simple Email Service) 는 직접 구축이 어려운 이메일 서비스를 제공한다.

sendmail 으로 SMTP 구성을 사용할 수 있지만 보통 스팸 방지를 위한 여러 솔루션에 의해서 차단이 되기 때문에

직접 sendmail 서비스를 구성하고 서비스 하기 위해서는 광범위한 공부가 필요 하다.

1. sendmail – smtp 구축

2. KISARBL 등록 (이것은 한국의 포털 쪽으로 메일 서비스 원활히 발송하기 위해 필요 하다.)

3. ReverseDNS 등록 (이건 해외 포털 서비스 쪽과 관련이 있다. Internet Service Provider 에서 등록이 가능하다. – KT, SK, U+ 등등..)

4. DKIM, DMARC 설정 (해외 포탈 gmail, yahoo 등등)

아울어서 주기적인 IP 신뢰도 관리를 위해 서버내에서 발송되는 메일을 추적, 통제 해야 한다.

AWS SES 는 월 62,000건 까지는 무료로 발송이 되며 이후 초과 되는 1000개의 메일당 약 100~150원 정도의 비용이 발생 한다.

물론 수신자의 스팸 신고가 많거나(1%) 허위 메일 주소로 발송(5%)되면 메일 발송 서비스가 차단 된다.

메일 발송을 위한 SMTP 계정은 생성을 하게 되면 auth 계정이 할당 되게 되며 사전에 등록된 메일 주소로만 발송을 할 수 있다.

문제는 ID / PW 형식 이기 때문에 유출 되었거나.. 혹은 패스워드 생성일이 오래 되면 보안상 바꾸어 주어야 한다.

AWS – IAM 에서 일반적으로 생성하는 액세스 키는 20글자 시크릿 키는 40 글자 를 차지 한다.

AWS – SES 에서는 SMTP 계정을 만들때 패스워드 길이가 44 글자를 가진다.

즉 SES 메뉴에서 “Create My SMTP Credentials” 생성한 계정을 사용할 수 있다.

그래서 찾아 보니 아래와 같은 메뉴얼을 찾을 수 있었다.

https://aws.amazon.com/ko/premiumsupport/knowledge-center/ses-rotate-smtp-access-keys/

근데 이해는 잘 되지 않는…

종합해보면 기본으로 제공 되는 파이선코드 를 이용하여 컨버팅 해서 써야 한다는 말이다.

시스템 엔지니어링을 하는 입장에서는 생성된 값을 테스트 하고 넘겨 줘야 하는 부분도 있고 python3 전용인 부분도 조금 마음에 안들어서

패스워드 생성 후 SMTP 테스트를 진행 하도록 하였다. ‘ㅅ’a

#!/usr/bin/env python

# -*- coding: utf-8 -*-

import sys

import hmac

import hashlib

import base64

import argparse

import smtplib

import email.utils

from email.header import Header

from email.mime.text import MIMEText

from email.mime.multipart import MIMEMultipart

def smtp_test(frommail, tomail, acckey, seckey, region):

SENDERNAME = 'PySender'

SENDER = frommail

RECIPIENT = tomail

USERNAME_SMTP = acckey

PASSWORD_SMTP = seckey

HOST = "email-smtp." + region + ".amazonaws.com"

PORT = 587

print("SMTP: email-smtp." + region + ".amazonaws.com:"+str(PORT))

print("AUTH: ID="+acckey+" PW="+seckey)

print("From: "+SENDER+" To: "+RECIPIENT)

SUBJECT = 'AWS SES 메일 테스트'

BODY_TEXT = """Amazon SES SMTP Email 테스트

현재 이메일은 Amazone SES 를 통해 발송 되었으며 Python 언어의 smtplib 라이브러리를 사용합니다."""

BODY_HTML = """<html>

<h1>Amazon SES SMTP Email 테스트</h1>

<p>현재 이메일은 Amazone SES 를 통해 발송 되었으며

<a href='https://www.python.org/'>Python</a> 언어의

<a href='https://docs.python.org/3/library/smtplib.html'>smtplib</a> 라이브러리를 사용합니다.

</p>

</body></html>"""

msg = MIMEMultipart('alternative')

msg['Subject'] = Header(SUBJECT, 'utf-8')

msg['From'] = email.utils.formataddr((SENDERNAME, SENDER))

msg['To'] = RECIPIENT

msg.attach(MIMEText(BODY_TEXT, 'plain', 'utf-8'))

msg.attach(MIMEText(BODY_HTML, 'html', 'utf-8'))

try:

server = smtplib.SMTP(HOST, PORT)

server.ehlo()

server.starttls()

server.ehlo()

server.login(USERNAME_SMTP, PASSWORD_SMTP)

server.sendmail(SENDER, RECIPIENT, msg.as_string())

server.close()

res = "Email sent!"

except Exception as e:

res = "Error: " + e

return res

def sign(key, msg):

return hmac.new(key, msg.encode('utf-8'), hashlib.sha256).digest()

def calculate_key(secret_access_key, region):

SMTP_REGIONS = ['us-east-1', 'us-east-2', 'us-west-2', 'us-gov-west-1', 'sa-east-1',

'ap-northeast-1', 'ap-northeast-2', 'ap-southeast-1', 'ap-southeast-2', 'ap-south-1',

'ca-central-1', 'eu-central-1', 'eu-west-1', 'eu-west-2']

if region not in SMTP_REGIONS:

raise ValueError("The "+region+" Region doesn't have an SMTP endpoint.")

signature = sign(("AWS4" + secret_access_key).encode('utf-8'), "11111111")

signature = sign(signature, region)

signature = sign(signature, "ses")

signature = sign(signature, "aws4_request")

signature = sign(signature, "SendRawEmail")

signature_and_version = bytes([0x04]) + signature

if sys.version_info[0] == 2:

signature_and_version = '\x04'.encode('utf-8') + signature

smtp_password = base64.b64encode(signature_and_version)

return smtp_password.decode('utf-8')

def main():

parser = argparse.ArgumentParser(description='AWS IAM Secret Access Key to SMTP password.')

parser.add_argument('AccessKEY', help='AWS IAM - Access Key ID')

parser.add_argument('SecretKEY', help='AWS IAM - Secret Access Key')

parser.add_argument('REGION', help='AWS SES - Region - us-west-2, ap-south-1, etc...')

args = parser.parse_args()

seskey = calculate_key(args.SecretKEY, args.REGION)

print('make SMTP Password complet.')

print('testing send e-mail? (Y/n) ')

read = str(sys.stdin.readline())

if read in ('Y\n', 'y\n'):

print(smtp_test("FROM@메일주소.com", "TO@메일주소.com", args.AccessKEY, seskey, args.REGION))

else:

print("AWS-SES ID: " + args.AccessKEY)

print("AWS-SES PW: " + seskey)

if __name__ == '__main__':

main()

exit(0)

사용 방법은 다음과 같다.

~]# ./aws-iam-secret_2_aws-ses-smtp-password.py [IAM엑세스키] [IAM시크릿키] [SES리전]

~]# ./aws-iam-secret_2_aws-ses-smtp-password.py AKIAUYPWLXWWGIYWWM4Q 3GYODowMLpLHyQxGRluCrpm0v5jatueqctIcwcGz ap-northeast-2

make SMTP Password complet.

testing send e-mail? (Y/n)

AWS-SES ID: AKIAUYPWLXWWGIYWWM4Q

AWS-SES PW: BL9kb7yvHjw+579VGgM9I0tGYaduQO/iRITu4hzqizpm

IAM 아무렇게나 생성된 계정에서는 작동하지 않고, 계정에 ses:SendRawEmail 권한이 부여 되어 있어야 작동 한다. (SES 에서 생성한 계정은 이미 부여가 되어 있을 것임.)

ps. 위에 예시된 엑세스키/시크릿키/SMTP비밀번호는 이 글을 포스팅 한 이후 모두 삭제 했으니까 굳이 테스트 해보지 않으셔도 된다. ‘ㅅ’a

python – apache pyarrow 를 이용한 parquet 생성 및 테스트

apache 재단에서 진행 되는 프로젝트 이다. python, java, R 등등 많은 언어를 지원 한다.

CSV (Comma-Separated Values)의 가로열 방식의 데이터 기록이 아닌 세로열 기록 방식으로 기존 가로열 방식에서 불가능한 영역을 처리가 가능하도록 한다.

보이는가 선조의 지혜가 -3-)b

이미지 출처: 훈민정음 나무위키

차이점을 그림으로 표현하자면 아래와 같다.

문서를 모두 읽는다 에서는 큰 차이가 발생하지 않지만 구조적으로 모든 행이 색인(index) 처리가 된 것처럼 파일을 읽을 수 있다.

sql 문으로 가정으로 “(SELECT * FROM 테이블 WHERE 재질 = ‘철’)” 을 찾게 될 경우 index 가 둘다 없다는 가정하에서

CSV 는 9개의 칸을 읽어야 하지만 (재질->무게->산화->나무->가벼워->탄다->철->무거워->안탄다->return)

parquet 의 경우 5개의 칸만 읽으면 된다. (재질->나무->철->무거워->안탄다->return)

PS. 물론 색인(index) 는 이런 구조가 아닌 hash 처리에 따른 협차법 으로 찾아서 빨리 찾을 수 있어 차이가 있다.

압축을 하더라도 컬럼별 압축이 되기 때문에 필요한 내용만 읽어서 압축해제 하여 데이터를 리턴 한다.

적당한 TSV (Tab-Separated Values)데이터를 준비 한다.

python 을 이용하여 TSV 파일을 읽고 python 의 pyarrow를 이용하여 parquet 파일을 생성 하고 읽는 테스트를 한다. (pyarrow, pandas 는 pip install pyarrow pandas 으로 설치할 수 있다.)

#!/usr/bin/env python

# -*- coding: utf-8 -*-

import os

import time

import pandas as pd

import pyarrow as pa

import pyarrow.parquet as pq

from pyarrow import csv

def tsv2parquet(filename, skiphead, column_length, toformat):

if toformat in ('none', 'snappy', 'gzip', 'lzo', 'brotil', 'lz4', 'zstd'):

if skiphead == 0:

skiphead = None

table_columns = [str(i) for i in range(0, column_length)]

r_opt = csv.ReadOptions(skip_rows=skiphead, column_names=table_columns, use_threads=False)

p_opt = csv.ParseOptions(delimiter='\t')

pyarrow_table = csv.read_csv(fname, read_options=r_opt, parse_options=p_opt)

outname = os.path.splitext(fname)[0]+'.'+toformat+'.parquet'

pq.write_table(pyarrow_table, outname, compression=toformat)

else:

print('didn\'t support format: '+ toformat)

exit(1)

return outname

print('pyarrow version:', pa.__version__) # print pyarrow Version

fname = "sample/shjang_Genome_20191011.txt" # Target file (TSV)

sh = 4 # file header line.

cc = 10 # column count

out_format = 'gzip' # pyarrow 0.16 support: 'none', 'snappy', 'gzip', 'lz4', 'zstd'

print('File size: ' + str(os.path.getsize(fname)))

ts = time.time()

outfile = tsv2parquet(fname, sh, cc, out_format) # make parquet file.

print('make parquet(' + out_format + ') file: ' + str(round(time.time() - ts, 2)) + ' sec')

ts = time.time()

dataframe = pd.read_parquet(outfile, engine='pyarrow')

print('parquet -> pandas -> dataframe: ' + str(round(time.time() - ts, 2)) + ' sec')

ts = time.time()

dataframe = pq.read_table(outfile).to_pandas()

print('parquet -> pyarrow -> dataframe: ' + str(round(time.time() - ts, 2)) + ' sec')

exit(0)

TSV -> parquet 압축률(높을수록 좋음) 및 처리 시간(낮을수록 좋음)

	def	ext	MB	compress ratio	processing time python 2.7	processing time python 3.6
txt		.txt	58.8 MB
gzip		.txt.gz	16.3 MB	72%	3.24 sec
pyarrow	write_table, compression='none'	.parquet	40.1 MB	32%	0.74 sec	0.93 sec
	write_table, compression='snappy'		24.8 MB	58%	1.31 sec	0.95 sec
	write_table, compression='lz4'		24.7 MB	58%	0.79 sec	0.94 sec
	write_table, compression='zstd'		19.3 MB	67%	1.00 sec	0.98 sec
	write_table, compression='gzip'		18.8 MB	68%	5.07 sec	1.18 sec

읽기/쓰기 테스트 모두 AWS – EC2(m5.large-centos7) – gp2(100GB) 에서 진행 하였다.

parquet 을 생성한 이유는 파일을 읽을때 모든 컬럼인 index가 걸려있는것과 같이 빠르게 읽기 위함이니 읽기 테스트도 해본다.

#!/usr/bin/env python

# -*- coding: utf-8 -*-

import os

import time

import pandas as pd

import pyarrow as pa

import pyarrow.parquet as pq

from pyarrow import csv

def tsv2table2dataframe(filename, skiphead, column_length):

table_columns = [str(i) for i in range(0, column_length)]

r_opt = csv.ReadOptions(skip_rows=skiphead, column_names=table_columns, use_threads=False)

p_opt = csv.ParseOptions(delimiter='\t')

pyarrow_table = csv.read_csv(fname, read_options=r_opt, parse_options=p_opt)

t1 = str(round(time.time() - ts, 2))

ts2 = time.time()

pyarrow_df = pyarrow_table.to_pandas()

t2 = str(round(time.time() - ts2, 2))

return pyarrow_df, t1, t2

print('pyarrow version:', pa.__version__) # print pyarrow Version

fname = "sample/shjang_Genome_20191011.txt" # Target file (TSV)

sh = 4 # file header line.

cc = 10 # column count

out_format = 'gzip' # pyarrow 0.16 support: 'none', 'snappy', 'gzip', 'lz4', 'zstd'

print('File size: ' + str(os.path.getsize(fname)))

ts = time.time()

dataframe = pd.read_csv(fname, skiprows=sh, sep='\t', quotechar='"', header=None, index_col=None, error_bad_lines=False)

print('text TSV file read with pandas to dataframe: ' + str(round(time.time() - ts, 2)) + ' sec')

ts = time.time()

dataframe = pd.read_csv(fname+'.gz', compression='gzip', skiprows=sh, sep='\t', quotechar='"', header=None, index_col=None, error_bad_lines=False)

print('gzip TSV file read with pandas to dataframe: ' + str(round(time.time() - ts, 2)) + ' sec')

ts = time.time()

dataframe, t1, t2 = tsv2table2dataframe(fname, sh, cc)

print('text TSV read(' + t1 + ' sec) with pyarrow to dataframe(' + t2 + ' sec): ' + str(round(time.time() - ts, 2)) + ' sec')

ts = time.time()

dataframe, t1, t2 = tsv2table2dataframe(fname+'.gz', sh, cc)

print('gzip TSV read(' + t1 + ' sec) with pyarrow to dataframe(' + t2 + ' sec): ' + str(round(time.time() - ts, 2)) + ' sec')

exit(0)

TSV, parquet 파일 읽기 테스트 (pandas, pyarrow)

	def	ext	MB	processing time python 2.7	processing time python 3.6
pandas	read_csv	.txt	58.8 MB	1.39 sec	1.56 sec
	read_csv, compression='gzip'	.txt.gz	16.3 MB	1.68 sec	2.06 sec
	read_parquet	.parquet (none)	40.1 MB	0.72 sec	0.93 sec
		.parquet (snappy)	24.8 MB	1.03 sec	0.95 sec
		.parquet (lz4)	24.7 MB	0.73 sec	0.94 sec
		.parquet (zstd)	19.3 MB	0.76 sec	0.95 sec
		.parquet (gzip)	18.8 MB	0.96 sec	1.18 sec
pyarrow	read_csv, to_pandas	.txt	58.8 MB	1.01 sec	1.30 sec
	read_csv, to_pandas	.txt.gz	16.3 MB	1.41 sec	1.37 sec
	read_table, to_pandas	.parquet (none)	40.1 MB	0.69 sec	0.90 sec
		.parquet (snappy)	24.8 MB	0.99 sec	0.89 sec
		.parquet (lz4)	24.7 MB	0.69 sec	0.92 sec
		.parquet (zstd)	19.3 MB	0.75 sec	0.95 sec
		.parquet (gzip)	18.8 MB	0.95 sec	1.22sec

이 문서 처음에 언급 했다 시피 대용량 파일을 처리 하기 위함. 즉 “빅데이터”(HIVE, Presto, Spark, AWS-athena)환경을 위한 포멧이다.

모두 테스트 해보면 좋겠지만 아직 실력이 부족해서 AWS athena 만 테스트를 진행 한다.

구조적으로 S3 버킷에 parquet 파일을 넣어 두고 athena 에서 테이블을(S3 디렉토리 연결) 생성 하여 SQL 문으로 검색을 하는데 사용 한다.

TSV, parquet 파일 읽기 테스트 (AWS – athena)

	ROW FORMAT SERDE	ext	Searched MB	processing time (select target 2)	processing time (select target 50)
athena	org.apache.hadoop.hive. serde2.lazy. LazySimpleSerDe	.txt	58.8 MB	1.17 ~ 3.35 sec	1.86 ~ 2.68 sec
	org.apache.hadoop.hive. serde2.lazy. LazySimpleSerDe	.txt.gz	16.3 MB	1.37 ~ 1.49 sec	1.44 ~ 2.69 sec
	org.apache.hadoop.hive. ql.io.parquet.serde. ParquetHiveSerDe	.txt.parquet	10.48 MB	1.11 ~ 1.49 sec	1.00 ~ 1.38 sec
		.snappy.parquet	4.71 MB	0.90 ~ 2.36 sec	0.90 ~ 1.00 sec
	지원 불가	.lz4.parquet	지원 불가
	지원 불가	.zstd.parquet	지원 불가
	org.apache.hadoop.hive. ql.io.parquet.serde. ParquetHiveSerDe	.gzip.parquet	2.76 MB	0.89 ~ 1.17 sec	0.90 ~ 1.85 sec

읽는 속도가 향상되었고 스캔 크기가 적게 나온다. (parquet 의 강점을 보여주는 테스트-스캔비용의 절감이 가능.)

athena 테이블 생성에 사용된 DDL 쿼리문 (TSV, parquet)

CREATE EXTERNAL TABLE IF NOT EXISTS [데이터베이스명].[테이블명] (

`rsid` string,

`chr` string,

`pos` int,

`gt` string

)

ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'

STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat'

OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'

LOCATION 's3://[S3-URL]/[TSV폴더]';

CREATE EXTERNAL TABLE IF NOT EXISTS [데이터베이스명].[테이블명] (

`rsid` string,

`chr` string,

`pos` int,

`gt` string

)

ROW FORMAT SERDE 'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'

WITH SERDEPROPERTIES ('serialization.format' = '1', 'parquet.column.index.access'='true')

LOCATION 's3://[S3-URL]/[parquet폴더]'

TBLPROPERTIES ('has_encrypted_data'='true');

PS. 이건 저도 어려 웠어요…..

AWS – EBS 타입 gp3

aws 의 EC2 인스턴스에 연결하여 사용하는 EBS(disk) 의 경우 기존에 gp2 만 존재 했었다.

이번 reinvent 2020 에서 발표된 gp3가 기존 gp2가 어떤 부분이 다른지 확인을 해본다.

가격테이블(리전: Seoul/ap-northeast-2)

	gp2 GB / month	gp3 GB / month	gp3 IOPS( 1 )	gp3 Throughput( 1 MiB )
가격	US$ 0.114	US$ 0.0912	US$ 0.0057	US$ 0.0456
크기	1 ~ 16384 GB	1 ~ 16384 GB
IOPS	100 ~ 16000 disk 크기에 따른 자동조정	3000 ~ 16000 기본값 3000 이상 옵션 과금 제한 DISK크기 1MB : 500 IOPS
Throughput	125 ~ 250 MiB disk 크기에 따른 자동조정	125 ~ 1000 MiB 기본값 125 이상 옵션 과금 제한 4 IOPS : Throughput 1 MiB

gp2 에서는 IOPS 가 34GB ~ 5334GB 에서 디스크 자동 조정이 되었고, Throughput 의 경우 168 GB ~ 334 GB 에서 자동 조정이 되었다.

모든 경우값을 다 대입 할순 없겠지만 엑셀로 정리했을때 아래와 같다.

상위 표중 gp3 max speed 는 최대의 IOPS 및 Throughput 으로 하게 되며 디스크 크기에 따라아래와 같이 속도가 제한 되었다.

8GB = 4000 IOPS, Throughput 750 MiB

30GB = 15000 IOPS, , Throughput 1000 MiB(max)

기본적인 가격은 낮아졌기 때문에 gp2 보다는 gp3 를 선택해서 사용 하는게 이익이다.

다만 단순히 TYPE 만 변경 하게 될 경우 속도 상에서 기존 gp2에 비해 느릴 수 있겠다. 때문에 적절히 IOPS 와 Throughput 을 적용하는것이 좋겠다.

그래프로 그려봤을땐 아래와 같다.

좀더 현실적으로 많이 사용할 500GB 까지의 그래프는 아래와 같다.

gp2 에서 gp3 으로의 이행을 할 경우 성능 조정 없이 사용할 경우 사용료가 20% 절약이 된다.

gp2 -> gp3 로의 볼륨 수정은 서버가 running 상태에서도 변경이 가능하다. (용량에 따라 optimizing 시간이 좀 걸린다.)

Linux 에서의 IO 테스트 방법 1

~]# dd if=/dev/zero of=test bs=16k count=10000 oflag=direct && rm -f test

~]# dd if=/dev/zero of=test bs=1M count=1024 oflag=direct && rm -f test

Linux 에서의 IO 테스트 방법 2

1	~]# hdparm --direct -t -T /dev/nvme0n1p1

		dd ( 16k / 10000 times)	dd ( 1M / 1000 times )	hdparm
12GB	gp2 100 IOPS 125MiB (추정)	29.5 MB/s	154 MB/s	cached: 191.81 MB/sec disk: 170.53 MB/sec
12GB	gp3 3000 IOPS 125 MiB	23.8 MB/s	149 MB/s	cached: 187.18 MB/sec disk: 166.64 MB/sec
120GB	gp2 - 360 IOPS 125MiB (추정)	28.8 MB/s	153 MB/s	cached: 191.71 MB/sec disk: 170.58 MB/sec
120GB	gp3 3000 IOPS 125 MiB	16.0 MB/s	149 MB/s	cached: 187.42 MB/sec disk: 166.60 MB/sec
500GB	gp2 IOPS 1500 250MiB (추정)	34.3 MB/s	347 MB/s	cached: 375.03 MB/sec disk: 333.46 MB/sec
500GB	gp3 3000 IOPS 250 MiB	23.0 MB/s	347 MB/s	cached: 375.04 MB/sec disk: 333.47 MB/sec
1024GB	gp2 IOPS 3072 250MiB (추정)	30.9 MB/s	345 MB/s	cached: 374.96 MB/sec disk: 333.50 MB/sec
1024GB	gp3 3000 IOPS 125 MiB	20.6 MB/s	149 MB/s	cached: 187.51 MB/sec disk: 166.63 MB/sec
2048GB	gp2 IOPS 6144 250MiB (추정)	28.0 MB/s	347 MB/s	cached: 375.04 MB/sec disk: 333.22 MB/sec
2048GB	gp3 3000 IOPS 125 MiB	23.7 MB/s	149 MB/s	cached: 187.50 MB/sec disk: 166.63 MB/sec

성능 테스트 결과 최대 속도의 경우 gp2 와 gp3가 동등하다.
gp3의 장점은 사용료가 저렴한 부분과 크레딧이 없어 일정한 속도가 유지 되는면이 있고,
아울러서 gp2 의 경우 높은 성능을 원하는 경우 디스크 크기를 증가 시켜야 하는데
gp3의 경우 성능만 높일 수 있다는 점이 장점이라고 할 수 있겠다.

gp3의 단점은 작은 용량의 파일 처리에서는 속도가 gp2에 비해 떨어진다.

Block Size	16kB	32kB	64kB
Bps	16.0 MB/s	31.6 MB/s	62.4 MB/s

Block Size	128kB	256kB	512kB
Bps	106 MB/s	135 MB/s	150 MB/s

테스트 블럭 사이즈에 비례 하게 속도가 늘어난다 @_@a

S3 버킷 CORS 설정 (json)

S3 의 CORS 설정이 기존 XML 방식에서 Json 방식으로 변경이 되었다 ‘ㅅ’a

웹콘솔에서 s3 버킷을 선택 하고 관리 탭의 하단에 있다.

사실 문법만 틀리겠지만 미리 정리를 해본다.

다음은 가장 일반적인 형태의 자신의 도메인 주소를 추가 하는 방법이다.

[

{

"AllowedOrigins": [ "https://enteroa.com" ],

"AllowedMethods": [ "GET", "PUT", "POST", "HEAD" ],

"AllowedHeaders": [ "*" ],

"ExposeHeaders": [ "x-amz-server-side-encryption", "x-amz-request-id", "x-amz-id-2" ],

"MaxAgeSeconds": 3000

{

"AllowedOrigins": [ "https://*.enteroa.com" ],

"AllowedMethods": [ "GET", "PUT", "POST", "HEAD" ],

"AllowedHeaders": [ "*" ],

"ExposeHeaders": [ "x-amz-server-side-encryption", "x-amz-request-id", "x-amz-id-2" ],

"MaxAgeSeconds": 3000

{

"AllowedOrigins": [ "http://enteroa.com" ],

"AllowedMethods": [ "GET", "PUT", "POST", "HEAD" ],

"AllowedHeaders": [ "*" ],

"ExposeHeaders": [ "x-amz-server-side-encryption", "x-amz-request-id", "x-amz-id-2" ],

"MaxAgeSeconds": 3000

{

"AllowedOrigins": [ "http://*.enteroa.com" ],

"AllowedMethods": [ "GET", "PUT", "POST", "HEAD" ],

"AllowedHeaders": [ "*" ],

"ExposeHeaders": [ "x-amz-server-side-encryption", "x-amz-request-id", "x-amz-id-2" ],

"MaxAgeSeconds": 3000

}

]

IDE를 가지고 개발하는 경우.. 개발자 PC 에서 웹서버가 자주 실행하고 테스트 해야 된다면 아래와 같이 localhost:* 을 추가 한다.

[

{

"AllowedOrigins": [ "http://localhost:*" ],

"AllowedMethods": [ "GET", "PUT", "POST", "HEAD" ],

"AllowedHeaders": [ "*" ],

"ExposeHeaders": [ "x-amz-server-side-encryption", "x-amz-request-id", "x-amz-id-2" ],

"MaxAgeSeconds": 3000

{

"AllowedOrigins": [ "http://127.0.0.1:*" ],

"AllowedMethods": [ "GET", "PUT", "POST", "HEAD" ],

"AllowedHeaders": [ "*" ],

"ExposeHeaders": [ "x-amz-server-side-encryption", "x-amz-request-id", "x-amz-id-2" ],

"MaxAgeSeconds": 3000

}

]

모든 곳에 허용(메일 삽입 이미지 등등) 하는 것은 Origin 설정을 * 으로 하면 된다 ‘ㅅ’a

[

{

"AllowedOrigins": [ "*" ],

"AllowedMethods": [ "GET", "HEAD" ],

"AllowedHeaders": [ "*" ],

"ExposeHeaders": [ "x-amz-server-side-encryption", "x-amz-request-id", "x-amz-id-2" ],

"MaxAgeSeconds": 3000

}

]

AllowedMethods 는 GET, POST, HEAD, PUT, DELETE 를 지정 할수 있다.

PS. 터미널에서 curl 으로 CORS 검사는 아래와 같이 할 수 있다.

~]# curl -sI \

-H 'Origin: http://test.com' \

-H 'Access-Control-Request-Headers: Origin, Accept, Content-Type' \

-H 'Access-Control-Request-Method: GET' \

https://enteroa-bucket.s3-us-west-2.amazonaws.com/img/123.jpg