TIL/AWS
AWS의 데이터베이스
초집중
2023. 6. 5. 15:45
올바른 데이터베이스 선택하기
워크로드에 맞는 데이터베이스 사용해야함
- 쓰기 혹은 읽기, R/W 균형이 맞는 워크로드인지에 따라 다르다
- 처리량이 얼마나 되는지 데이터는 얼마나 저장되고 확장은 가능한지 평균 객체 크기와 액세스 빈도 액세스 방법
- 내구성, 지연시간 요구사항, 사용자 요구사항
- 데이터 모델과 데이터는 어떻게 쿼리할지
- 스키마가 고정적이거나 유연해야하는지, db관련 보고가 필요한지 검색 기능이 필요한지, 관계형 혹은 NoSQL 어떤 것이 필요한지
- 라이센스 비용이 드는지, Cloud Native로 전환할 계획이 있는지
Database Types
- RDBMS( = SQL/OLTP(Online Transaction Processing)) 조인에 유용
- RDS, Aurora
- NoSQL - 조인없고 SQL 쿼리 언어를 사용하지 않는다
- DynamoDB (~JSON), ElastiCache (Key/value 페어), Neptune (그래프), DocumentDB (MongoDB), Keyspaces (Apache Cassandra)
- Object Store
- S3(대용량 오브젝트) / Glacier(백업/아카이브)
- Data Warehouse: SQL 분석/BI
- Redshift(OLAP(Online Analytical Processing)), Athena, EMR
- 검색 - 제한없는 텍스트, 비정형 검색
- OpenSearch(JSON)
- 그래프 - 데이터 세트간의 관계를 표시
- Amazon Neptune
- 원장 → QLDB 원장은 완전하고 변경 불가능한 테이블 변경 기록을 유지하는 일련의 QLDB 테이블 및 저널로 구성됩니다. 원장에는 이름이 지정되며 태그를 지정할 수 있습니다.
- Amazon Quantum Ledger Database
- 시계열
- Amazon Timestream
RDS - summary
- 관리형 PostgreSQL / MySQL / Oracle / SQL Server / MariaDB / 사용자 지정 RDS
- 인스턴스 크기와 EBS 볼륨 유형 및 크기를 프로비저닝해야함
- 오토스케일링 기능이 있어도 프로비저닝이 필요
- 읽기 용량 확장을 위해 읽기 전용 복제본을 지원한다
- 고가용성 목적으로 다중 AZ에 둘 수 있다
- 자동백업 최대 35일 / 35일 이내에는 지정 시간 복구 기능을 지원한다
- 장기 보존 백업이 필요한 경우 수동 DB 스냅샷을 활용
- 유지 관리 기능을 예약할 수 있기 때문에 다운타임이 발생할 수 있다
- AWS가 db엔진을 업데이트하거나 기본 EC2인스턴스에 보안 패치 등
- RDS 프록시를 강제하여 RDS IAM 인증 추가하는 기능이 있다
- Secrets Manager와 통합하여 DB 자격 증명을 관리할 수 있다
- Oracle & SQL Server 유형의 경우 기본 인스턴스에 엑세스하거나 커스텀할 수 있다
- RDS 데이터베이스 보안
- 사용자 이름 + 패스워드 or IAM 인증 등
- 네트워크 보안을 위한 보안 그룹
- 데이터 암호화엔 KMS
- 전송 데이터 암호화에는 SSL/TLS
Aurora - summary
- PostgreSQL / MySQL과 호환되는 API로 컴퓨팅과 스토리지가 분리된 특별한 서비스
- 스토리지의 경우 기본적으로 데이터를 세 가용 영역 여섯 개의 복제본에 저장(기본옵션 변경 불가) - 스토리지 문제 발생시 백그라운드로 자가 동작하여 복구됨
- 오토스케일링이 내장되어 있다
- 컴퓨팅의 경우 클러스터화된 데이터베이스 인스턴스를 여러 가용 영역에 걸쳐 저장 가능
- 읽기 전용 복제본이 있다면 로드가 증가할 때 오토 스케일링을 통한 확장 가능
- 데이터베이스 인스턴스 클러스터가 있으므로 읽기와 쓰기를 위한 R/W엔드포인트가 필요
- RDS와 동일한 보안 모니터링과 유지 관리 기능을 갖는다
- Aurora 백업 및 복구 옵션 https://choiblog.tistory.com/178#3. RDS & Aurora 복구 옵션
- Aurora 추가 기능
- Aurora Serverless: 워크로드 예측 불가
- Aurora Multi-Master: 쓰기 고가용성 /쓰기 장애 조치
- Aurora Global: 글로벌 DB, 리전간 스토리지 복제는 1초 미만이다.
- 기본리전 문제 발생시 다른 리전을 기본리전으로 올릴 수 있다
- Aurora Machine Learning: SageMaker , Comprehend를 통해 수행 가능
- Aurora Database Cloning: 스냅샷을 통해 새 클러스터를 만들 수 있으며 더 빠르다
- 유지 관리할게 적고 유연성, 성능, 기능도 더 많다
ElastiCache - summary
- 관리형 Redis/Memcached RDS와 비슷하지만 캐싱 작업에 활용
- 인 메모리 데이터 스토어로 데이터 읽을 때 1밀리초 미만의 지연시간
- 캐시를 위한 ec2 인스턴스 유형을 프로비저닝해야함
- Redis 클러스터 생성, 다중 AZ, 읽기 복제본(sharding)
- 보안그룹, KMS, Redis 인증
- 백업 및 스냅샷 지정시간 복구 가능
- 관리형 및 예약된 유지 관리가 가능
- RDS가 결합된 데이터베이스에서 캐싱 작업을 수행하려면 애플리케이션 코드가 ElastiCache를 활용하도록 코드를 수정해줘야 한다
- 코드변경이 필요없는 캐싱 솔루션은 엘라스틱캐시가 아님
- 키-값 스토어가 있고 데이터베이스를 자주 읽는다면 데이터베이스 쿼리를 캐싱하는게 좋다
- 웹사이트 유저 세션 데이터에도 사용한다
- SQL 쿼리를 사용할 수 없다
DynamoDB - summary
- AWS 독점기술로 완전 관리형 서버리스 NoSQL 데이터베이스
- 밀리초 수준의 지연시간 제공
- 선택형 오토 스케일링이 탑재된 프로비저닝 용량 모드
- 점진적으로 늘어나거나 줄어드는 워크로드에 적합
- 온디맨드 용량 모드
- 오토 스케일링이 실행되므로 예측 불가능한 워크로드에 적합
- ElastiCache 대신 사용 가능하며 웹사이트의 세션 데이터를 저장하는 좋은 방법 중 하나
- TTL과 결합하여 일정 시간 후 만료 시킴
- 가용성이 매우 높다, 다중 AZ, 읽기 쓰기 완전 분리, 트랜잭션 처리도 가능
- 읽기 캐시 DAX 클러스터 생성 가능, 읽기 지연 시간이 마이크로 초 단위이다
- 보안, 인증 및 권한부여는 IAM
- 이벤트 처리 용량이 있어 DynamoDB Streams로 데이터베이스의 모든 변경 사항을 스트리밍
- Streams와 람다 통합 가능하며 변경이 될 때마다 람다 실행
- Kinesis Data stream으로 전송도 가능하며 이를 통해 Firehose 등 다른 서비스와 통합 가능
- 글로벌 테이블로 다중 활성 복제 가능 → 어느 리전에서나 RW가능
- 백업 옵션
- 자동 백업 - PITR을 활성화하면 최대 35일까지의 자동 백업이 가능하며 새 테이블로 복구
- 온디맨드 백업
- PITR 기간 내에 읽기 용량 단위를 사용하지 않고 S3로 데이터를 보낼 수 있다
- 쓰기 용량 단위를 사용하지 않고 S3로 새 테이블을 불러올 수 있다
- 400KB 미만의 문서를 다루는 작은 서버리스 애플리케이션 개발, 서버리스 분산 캐시
- SQL 쿼리는 사용 불가능
스키마를 빠르게 전개하는 경우와 유연한 데이터베이스 스키마를 선택해야함
S3 - summary
- 객체를 키-값으로 저장
- 큰 객체를 저장하는데 적합하며 작고 많은 객체를 저장하는데 부적합
- 서버리스이므로 확장성이 무한하며 최대 5TB 계속 버저닝 가능
- S3 Standard, S3 Infrequent Access, S3 Intelligent, S3 Glacier
- 라이프사이클 정책을 사용하면 자동적으로 계층을 전환한다
- 버저닝, 암호화, 복제, MFA, 엑세스 로그는 S3의 중요 키워드
- IAM보안, 버킷 정책, ACL, 엑세스 포인트, 람다를 사용해 객체를 애플리케이션에 전송하기 전에 수정 가능, CORS, Object/Vault 잠금
- SSE-S3, SSE-KMS, SSE-C, 클라이언트 암호화, TLS, 기본 암호화
- 배치 작업을 사용 가능 → 비암호화 객체 암호화, 리전 복제
- 멀티파트 업로드(병렬식 업로드), 전송 가속화, S3 Select(필요한 데이터 검색)
- 자동화로 S3 Event Notifications(SNS, SQS, Lambda, EventBridge)
- 정적파일, 키-값스토어 또는 웹사이트 호스팅
DocumentDB
- DocumentDB는 mongoDB용 Aurora
- NoSQLDB로 기반 기술이 mongoDB
- JSON 데이터를 저장, 쿼리, 인덱스하는데 사용
- 완전 관리형 DB로 3 AZ에 걸쳐 복제본이 형성된다
- 초당 수백만 건의 요청이 있는 워크로드로 확장될 수 있도록 설계
- 몽고 DB와 관련된 내용은 DocumentDB / NoSQL과 관련된 DB는 Dynamo와 Document DB
Amazon Neptune
- 완전 관리형 그래프 데이터베이스
- 그래프 데이터셋의 예시는 소셜 네트워크
- 서로 연결되고 그래프 구조를 가진다
- 3 AZ에 걸쳐 최대 15개의 읽기 복제본으로 복제
- 소셜 네트워크처럼 고도로 연결된 데이터 셋을 사용하는 애플리케이션에 적합
- 복잡하고 어려운 쿼리를 실행하는데 최적화
- 그래프 쿼리 지연시간은 밀리초이며 수십억 개의 관계를 저장 가능
- 여러 가용 영역에 걸친 애플리케이션에서도 가용성이 매우 높다
- 위키피디아, 사기탐지,추천엔진,소셜 네트워킹에 적합
Amazon Keyspaces(for Apache Cassandra)
- AWS의 관리형 Apache Cassandra를 보조한다
- Apache Cassandra는 오픈 소스 NoSQL 분산 데이터베이스
- Keyspaces를 사용하면 클라우드에서 AWS가 Cassandra를 직접 관리해준다
- AWS가 완전 관리하는 서버리스 고가용성/확장성
- 트래픽에 따라 테이블 자동 확대/축소
- 여러 AZ에 걸쳐 세 번 복제
- Cassandra Query Language(CQL)을 사용
- 어떤 규모에서도 지연시간이 10밀리초 미만 초당 수천 건 처리
- 온디맨드와 오토 스케일링 되는 프로비저닝 모드 → DynamoDB와 유사
- 보안,백업,PITR - 35일까지 지정시간 복구 가능
- IoT장치 정보, 시계열 데이터 저장
Apache Cassandra가 나오면 Keyspaces를 생각하면 된다
Amazon QLDB (Quantum Ledger Database)
- 원장(Ledger)은 금융 트랜잭션을 기록하는 장부
- QLDB는 금융 트랜잭션 원장을 갖는다
- 완전관리형 서버리스 고가용성, 3개의 가용영역에 걸쳐 복제한다
- 데이터의 시간에 따른 모든 변경 내역을 검토하는데 사용됨
- 데이터베이스에 무언가를 쓰면 삭제 수정이 불가능한 불변성이 있다
- 암호화 서명을 통해 실제로 삭제되지 않았는지 검증하기도 함
- 내부적인 저널 → 수정 시퀀스 → 수정이 일어날 때마다 암호화 해시가 계산됨
- 모든 사람이 확인 가능
- 금융 트랜잭션에 유용 → 트랜잭션이 db에서 사라지게 하는 것을 원하지 않음
- ledger 블록체인 프레임워크보다 2-3배 더 나은 성능을 얻을 수 있다
- QLDB에는 탈중앙화 개념이 없으므로 주의 ⇒ 중앙에 권한을 갖는 구성요소가 있음
- 중앙 데이터베이스에만 저널을 작성할 수 있다
- 많은 금융 규제 정책을 따른다
- SQL 사용 가능
Amazon Timestream
- 시계열 데이터베이스로 완전 관리형 확장 가능한 서버리스 데이터베이스
- 시계열이란 시간 정보를 포함하는 포인트의 모음
- 데이터베이스 용량 자동 확장 축소
- 수조 건의 이벤트를 저장 및 분석
- 시계열 데이터가 있을때는 관계형 DB보다 시계열 DB를 사용하는 것이 훨씬 빠르고 저렴하다
- 쿼리 예약, 다중 척도 레코드도 얻을 수 있다
- SQL과 완벽 호환
- 최신 데이터느 메모리에 저장되며 과거 데이터는 비용 효율적인 스토리지 계층에 저장
- 시계열 분석 기능이 있어 거의 실시간 데이터 분석과 패턴을 찾을 수 있다
- 전송 중 데이터, 저장 데이터 암호화 가능
- IoT 애플리케이션, 운영 애플리케이션, 실시간 분석 등에 사용