데이터베이스 샤딩이란?

데이터베이스 샤딩이란?카테고리 없음2024. 11. 14. 21:12@ray5273

Table of Contents

데이터베이스 샤딩이란 무엇인가?

데이터베이스 샤딩(Database Sharding)은 데이터를 여러 개의 작은 데이터베이스로 나누어 관리하는 방법입니다. '샤드(shard)'라는 용어는 '조각'을 의미하며, 데이터를 물리적으로 분산해 성능을 향상시키고 확장성을 제공하는 데 초점을 둡니다. 데이터가 하나의 거대한 데이터베이스에 담겨 있을 때, 저장 용량과 처리 속도가 커지면서 관리가 어려워지고 성능이 저하될 수 있습니다. 이를 해결하기 위해 데이터를 여러 노드로 나누어 효율적으로 저장하고 처리할 수 있게 하는 것이 샤딩입니다.

샤딩의 대표적인 장점은 확장성(Scalability)입니다. 데이터 양이 증가할수록 샤드의 개수를 늘려 처리 성능을 개선할 수 있습니다. 또한, 각 샤드가 독립적으로 데이터를 관리하기 때문에 특정 노드에 문제가 생겨도 전체 데이터베이스가 다운되는 리스크를 줄일 수 있습니다.

샤딩의 장점과 단점

장점

확장성(Scalability): 데이터 양이 증가함에 따라 샤드의 개수를 쉽게 늘려 시스템의 성능을 개선할 수 있습니다. 이는 대용량 데이터베이스를 효율적으로 관리하고, 성능 병목을 줄이는 데 매우 유용합니다.
성능 향상: 데이터가 여러 샤드에 분산되어 저장되기 때문에 읽기 및 쓰기 작업을 병렬로 처리할 수 있어 성능이 향상됩니다. 각 샤드는 독립적인 데이터베이스로 동작하기 때문에 작업이 분산되어 더 빠른 응답을 기대할 수 있습니다.
내결함성(Fault Tolerance): 특정 샤드에 장애가 발생하더라도 다른 샤드는 정상적으로 운영될 수 있습니다. 따라서 데이터베이스 전체의 가용성을 높이는 데 기여합니다.
보안 : 특정 샤드에 대한 접근을 제한하거나 가능하게 할 수 있습니다.

단점

복잡성 증가: 샤딩을 구현하면 데이터베이스 구조가 복잡해집니다. 개발자와 DBA는 각 샤드에 데이터를 어떻게 배치하고 쿼리를 어떻게 효율적으로 실행할지 고려해야 합니다. 이러한 복잡성은 유지보수의 어려움을 증가시킬 수 있습니다.
데이터 일관성 문제: 데이터를 여러 샤드에 나누어 저장하다 보면 데이터 일관성을 보장하기 어려워질 수 있습니다. 특히, 다중 샤드를 걸쳐 있는 트랜잭션을 처리하는 경우 일관성을 유지하는 데 추가적인 노력이 필요합니다.
예를들면, 동시에 여러 사드에 Transaction을 처리하게 되면 이를 보장하는게 쉽지 않습니다.
운영 관리의 어려움: 샤딩은 각 샤드에 대한 모니터링, 백업, 복구 등을 개별적으로 관리해야 하므로 운영의 복잡도가 증가합니다. 샤드를 추가하거나 제거할 때 데이터 이동이나 재배치가 필요하여 운영상 부담이 커질 수 있습니다.
롤백이나 스키마 변경이 힘듭니다.
Join SQL 동작이같은 처리가 힘듭니다.

샤딩을 위한 분할 전략

샤딩의 핵심은 데이터를 어떻게 나눌지 결정하는 데 있습니다. 일반적인 분할 전략으로는 다음과 같은 방법들이 있습니다:

범위 기반 샤딩(Range-Based Sharding): 데이터의 특정 범위를 기준으로 샤드에 저장하는 방법입니다. 예를 들어, 고객 ID가 1-1000인 데이터를 한 샤드에, 1001-2000인 데이터를 다른 샤드에 저장할 수 있습니다. 이 방법은 간단하지만 특정 범위의 데이터가 집중되면 한 샤드에 과부하가 발생할 수 있는 단점이 있습니다.
해시 기반 샤딩(Hash-Based Sharding): 데이터의 특정 속성에 해시 함수를 적용하여 분할하는 방법입니다. 예를 들어, 사용자 ID에 해시 함수를 적용하여 해당 값에 따라 샤드를 정하는 것입니다. 해시 기반 샤딩은 데이터 분포가 고르게 되는 장점이 있지만, 샤드의 개수를 늘리거나 줄일 때 문제가 생길 수 있습니다.
지리적 샤딩(Geographic Sharding): 사용자의 지리적 위치를 기준으로 데이터를 나누는 방법입니다. 예를 들어, 미국 사용자의 데이터를 한 샤드에, 유럽 사용자의 데이터를 다른 샤드에 저장하는 방식입니다. 주로 글로벌 서비스를 제공하는 경우에 적합합니다.

Consistent Hashing과 샤딩

Consistent Hashing(일관 해싱)은 샤딩을 할 때의 유연성과 확장성을 보장하기 위해 사용하는 해싱 기법입니다. 기존의 해시 기반 샤딩은 노드 수가 변할 때 재해싱을 수행해야 하기 때문에 많은 데이터의 재분배가 필요합니다. 하지만 Consistent Hashing은 이러한 문제를 해결하기 위해 설계된 알고리즘입니다.

Consistent Hashing의 핵심 아이디어는 데이터와 샤드를 원형의 해시 링(hash ring) 위에 매핑하는 것입니다. 이를 통해 샤드가 추가되거나 제거될 때, 영향을 받는 데이터의 수를 최소화할 수 있습니다. 간단히 말해, 데이터와 노드를 해시 링에 할당하고, 데이터를 저장할 노드는 해당 데이터의 해시 값보다 큰 가장 가까운 노드로 결정됩니다. 이런 방식으로 새로운 샤드가 추가되더라도 일부 데이터만 다시 매핑되므로 시스템 전체에 미치는 영향이 최소화됩니다.

Consistent Hashing의 장점

확장성: 노드를 추가하거나 제거할 때, 대부분의 데이터는 기존 샤드에 그대로 남고 일부 데이터만 새로운 샤드로 이동합니다. 이 덕분에 시스템의 확장성과 유지보수성이 높아집니다.
부하 분산: Consistent Hashing을 통해 데이터가 고르게 분포되므로, 특정 샤드에 데이터가 집중되는 현상을 줄일 수 있습니다.
내결함성: 샤드가 실패하더라도 해시 링에서 가장 가까운 다음 노드로 데이터가 재할당될 수 있기 때문에 높은 내결함성을 제공합니다.

샤딩의 고려사항

샤딩은 복잡성을 증가시키는 만큼 몇 가지 고려사항도 있습니다. 데이터 일관성 관리가 어려워질 수 있고, 쿼리가 여러 샤드를 참조해야 할 경우 성능이 저하될 가능성이 있습니다. 따라서 데이터 모델링 시 데이터의 액세스 패턴과 트래픽을 신중하게 분석해야 합니다.

Consistent Hashing을 활용한 샤딩은 특히 노드의 확장성과 유지보수의 효율성을 강조하는 시스템에서 많이 사용됩니다. 대표적으로 분산 캐시 시스템인 아파치 카산드라(Apache Cassandra)와 같은 데이터베이스는 이러한 샤딩 전략을 적극 활용합니다.

샤딩을 Python + Flask로 구현하기

샤드 로직을 포함한 간단한 Flask API 서버 예제를 보겠습니다.

from flask import Flask, request, jsonify

app = Flask(__name__)

# 샤드별 데이터베이스 연결 정보 (모의)
databases = {
    0: "DB Connection for Shard 0",
    1: "DB Connection for Shard 1",
    2: "DB Connection for Shard 2",
    3: "DB Connection for Shard 3"
}

def get_shard(user_id):
    # 간단한 해시 기반 샤드 선택
    shard_number = user_id % len(databases)
    return databases[shard_number]

@app.route('/get_user_data', methods=['GET'])
def get_user_data():
    # 요청 파라미터에서 user_id 가져오기
    user_id = int(request.args.get('user_id'))
    
    # 적절한 샤드 선택
    shard_connection = get_shard(user_id)
    
    # 모의 데이터베이스 액세스 로직
    data = {
        "user_id": user_id,
        "data": f"Data fetched from {shard_connection}"
    }
    
    return jsonify(data)

if __name__ == '__main__':
    app.run(debug=True)

API 동작 방식

클라이언트 요청: 클라이언트는 GET /get_user_data?user_id=12345와 같은 요청을 보냅니다.
샤드 라우팅:
- 서버는 user_id를 기반으로 적절한 샤드를 선택합니다 (12345 % 4 = 1이므로 샤드 1).
데이터베이스 접근:
- 샤드 1의 연결을 통해 데이터를 가져옵니다.
응답 반환: 적절한 데이터를 클라이언트에 반환합니다.

저작자표시

@ray5273 :: Micro Changes, Macro Impact

개발 및 IT 관련 포스팅을 작성 하는 블로그입니다.

IT 기술 및 개인 개발에 대한 내용을 작성하는 블로그입니다. 많은 분들과 소통하며 의견을 나누고 싶습니다.