뉴스 피드 시스템의 핵심 기능
피드 발행
사용자가 스토리를 포스팅하면 해당 데이터를 캐시와 데이터베이스에 기록한다. 새 포스팅은 친구의 뉴스 피드에 전송된다.
피드 발행 시스템의 개략적 형태는 다음과 같다.
- 사용자 : 모바일 앱이나 브라우저에서 새 포스팅을 올리는 주체
- 로드벨런서 : 트래픽을 웹 서버로 골고루 분산한다.
- 웹 서버 : HTTP 요청을 내부 서비스로 중계하는 역할을 한다.
- 포스팅 저장 서비스 : 새 포스팅을 데이터베이스와 캐시에 저장한다.
- 포스팅 전송 서비스 : 새 포스팅을 친구의 뉴스 피드에 푸시한다. 뉴스 피드 데이터는 캐시에 보관하여 빠르게 읽어갈 수 있도록 한다.
- 알림 서비스 : 친구들에게 새 포스팅이 올라왔음을 알리거나, 푸시 알림을 보내는 역할을 담당한다.
뉴스 피드 생성
뉴스 피드는 모든 친구의 포스팅을 시간 흐름 역순으로 모아서 만든다고 가정한다.
개략적인 설계는 다음과 같다.
- 사용자 : 뉴스 피드를 읽는 주체
- 로드벨런서 : 트래픽을 웹 서버로 골고루 분산한다.
- 웹 서버 : 트래픽을 뉴스 피드 서비스로 보낸다.
- 뉴스 피드 서비스 : 캐시에서 뉴스 피드를 가져오는 서비스
- 뉴스 피드 캐시 : 뉴스 피드를 렌더링할 때 필요한 피드 ID를 보관한다.
뉴스 피드 시스템 상세 설계
피드 발행 흐름 상세 설계
- 웹 서버 : 클라이언트와 통신 + 인증이나 처리율 제한의 기능 수행한다.
- 포스팅 전송(팬아웃) 서비스 : 포스팅 전송, 즉 팬아웃은 어떤 사용자의 새 포스팅을 그 사용자와 친구 관계에 있는 모든 사용자에게 전달하는 과정이다. 팬 아웃에는 쓰기시점에 팬 아웃하는 모델, 읽기 시점에 팬아웃 하는 모델 두 가지 모델이 있다.
쓰기시점에 팬 아웃하는 모델
푸시 모델 이라고 하며 새로운 포스팅을 기록하는 시점에 뉴스 피드를 갱신하게 된다.
즉, 포스팅이 완료되면 바로 해당 사용자의 캐시에 해당 포스팅을 기록하는 것이다.
장점
- 뉴스 피드가 실시간으로 생성되며 친구 목록에 있는 사용자에게 즉시 전송 된다.
- 새 포스팅이 기록되는 순간에 뉴스 피드가 이미 갱신되므로 뉴스 피드를 읽는 데 드는 시간이 짧아진다.
단점
- 친구가 많은 사용자의 경우 친구 목록을 가져오고 모든 친구의 뉴스 피드를 갱신하는 데 많은 시간이 소요될 수 있다. 핫키라고 부르는 문제다.
- 서비스를 자주 이용하지 않는 사용자의 피드까지 갱신해야 하므로 컴퓨팅 자원이 낭비된다.
읽기시점에 팬 아웃하는 모델
요청 기반 모델로 피드를 읽어야 하는 시점에 뉴스 피드를 갱신한다. 사용자가 본인 홈페이지나 타임라인을 로딩하는 시점에 새로운 포스트를 가져오게 된다.
장점
- 비활성화된 사용자, 또는 서비스에 거의 로그인하지 않는 사용자의 경우, 로그인 하기까지는 어떤 컴퓨팅 자원도 소모하지 않기 때문에 이 모델이 유리하다.
- 데이터를 친구 각각에 푸시하는 작업이 필요 없으므로 핫키 문제가 발생하지 않는다.
단점
- 뉴스 피드를 읽는 데 많은 시간이 소요될 수 있다.
두가지 모델을 반영한 전략
다음은 이 두가지 방법을 결합하여 장점은 취하고 단점은 버리는 전략이다.
- 뉴스 피드를 빠르게 가져올 수 있도록 하는 것은 중요하므로 대부분의 사용자에 대해서는 푸시 모델을 사용한다. 친구나 팔로워가 아주 많은 사용자의 경우에는 팔로워로 하여금 해당 사용자의 포스팅을 필요할 때 가져가도록 하는 풀 모델을 사용하여 시스템 과부화를 방지한다. 아룰러 안정 해시를 통해 요청과 데이터를 고르게 분산하여 핫키 문제를 최소화 한다.
피드 읽기 흐름 상세 설계
- 사용자가 뉴스 피드를 읽으려는 요청을 보낸다.
- 로드밸런서가 요청을 웹 서버 가운데 하나로 보낸다.
- 웹 서버는 피드를 가져오기 위해 뉴스 피드 서비스를 호출한다.
- 뉴스 피드 서비스는 뉴스 피드 캐시에서 포스팅 ID 목록을 가져온다.
- 뉴스 피드에 표시할 사용자와 포스팅 정보를 사용자 캐시와 포스팅 캐시에서 가져와 완전한 뉴스 피드를 만든다.
- 생성된 뉴스 피드를 JSON 형태로 클라이언트에게 보내고 클라이언트는 해당 피드를 렌더링 한다.
캐시 구조
캐시는 뉴스 피드 시스템의 핵심 컴포넌트다.
- 뉴스 피드 : 뉴스피드의 ID를 보관한다.
- 콘텐츠 : 포스팅 데이터를 보관하고 인기 콘텐츠는 따로 보관한다.
- 소셜 그래프 : 사용자 간 관계 정보(팔로워, 팔로잉)를 보관한다.
- 행동 : 포스팅에 대한 사용자 행위(‘좋아요’나 댓글)에 대한 정보를 보관한다.
- 횟수 : 좋아요 수, 응답 수, 팔로워 수, 팔로잉 수 등의 정보를 보관한다.
마무리
추가로 고려해보면 좋은 주제 : 데이터베이스 규모 확장
- 수직적 규모 확장 vs 수평적 규모 확장
- SQL vs NoSQL
- 주-부(master - slave) 데이터베이스 다중화
- 복제본에 대한 읽기 연산
- 일관성 모델
- 데이터베이스 샤딩
이 외에도 논의해보면 좋을 주제
- 웹 계층을 무상태로 운영하기
- 가능한 한 많은 데이터를 캐시할 방법
- 여러 데이터 센터를 지원할 방법
- 메시지 큐를 사용하여 컴포넌트 사이의 결합도 낮추기
- 핵심 메트릭에 대한 모니터링.
- 트래픽이 몰리는 시간대의 QPS, 사용자 피드를 새로고침할 때의 지연시간
'독서 > 가상 면접 사례로 배우는 대규모 시스템 설계 기초' 카테고리의 다른 글
13장. 검색어 자동 완성 시스템 (1) | 2023.12.30 |
---|---|
12장. 채팅 시스템 설계 (1) | 2023.12.30 |
10장. 알림 시스템 설계 (0) | 2023.12.21 |
9장. 웹 크롤러 설계 (1) | 2023.12.20 |
8장. URL 단축기 설계 (1) | 2023.12.11 |
댓글