yoon_seon 2023. 12. 26. 23:38

뉴스 피드 시스템의 핵심 기능

피드 발행

사용자가 스토리를 포스팅하면 해당 데이터를 캐시와 데이터베이스에 기록한다. 새 포스팅은 친구의 뉴스 피드에 전송된다.

피드 발행 시스템의 개략적 형태는 다음과 같다.

  • 사용자 : 모바일 앱이나 브라우저에서 새 포스팅을 올리는 주체
  • 로드벨런서 : 트래픽을 웹 서버로 골고루 분산한다.
  • 웹 서버 : HTTP 요청을 내부 서비스로 중계하는 역할을 한다.
  • 포스팅 저장 서비스 : 새 포스팅을 데이터베이스와 캐시에 저장한다.
  • 포스팅 전송 서비스 : 새 포스팅을 친구의 뉴스 피드에 푸시한다. 뉴스 피드 데이터는 캐시에 보관하여 빠르게 읽어갈 수 있도록 한다.
  • 알림 서비스 : 친구들에게 새 포스팅이 올라왔음을 알리거나, 푸시 알림을 보내는 역할을 담당한다.

 

뉴스 피드 생성

뉴스 피드는 모든 친구의 포스팅을 시간 흐름 역순으로 모아서 만든다고 가정한다.

개략적인 설계는 다음과 같다.

  • 사용자 : 뉴스 피드를 읽는 주체
  • 로드벨런서 : 트래픽을 웹 서버로 골고루 분산한다.
  • 웹 서버 : 트래픽을 뉴스 피드 서비스로 보낸다.
  • 뉴스 피드 서비스 : 캐시에서 뉴스 피드를 가져오는 서비스
  • 뉴스 피드 캐시 : 뉴스 피드를 렌더링할 때 필요한 피드 ID를 보관한다.

 

뉴스 피드 시스템 상세 설계

피드 발행 흐름 상세 설계

  • 웹 서버 : 클라이언트와 통신 + 인증이나 처리율 제한의 기능 수행한다.
  • 포스팅 전송(팬아웃) 서비스 : 포스팅 전송, 즉 팬아웃은 어떤 사용자의 새 포스팅을 그 사용자와 친구 관계에 있는 모든 사용자에게 전달하는 과정이다. 팬 아웃에는 쓰기시점에 팬 아웃하는 모델, 읽기 시점에 팬아웃 하는 모델 두 가지 모델이 있다.


쓰기시점에 팬 아웃하는 모델

푸시 모델 이라고 하며 새로운 포스팅을 기록하는 시점에 뉴스 피드를 갱신하게 된다.

즉, 포스팅이 완료되면 바로 해당 사용자의 캐시에 해당 포스팅을 기록하는 것이다.

장점

  • 뉴스 피드가 실시간으로 생성되며 친구 목록에 있는 사용자에게 즉시 전송 된다.
  • 새 포스팅이 기록되는 순간에 뉴스 피드가 이미 갱신되므로 뉴스 피드를 읽는 데 드는 시간이 짧아진다.

단점

  • 친구가 많은 사용자의 경우 친구 목록을 가져오고 모든 친구의 뉴스 피드를 갱신하는 데 많은 시간이 소요될 수 있다. 핫키라고 부르는 문제다.
  • 서비스를 자주 이용하지 않는 사용자의 피드까지 갱신해야 하므로 컴퓨팅 자원이 낭비된다.


읽기시점에 팬 아웃하는 모델

요청 기반 모델로 피드를 읽어야 하는 시점에 뉴스 피드를 갱신한다. 사용자가 본인 홈페이지나 타임라인을 로딩하는 시점에 새로운 포스트를 가져오게 된다.

장점

  • 비활성화된 사용자, 또는 서비스에 거의 로그인하지 않는 사용자의 경우, 로그인 하기까지는 어떤 컴퓨팅 자원도 소모하지 않기 때문에 이 모델이 유리하다.
  • 데이터를 친구 각각에 푸시하는 작업이 필요 없으므로 핫키 문제가 발생하지 않는다.

단점

  • 뉴스 피드를 읽는 데 많은 시간이 소요될 수 있다.


두가지 모델을 반영한 전략

다음은 이 두가지 방법을 결합하여 장점은 취하고 단점은 버리는 전략이다.

  • 뉴스 피드를 빠르게 가져올 수 있도록 하는 것은 중요하므로 대부분의 사용자에 대해서는 푸시 모델을 사용한다. 친구나 팔로워가 아주 많은 사용자의 경우에는 팔로워로 하여금 해당 사용자의 포스팅을 필요할 때 가져가도록 하는 풀 모델을 사용하여 시스템 과부화를 방지한다. 아룰러 안정 해시를 통해 요청과 데이터를 고르게 분산하여 핫키 문제를 최소화 한다.

 

피드 읽기 흐름 상세 설계

  1. 사용자가 뉴스 피드를 읽으려는 요청을 보낸다.
  2. 로드밸런서가 요청을 웹 서버 가운데 하나로 보낸다.
  3. 웹 서버는 피드를 가져오기 위해 뉴스 피드 서비스를 호출한다.
  4. 뉴스 피드 서비스는 뉴스 피드 캐시에서 포스팅 ID 목록을 가져온다.
  5. 뉴스 피드에 표시할 사용자와 포스팅 정보를 사용자 캐시와 포스팅 캐시에서 가져와 완전한 뉴스 피드를 만든다.
  6. 생성된 뉴스 피드를 JSON 형태로 클라이언트에게 보내고 클라이언트는 해당 피드를 렌더링 한다.


캐시 구조

캐시는 뉴스 피드 시스템의 핵심 컴포넌트다.

  • 뉴스 피드 : 뉴스피드의 ID를 보관한다.
  • 콘텐츠 : 포스팅 데이터를 보관하고 인기 콘텐츠는 따로 보관한다.
  • 소셜 그래프 : 사용자 간 관계 정보(팔로워, 팔로잉)를 보관한다.
  • 행동 : 포스팅에 대한 사용자 행위(‘좋아요’나 댓글)에 대한 정보를 보관한다.
  • 횟수 : 좋아요 수, 응답 수, 팔로워 수, 팔로잉 수 등의 정보를 보관한다.


마무리

추가로 고려해보면 좋은 주제  : 데이터베이스 규모 확장

  • 수직적 규모 확장 vs 수평적 규모 확장
  • SQL vs NoSQL
  • 주-부(master - slave) 데이터베이스 다중화
  • 복제본에 대한 읽기 연산
  • 일관성 모델
  • 데이터베이스 샤딩

이 외에도 논의해보면 좋을 주제

  • 웹 계층을 무상태로 운영하기
  • 가능한 한 많은 데이터를 캐시할 방법
  • 여러 데이터 센터를 지원할 방법
  • 메시지 큐를 사용하여 컴포넌트 사이의 결합도 낮추기
  • 핵심 메트릭에 대한 모니터링.
    • 트래픽이 몰리는 시간대의 QPS, 사용자 피드를 새로고침할 때의 지연시간