[Back-End] 웹 크롤러 작업 흐름

[Back-End] 웹 크롤러 작업 흐름

2023. 6. 14. 23:02ㆍComputer Science

728x90

1. 시작 URL들을 미수집 URL 저장소에 저장한다.

2. HTML 다운로더는 미수집 URL 저장소에서 URL 목록을 가져온다.

3. HTML 다운로더는 도메인 이름 변환기를 사용하여 URL의 IP 주소를 알아내고, 해당 IP 주소로 접속하여 웹 페이지를 다운받는다.

4. 콘텐츠 파서는 다운된 HTML 페이지를 파싱하여 올바른 형식을 갖춘 페이지인지 검증한다.

5. 콘텐츠 파싱과 검증이 끝나면 중복 콘텐츠인지 확인하는 절차를 개시한다.

6. 중복 콘텐츠인지 확인하기 위해서, 해당 페이지가 이미 저장소에 있는지 본다.

- 이미 저장소에 있는 콘텐츠인 경우에는 처리하지 않고 버린다 .

- 저장소에 없는 콘텐츠인 경우에는 저장소에 저장한 뒤 URL 추출기로 전달한다.

7. URL 추출기는 해당 HTML 페이지에서 링크를 골라낸다.

8. 골라낸 링크를 URL 필터로 전달한다.

9. 필터링이 끝나고 남은 URL만 중복 URL 판별 단계로 전달한다.

10. 이미 처리한 URL인지 확인하기 위하여 URL 저장소에 보관된 URL인지 살핀다. (이미 저장소에 있는 URL은 버린다)

11. 저장소에 없는 URL은 URL 저장소에 저장할 뿐만 아니라 미수집 URL 저장소에도 전달한다.

728x90

Harvey