완성 된 결과뿐만 아니라 전체 웹 사이트를 다운로드해야하는 경우가 있습니다. 그러나 HTML 웹 페이지, CSS와 같은 리소스, 스크립트 및 이미지.
코드 백업을 원하지만 어떤 이유로 더 이상 원래 소스에 도달 할 수 없기 때문일 수 있습니다. 또는 시간이 지남에 따라 웹 사이트가 어떻게 변경되었는지에 대한 자세한 기록을 원할 수도 있습니다.
다행히 GrabzIt의 Web Scraper는 웹 사이트의 모든 웹 페이지를 크롤링하여이를 달성 할 수 있습니다. 그런 다음 각 웹 페이지에서 스크레이퍼는 페이지에서 참조 된 모든 리소스와 함께 HTML을 다운로드합니다.
웹 사이트를 가능한 한 쉽게 다운로드 할 수 있도록 GrabzIt은 스크랩 템플릿을 제공합니다.
시작하려면 이 템플릿을로드.
그런 다음 대상 URL이 URL은 오류 및 필요한 변경 사항이 있는지 자동으로 확인합니다. 유지 스크랩 자동 시작 확인란을 선택하면 스크랩이 자동으로 시작됩니다.
템플릿을 변경하려면 스크랩 자동 시작 확인란. 예를 들어 정기적으로 웹 사이트의 사본을 작성하기 위해 스크랩을 정기적으로 실행하는 것이 하나의 대안입니다. 에 일정 스크랩 탭에서 간단히 스크랩 반복 확인란을 선택한 다음 스크랩 반복 빈도를 선택합니다. 그런 다음 업데이트 스크랩을 시작합니다.
스크랩이 완료되면 ZIP 파일이 제공됩니다. 그런 다음 ZIP 파일을 추출하고 Files라는 디렉토리에있는 내부는 다운로드 된 모든 웹 페이지 및 웹 사이트 리소스입니다. 디렉토리의 루트에 data.html이라는 특수 HTML 페이지도 있습니다. 웹 브라우저에서이 파일을 열면 세 개의 열이있는 HTML 테이블이 있습니다.
이 파일은 새 파일 이름을 이전 위치에 매핑하는 데 도움이되도록 설계되었습니다. URL은 파일 경로에 직접 저장하기에는 너무 클 수 있으므로 URL을 파일 구조에 직접 매핑 할 수 없기 때문에 필요합니다.
또한 다양한 쿼리를 변경하여 웹 페이지가 다양한 컨텐츠를 나타낼 수있는 경우 특히 많은 순열이있을 수 있습니다. string 매개 변수! 대신 웹 사이트를 파일 폴더의 평평한 구조로 저장하고 data.html 파일을 제공하여 이러한 파일을 원래 구조에 매핑합니다.
물론 이로 인해 다운로드 한 HTML 페이지를 열 수 없으며 웹에서 본 웹 페이지가 표시 될 것으로 예상됩니다. 이를 위해 HTML 파일이 로컬 파일 구조에서 찾을 수 있도록 이미지, 스크립트 및 CSS 리소스 등의 경로를 다시 작성해야합니다.
ZIP 파일의 루트에 포함될 다른 파일은 Website.csv입니다. 여기에는 data.html 파일과 정확히 동일한 정보가 포함됩니다. 그러나 프로그래밍 방식으로 웹 사이트 다운로드를 읽고 처리하려는 경우 URL에서 파일로의 매핑을 사용하여 다운로드 한 웹 사이트를 다시 작성하려는 경우에 포함됩니다.