웹 캡처 및 변환 도구

웹 사이트 및 모든 콘텐츠를 다운로드하는 방법은 무엇입니까?

웹 사이트

완성 된 결과뿐만 아니라 전체 웹 사이트를 다운로드해야하는 경우가 있습니다. 그러나 HTML 웹 페이지, CSS와 같은 리소스, 스크립트 및 이미지.

코드 백업을 원하지만 어떤 이유로 더 이상 원래 소스에 도달 할 수 없기 때문일 수 있습니다. 또는 시간이 지남에 따라 웹 사이트가 어떻게 변경되었는지에 대한 자세한 기록을 원할 수도 있습니다.

다행히 GrabzIt의 Web Scraper는 웹 사이트의 모든 웹 페이지를 크롤링하여이를 달성 할 수 있습니다. 그런 다음 각 웹 페이지에서 스크레이퍼는 페이지에서 참조 된 모든 리소스와 함께 HTML을 다운로드합니다.

전체 웹 사이트를 다운로드 할 스크랩 만들기

웹 사이트를 가능한 한 쉽게 다운로드 할 수 있도록 GrabzIt은 스크랩 템플릿을 제공합니다.

시작하려면 이 템플릿을로드.

그런 다음 대상 URL이 URL은 오류 및 필요한 변경 사항이 있는지 자동으로 확인합니다. 유지 스크랩 자동 시작 확인란을 선택하면 스크랩이 자동으로 시작됩니다.

스크랩 사용자 정의

템플릿을 변경하려면 스크랩 자동 시작 확인란. 예를 들어 정기적으로 웹 사이트의 사본을 작성하기 위해 스크랩을 정기적으로 실행하는 것이 하나의 대안입니다. 에 일정 스크랩 탭에서 간단히 스크랩 반복 확인란을 선택한 다음 스크랩 반복 빈도를 선택합니다. 그런 다음 업데이트 스크랩을 시작합니다.

다운로드 한 웹 사이트 사용

스크랩이 완료되면 ZIP 파일이 제공됩니다. 그런 다음 ZIP 파일을 추출하고 Files라는 디렉토리에있는 내부는 다운로드 된 모든 웹 페이지 및 웹 사이트 리소스입니다. 디렉토리의 루트에 data.html이라는 특수 HTML 페이지도 있습니다. 웹 브라우저에서이 파일을 열면 세 개의 열이있는 HTML 테이블이 있습니다.

  • 리소스 URL-웹 스크레이퍼가 리소스를 찾은 URL입니다. 예를 들면 다음과 같습니다. http://www.example.com/logo.jog
  • 자원 유형-이것은 다운로드 된 자원 유형입니다. 네 가지 유형의 리소스가 있습니다.
    • 웹페이지
    • 영상
    • 외부 리소스-링크 태그에서 다운로드 한 모든 리소스
    • 스크립트
  • 새 파일 이름-자원이 있던 새 파일 이름 save아래. 이 열에는 파일에 대한 링크도 포함되어 있으므로 다운로드 한 모든 리소스를 훨씬 쉽게 검사 할 수 있습니다.

이 파일은 새 파일 이름을 이전 위치에 매핑하는 데 도움이되도록 설계되었습니다. URL은 파일 경로에 직접 저장하기에는 너무 클 수 있으므로 URL을 파일 구조에 직접 매핑 할 수 없기 때문에 필요합니다.

또한 다양한 쿼리를 변경하여 웹 페이지가 다양한 컨텐츠를 나타낼 수있는 경우 특히 많은 순열이있을 수 있습니다. string 매개 변수! 대신 웹 사이트를 파일 폴더의 평평한 구조로 저장하고 data.html 파일을 제공하여 이러한 파일을 원래 구조에 매핑합니다.

물론 이로 인해 다운로드 한 HTML 페이지를 열 수 없으며 웹에서 본 웹 페이지가 표시 될 것으로 예상됩니다. 이를 위해 HTML 파일이 로컬 파일 구조에서 찾을 수 있도록 이미지, 스크립트 및 CSS 리소스 등의 경로를 다시 작성해야합니다.

ZIP 파일의 루트에 포함될 다른 파일은 Website.csv입니다. 여기에는 data.html 파일과 정확히 동일한 정보가 포함됩니다. 그러나 프로그래밍 방식으로 웹 사이트 다운로드를 읽고 처리하려는 경우 URL에서 파일로의 매핑을 사용하여 다운로드 한 웹 사이트를 다시 작성하려는 경우에 포함됩니다.