웹 캡처 및 변환 도구

웹 스크레이퍼 설명서

웹 스크랩을 만들려면 다음 탭에 5 가지 유형의 정보를 지정해야합니다.

  1. 스크랩 옵션
  2. 대상 웹사이트
  3. 스크랩 지침
  4. 내보내기 옵션
  5. 일정 스크랩

스크랩 옵션

스크랩 옵션 탭에서 웹 스크랩을 사용자 정의하는 데 다음 기능을 모두 사용할 수 있습니다.

긁어 이름 스크랩의 이름.

링크 따라 가기 스크레이퍼가 링크를 따르는 방법에 대한 다음 옵션을 제공합니다.

파일 다운로드 무시 일단 링크를 설정하면 방문시 파일 다운로드가 다운로드되지 않습니다.

Robots.txt 파일 무시 스크레이퍼를 설정하면 웹 사이트 소유자가 크롤링하지 않는 웹 페이지를 방문 할 수 있습니다.

오류 페이지 무시 설정된 경우 웹 스크래퍼는 오류를 보고하는 모든 웹 페이지를 건너뜁니다. 따라서 모든 HTTP 상태 코드는 400 이상입니다.

URL 조각 무시 설정된 경우 웹 스크레이퍼는 URL 뒤의 부분을 무시합니다. # 이 기능은 일반적으로 동일한 페이지에 책갈피를 지정하는 데 사용되므로 일반적으로 불필요한 페이지가 긁히게 됩니다. 그러나 일부 웹사이트에서는 이 기능을 사용하여 다른 콘텐츠를 표시하며, 이 경우 이 설정을 비활성화해야 합니다. 이 옵션은 링크를 따라가는 것이 필요하지 않은 경우에만 적용 가능합니다.

중복 무시 설정하면 설정 한 유사성 이상의 페이지를 무시합니다. 예를 들어 95 % 같은 페이지를 무시할 수 있습니다.

스크랩 제한 중지하기 전에 웹 스크레이퍼가 긁어 낼 페이지 수를 지정할 수 있습니다.

내 시간대 사용 설정된 경우 웹 스크레이퍼가 스크랩 한 날짜를 변환해야 함을 나타냅니다. into 현지 시간대. 시간대는 계정 페이지에서 설정할 수 있습니다.

장소 웹 스크레이퍼가 스크랩을 수행 할 지리적 위치. 대상 웹 사이트에 위치에 따라 제한이있는 경우 유용 할 수 있습니다.

기본 날짜 형식 날짜 형식을 결정할 수없는 날짜를 변환 할 때 Web Scraper는 대신이 선택된 형식으로 기본 설정됩니다.

페이지로드 지연 이것은 페이지를 구문 분석하기 전에 웹 스크레이퍼가 기다려야하는 시간 (밀리 초)입니다. 페이지에 AJAX가 많거나 로딩 속도가 느린 경우에 매우 유용합니다.

대상 웹사이트

대상 웹사이트

대상 웹사이트 탭에서 데이터를 추출할 웹사이트를 지정합니다. 웹사이트에서 데이터를 추출하도록 스크래핑 도구에 지시하려면 먼저 기본 URL을 지정해야 합니다. int예를 들어 erested http://www.example.com/shop/ 이것은 스크레이퍼가 스크래치를 시작하므로 일반 웹 페이지, PDF 문서, XML 문서, JSON 문서, RSS 피드 또는 사이트 맵일 수 있습니다. 웹 페이지 또는 PDF 문서가 아닌 경우 스크레이퍼는 파일의 모든 링크를 찾아 각 링크를 방문합니다.

후속 페이지가 아닌 대상 URL에있는 링크 만 따르기 위해 링크 따라 가기 스크랩 옵션첫 페이지에. 이렇게하면 나머지 URL을 시드하기 위해 대상 URL 만 사용합니다.

URL 패턴

기본적으로 웹 스크레이퍼는 방문하는 각 웹 페이지에서 발견 한 모든 링크를 따릅니다. 링크를 제한하려는 경우 웹 스크레이퍼 다음과 같이 이를 수행하는 간단한 방법 중 하나는 URL 패턴을 지정하는 것입니다. 이 강력한 기술은 주로 별표가 포함된 URL을 와일드카드로 지정하여 패턴의 이 부분에 모든 문자가 포함될 수 있음을 나타냅니다. 예를 들어 http://www.example.com/*/articles/* 웹 사이트의 루트에서 기사가있는 모든 URL을 두 번째 디렉토리로 긁습니다.

URL 패턴을 정의하는보다 제한적인 방법은 대안을 정의하는 것입니다. 예를 들어이 예는 상점 또는 뉴스와 만 일치합니다. http://www.example.com/ /*

따라서 이것은 이것과 일치합니다 http://www.example.com/store/products/1 하지만 http://www.example.com/about/.

또는 어떤 것 이외의 모든 것을 일치시키는 것도 가능합니다. 예를 들어 이 예는 상점이나 뉴스와 일치하지 않습니다. http://www.example.com/ /*

따라서 이것은 이것과 일치합니다 http://www.example.com/about/ 하지만 http://www.example.com/store/products/1!

URL 패턴에는 키워드가 포함될 수도 있습니다. 키워드는 이중 대괄호 안에 포함된 모든 항목입니다. 그래서 [[URL_START]]www.example.com* URL의 유효한 시작과 일치하므로 http://www.example.com/, https://www.example.com/ 심지어 ftp://www.example.com/ 예를 들어.

시드 URL

시드 URL을 통해 사용자는 Web Scraper에서 크롤링해야하는 URL 목록을 지정할 수 있습니다. 시드 URL 만 스크랩하려면 링크 따라 가기 스크랩 옵션페이지가 없습니다 스크랩 옵션 탭에서

대상 웹 사이트 탭에서 시드 URL을 설정하려면 대상 추가 버튼을 클릭한 다음 시드 URL 설정 확인란을 선택하고 스크래핑할 각 URL을 별도의 줄에 지정합니다.

템플릿 URL에서 시드 URL 만들기

또는 템플릿 URL을 사용하여 시드 URL을 자동으로 생성 할 수 있습니다. 이는 URL 변수를 포함하는 단일 URL입니다. URL 변수는 반복 할 숫자 범위를 지정합니다.

시작 번호는 URL 변수가 계산을 시작해야하는 숫자이고, 완료 번호는 URL 변수가 계산을 중지 할 숫자이며, 반복 숫자는 URL 변수의 모든 반복에 대해 숫자가 증가하는 숫자입니다.

예를 들어 다음 템플릿 URL의 경우 http://www.example.com/search?pageNo=

그러면 다음과 같은 시드 URL이 생성됩니다.

게시 수행

URL은 예를 들어 로그인 양식과 같이 POST하는 매개 변수가있는 URL을 지정할 수도 있습니다. 이렇게하려면 대상 URL 텍스트 상자에 양식 URL을 지정하고 사용할 필수 게시물 매개 변수를 추가하십시오. 사후 변수 값에는 다음과 같은 특수 GrabzIt 변수도 포함될 수 있습니다.

스크랩 지침

스크랩 지침은 대상 웹 사이트를 스크래핑 할 때 수행 할 작업을 웹 스크레이퍼에 알려줍니다. 스크랩 지침 탭에는 기본적으로 스크랩 마법사가 표시되어 필요한 스크랩 지침을 쉽게 추가 할 수 있습니다. 이 마법사를 사용하는 좋은 예는 제품 목록 및 세부 스크랩 튜토리얼.

스크래핑을 시작할 준비가되면 새로운 스크랩 명령 추가 링크를 클릭하십시오.

그러면 마법사가 열리고 대상 URL이 자동으로로드되어 스크랩하려는 항목을 즉시 선택할 수 있습니다. 웹 페이지 또는 PDF 문서가로드 된 경우 모든 링크를 클릭 할 수 있으며 다른 웹 페이지로의 탐색과 같이 정상적으로 작동합니다. 화면 하단의이 위치에서 작업 중 하나를 선택할 때까지int 내용을 클릭하면 추출하거나 조작하려는 HTML 요소가 선택됩니다.

스크랩 지침에 대해 가장 먼저 이해해야 할 것은 기본적으로 모든 웹 페이지에서 실행된다는 것입니다. 이를 막는 방법은 템플릿을 사용하는 것입니다. 링크 클릭과 같은 작업을 수행 할 때 템플릿을 할당 할 수 있으므로 스크레이퍼가 해당 링크를 방문하거나 해당 버튼을 클릭 할 때마다 할당 된 템플릿에 속하는 것으로 인식됩니다. 이를 통해 다양한 페이지 유형을 정의 할 수 있습니다. 예를 들어, 개요 정보가 포함 된 제품 범주 페이지와 제품 정보가 포함 된 세부 정보 페이지가있을 수 있습니다. 두 페이지 모두 다른 스크랩 지침 세트가 필요할 것입니다.

스크레이퍼 템플릿

시작하려면 작업을 수행 한 다음 작업을 수행 할 항목을 선택하고 다음 보기 버튼에 템플릿 이름을 입력합니다 템플릿 만들기 텍스트 상자에서 스크레이퍼가 이러한 작업을 실행할 때마다 반환 된 템플릿이 제공 한 이름이됩니다.

그런 다음 특정 템플릿을 스크랩 지침에 할당하려면 원하는 템플릿을 실행 스크랩 명령이 추가되기 직전에 나타나는 옵션 창에 나타나는 드롭 다운 목록. 템플릿을 선택할 때 세 가지 주요 옵션은 다음과 같습니다.

이 옵션 중 하나를 선택하면 스크랩 명령은 지정된 템플릿에서만 실행됩니다.

데이터 추출

당신이 선택하면 데이터를 추출 동작. 화면의 왼쪽 하단은 위의 창에서 HTML 요소를 선택하거나 전역 페이지 속성을 선택하도록 초대합니다.

전역 페이지 속성을 사용하려면 전역 페이지 속성 링크. 그런 다음 계속할 것인지 확인하십시오. 이제 페이지에서 바로 추출 할 수있는 속성 목록이 생겼습니다. 예 : 페이지 제목.

하나를 선택하려면 옵션 목록에서 선택하고 다음 보기 데이터를 데이터 세트.

전체 페이지에 속하지 않고 특정 HTML 요소에서 데이터를 추출하려면 관련 HTML 요소를 클릭해야하는 경우 단일 또는 다중 항목을 선택할 수 있습니다. 그러나 여러 항목을 선택하는 경우 스크레이퍼가 선택한 데이터 모음을 고유하게 식별 할 수있는 규칙을 만들 수없는 경우 스크랩 명령이 수행 할 수 없으므로 열의 여러 행과 같은 동일한 여러 항목을 선택하여 선택하십시오. 만들 수 있습니다. 또한 웹 스크레이퍼 마법사에서 클릭하는 여러 항목이 반복 데이터로 식별 된 경우 동일한 그룹의 모든 반복 데이터가 자동으로 선택됩니다. 하나 또는 여러 개의 항목을 모두 선택했으면 화면 왼쪽 하단에서 추출 할 속성을 선택한 다음 다음 보기.

데이터 세트 생성

데이터 세트 화면에서 데이터 처리 방식을 변경할 수 있습니다. 예를 들어 데이터 세트와 그 안의 열의 이름을 바꿀 수 있습니다. 이름을 클릭하면 이름이 변경됩니다. 데이터 세트에 열을 추가 할 때 실행할 템플릿을 선택해야합니다. 열 이름 아래에있는 드롭 다운 목록을 클릭하여이를 변경할 수 있습니다.

데이터를 추출 할 때 일부 반복 항목이 일관되지 않게 반복되어 올바른 행이 여전히 서로 연관되어 있는지 확인하는 것이 일반적입니다. 링크 열 일치하지 않는 열을 데이터 집합에서 가장 일관된 열과 연결합니다.

데이터 세트에 더 많은 데이터를 추가하려면 버튼을 클릭하거나 데이터 세트에서 데이터를 제거하거나 전체 데이터 세트를 삭제합니다. 데이터 집합을 사용하면 다양한 기준을 데이터에 적용 할 수 있으며, 이렇게하면 맨 위에서 원하는 작업을 선택한 다음 관련 열을 클릭하여 기준을 적용 할 수 있습니다. 기준을 잘못 추가 한 경우에는 버튼을 클릭합니다.

다양한 기준 유형과 사용 방법은 다음과 같습니다.

위의 작업 중 하나를 선택하면 여러 열에 영향을 줄 수 있으면 열의 하위 집합 또는 모든 열에 만 영향을 줄 수 있는지 묻습니다. 대부분의 경우 모든 열에 영향을 주길 원하지만 경우에 따라 영향을받는 열을 제한하는 것이 좋습니다. 예를 들어 일련의 라벨 및 값웹 페이지에서 위치를 변경하면 모든 라벨과 값을 선택할 수 있습니다. 그런 다음 데이터 세트에서 equals 연산을 사용하여 원하는 레이블로 제한하고 레이블 및 값 열만 영향을 받도록 지정하십시오. 이렇게하면 다른 열이 삭제되는 행의 영향을받지 않게됩니다. 완전성을 위해 레이블 열을 숨기는 것이 유용합니다.

원하는 것을 모두 수정했으면 다음 보기 그리고 스크랩 지침이 스크랩에 추가됩니다. 그런 다음 원하는 경우 추가 스크랩 지침을 추가 할 수 있습니다.

웹 페이지 조작

드롭 다운에서 값을 클릭, 입력 및 선택하여 스크랩하기 전에 웹 페이지를 조작 할 수 있습니다. 이로 인해 새 웹 페이지가로드 될 수 있음에도 불구하고 적용 가능한 모든 스크랩 명령이 실행될 때까지 스크랩 명령이 다시 시작되지 않습니다.

웹 페이지를 조작하려면 요소를 클릭하십시오, 호버 요소, 스크롤, 문자 입력 or 드롭 다운 목록 값 선택 행위. 클릭 동작을 수행하는 경우 웹 페이지에서 원하는 수의 요소를 클릭 할 수 있습니다. 그렇지 않으면 적절한 HTML 요소를 선택해야합니다. 예를 들어 텍스트는 텍스트 상자에 입력해야합니다. 그런 다음 다음 보기. 작업을 완료 할 수있는 옵션 상자가 열립니다. 텍스트를 입력하고 드롭 다운에서 선택할 때 각각 입력하거나 선택할 데이터를 선택해야합니다. 그 이외의 옵션은 세 가지 작업 모두에 대해 동일합니다.

클릭 동작이 완료되면이 동작을 실행하고 템플릿이 적용되는 클릭 동작에 대해 템플릿을 선택할 수 있습니다. 그러나 같은 페이지에서 여러 번의 클릭을 수행하는 클릭 동작에 새 템플릿을 할당하는 것은 인라인 팝업을 열거 나 화면에 표시하는 것과 같은 좋은 생각이 아닙니다. 클릭 동작이 특정 템플릿에서만 실행되는 경우 첫 번째 클릭에 의해 할당 된 새 템플릿은 재설정되지 않으므로 스크랩이 작성된 방식에 따라 동일한 페이지에서 실행되는 이후 클릭이 중지 될 수 있습니다. 이 작업을 한 번만 실행하도록할지 정의 할 수도 있습니다. 이는 로그인과 같은 작업을 수행 할 때 유용합니다. int웹 사이트.

텍스트 입력 또는 드롭 다운 목록 값 선택 작업을 사용하면 여러 텍스트 항목을 입력하거나 여러 선택 상자를 각각 선택할 수 있습니다. 스크랩 지침을 클릭하여 편집 할 수 있습니다 변수 변경 또는보기 스크린 샷 왼쪽에 표시된대로

예를 들어 검색 창에 이름 목록을 입력하려는 경우이 기능이 중요 할 수 있습니다. 검색 창에 값이있는 경우에만 양식을 제출하기 위해 텍스트를 성공적으로 입력 할 때마다 템플릿을 설정할 수 있습니다 into이 템플릿이 설정되어 있지 않으면 텍스트 상자와 버튼에 대한 클릭 동작이 수행되지 않습니다. 클릭 동작이 수행 된 후 절차를 재설정하기 위해 템플릿을 다른 것으로 변경해야합니다.

웹 사이트를 조작하는 조치가 실행 된 후 조치가 AJAX 기능을 시작하는 경우 잠시 기다려서 스크랩을 계속하기 전에 AJAX 컨텐츠를로드 할 수 있도록하는 것이 좋습니다. 지연 시간을 추가하면됩니다. 실행 대기 후 텍스트 상자.

일부 조건이 충족되면 다른 URL로 바로 이동할 수 있습니다. 이렇게하려면 URL로 이동 액션은 하나 이상의 템플릿이 스크랩에 정의되어 있고 생성 될 때 템플릿에 할당되어야 할 때에 만 표시되어 무한 루프를 피할 수 있습니다.

마지막으로 웹 스크랩에서 모든 GrabzIt의 캡처 API를 사용하고 웹 페이지 캡처 조치를 선택한 후 원하는 캡처를 선택할 수 있습니다. 한 번 선택한 템플릿을 실행하여 스크랩 내의 특정 웹 페이지를 캡처하도록 제한 할 수 있습니다. 다음 보기 버튼을 클릭합니다.

모든 스크랩 명령이 추가되면 스크랩 명령 패널에서 볼 수 있습니다. 각 스크랩 명령 옆의 십자 표시는 스크랩 명령을 삭제할 수 있도록합니다. 다른 스크랩 지침에 필요한 스크랩 지침이 삭제되면 해당 지침도 삭제됩니다. 잡기 아이콘으로 긁기 지침을 드래그하여 긁기 지침의 순서를 변경할 수 있습니다.

스크랩 지침 수동 작성

좀 더 구체적인 방법으로 스크랩 지침을 사용자 정의해야하는 경우 스크랩 지침을 수동으로 변경해야합니다.

스크랩 지침은 JavaScript를 기반으로하며 코드 편집기에는 구문 검사기, 자동 완성 및 툴팁이 포함되어있어 최대한 쉽게 만들 수 있습니다.

웹 스크레이퍼 지침 코드 편집기의 핵심 기능은 스크린 샷에 표시된 메뉴 옵션을 통해 액세스 할 수 있으며 각 기능의 목적은 아래에 별도로 설명되어 있습니다. 스크랩 지침의 구문 오류는 코드 편집기의 왼쪽 홈통에 표시됩니다.

마법사 마법사를 사용하면 추출하려는 페이지의 일부를 선택하고 웹 캡처 작성과 같은 다른 일반적인 작업을 수행 할 수 있습니다.

스크랩 지침 표시 스크랩 지침 코드를 사용자에게 표시합니다.

모든 지시 사항 삭제 모든 긁기 지침을 삭제합니다.

웹 페이지 기능 페이지 키워드를 입력합니다 into 스크랩 지침 및 자동 완성을 엽니 다. 페이지 기능. 페이지 기능을 사용하면 웹 페이지에서 데이터를 추출 할 수 있습니다.

데이터 기능 데이터 키워드를 입력합니다 into 스크랩 지침. 데이터 기능 에 당신을 허용 save 정보.

탐색 기능 탐색 키워드를 입력합니다 into 코드 편집기. 그만큼 탐색 기능 웹 스크레이퍼가 대상 웹 사이트를 탐색하는 방법을 제어 할 수 있습니다.

글로벌 함수 글로벌 키워드를 입력합니다 into 스크랩 지침. 이것은 당신에게 액세스를 제공합니다 기능 다른 웹 페이지를 구문 분석하는 사이에 데이터를 저장할 수 있습니다. 스크랩 지침을 작성할 때 전역 함수를 사용하여 스크랩 퍼가 웹 페이지를 이동할 때 스크레이퍼 명령의 JavaScript 변수 상태가 유지되지 않는다는 점을 기억해야합니다. save 아래와 같이 변수.

Global.set("myvariable", "hello");
var mrvar = Global.get("myvariable");

지속적 전역 변수를 만들려면 아래와 같이 Global.set 메서드의 persist 매개 변수에 true를 전달하십시오.

Global.set("myvariable", "hello", true);

유틸리티 기능 유틸리티 키워드를 입력합니다 into 스크랩 지침. 이것은 당신이 사용할 수 있습니다 공통 기능 쿼리 추가 또는 제거와 같은 스크랩 작성이 더 쉬워집니다.string URL의 매개 변수

기준 기능 기준 키워드를 입력합니다 into 스크랩 지침. 이들 기능 중복 제거와 같이 스크랩 중에 추출 된 데이터를 세분화 할 수 있습니다.

필터 웹 페이지 내에서 특정 HTML 요소를 선택하려면 일부 기능에서 필터를 쉽게 만들 수 있습니다. 대상 요소에 있어야하는 특성 및 / 또는 요소의 부모가 해당 요소를 선택해야하는 속성을 선택하기 만하면됩니다. 이 옵션을 클릭하기 전에 커서가 함수에서 필터를 통과 할 수있는 올바른 위치에 있는지 확인하십시오.

스크린 샷 기능 스크린 샷 옵션을 설정할 수 있습니다. 툴팁으로 식별 된대로 커서를 기능의 올바른 부분에 놓고 스크린 샷 옵션을 누르기 만하면됩니다. 그런 다음 원하는 모든 옵션을 선택하고 명령을 삽입하십시오.

Strings

String웹 스크랩을 수행 할 때 텍스트를 정의하기 위해 스크랩 지침에 사용됩니다. 에이 string 이중으로 구분됩니다 (") 또는 작은 따옴표 ('). 만약 string 큰 따옴표로 시작하면 큰 따옴표로 끝나야합니다. string 작은 따옴표로 시작하고 작은 따옴표로 끝나야합니다. 예를 들어 :

"my-class"'my-class'

발생할 수있는 일반적인 오류는 닫히지 않은 것입니다. string 오류,이 때 string 위에 표시된 닫는 따옴표가 없거나 줄 바꿈이 있습니다. string. 다음은 불법입니다 strings:

"my
class"

"my class

이 오류를 해결하려면 다음과 같이 줄 바꿈이없고 따옴표가 일치해야합니다.

"my class""my class"

때로는 작은 따옴표 나 큰 따옴표를 string. 가장 쉬운 방법은 작은 따옴표를 string 큰 따옴표와 큰 따옴표로 구분 string 작은 따옴표로 묶습니다.

"Bob's shop"'"The best store on the web"'

또는 백 슬래시를 사용하여 다음과 같이 따옴표를 이스케이프 처리 할 수 ​​있습니다.

'test\'s'

일반적인 수동 스크랩 작업

링크 검사기 사용자 정의 링크 검사기 만들기 -이 간단한 지침에 따라 사용자 정의 링크 검사기를 작성하는 방법을 찾으십시오.
이미지 다운로드 웹 사이트에서 모든 이미지 다운로드 -전체 웹 사이트에서 모든 이미지를 다운로드하는 방법을 알아보십시오.
데이터 세트 생성 데이터 추출 및 변환 intoa 데이터 세트 -스크랩하는 웹 사이트에서 데이터 세트를 만드는 방법을 알아보십시오.
링크 추출 웹 사이트에서 링크 추출 -전체 웹 사이트에서 모든 HTML 링크를 추출하는 방법 알아보기 save 원하는 형식으로
텍스트를 선택하십시오 패턴을 사용하여 텍스트에서 값 추출 -패턴을 사용하여 텍스트 블록에서 값을 추출하는 방법을 찾으십시오.
OCR 이미지에서 텍스트 추출 -이미지에 포함 된 텍스트를 추출하는 방법을 찾으십시오.
데이터 세트 데이터 세트를 채우는 방법 -패딩을 사용하여 추출 된 데이터를 더 잘 형식화하십시오.
배열 배열 조작 -특별한 배열 유틸리티 메소드를 사용하여 스크랩 내에서 배열을 쉽게 처리하는 방법을 찾으십시오.
동작 긁기 동안 한 번만 작업 수행 -전체 스크랩 중에 한 번만 작업을 수행하는 방법을 찾으십시오.
수정 스크랩 된 데이터 정제 -스크랩에서 불필요한 데이터를 제거하는 방법을 알아보십시오.
이메일 주소 웹 사이트에서 이메일 주소 긁기 -웹 사이트에서 모든 이메일 주소를 긁는 방법을 알아보십시오.
스크린 샷 전체 웹 사이트 스크린 샷 into PDF 또는 이미지 -GrabzIt의 Web Scraper를 사용하여 전체 웹 사이트의 모든 페이지를 캡처하는 방법을 찾으십시오.
스크린 샷 구조화되지 않은 텍스트에서 구조화 된 정보 추출 -GrabzIt을 사용하여 감정, 이름, 위치 및 조직을 추출하십시오.

HTML 이외의 내용 긁기

Web Scraper가 PDF, XML, JSON 및 RSS를 발견하면이를 HTML 근사치로 변환하여 Web Scraper가 올바르게 구문 분석하고 추출 할 컨텐츠를 선택할 수있게합니다. 예를 들어 JSON 데이터를 구문 분석하려면 데이터를 변환합니다 into 측면에 표시된 계층 적 HTML 표현. 이렇게하면 평상시처럼 스크랩 지침을 작성할 수 있습니다.

스크레이퍼가 PDF 문서를로드 할 때와 비슷한 방식으로 PDF가 변환됩니다. into 이미지, 하이퍼 링크, 텍스트 및 표를 선택하고 스크랩 할 수있는 HTML. 그러나 PDF에는 실제 구조가 없으므로 휴리스틱을 사용하여 테이블이 식별되므로 항상 정확한 것은 아닙니다.

내보내기 옵션

이 탭에서는 결과를 Excel 스프레드 시트, XML, JSON, CSV, SQL 명령 또는 HTML 문서 등의 옵션으로 내보내는 방법을 선택할 수 있습니다. 또한이 탭에서는 압축 된 스크랩 결과의 이름을 설정할 수 있습니다. 파일 만 다운로드하거나 웹 캡처를 작성하는 경우 결과가 포함 된 ZIP 파일 만 수신되므로 내보내기 옵션을 선택할 필요가 없습니다. 이 탭에서는 결과 전송 방법을 지정할 수도 있습니다. 당신은 통해 결과를 보낼 수 있습니다 아마존 S3, 드롭 박스, 이메일 알림, FTPWebDAV를.

마지막 옵션은 콜백 URL입니다.이 URL을 사용하면 애플리케이션에서 스크랩 결과를 처리 할 수 ​​있습니다. 스크랩 API.

압축 된 결과 또는 각 데이터 파일의 파일 이름은 기본 파일 이름 사용 옵션을 선택 취소하고 원하는 파일 이름을 설정하여 설정할 수 있습니다. 또한 타임 스탬프는 다음을 입력하여 파일 이름에 추가 할 수 있습니다. {GrabzIt_Timestamp_UTC+1} 파일 이름에. +1은 UTC로부터의 오프셋 (시간)을 나타냅니다.

다음을 클릭하여 스크랩 결과를 볼 수도 있습니다. 결과보기 버튼, 옆 너의 긁힌 자국, 실시간 스크랩 결과와 지난 48 시간 이내에 수행 된 이전 결과가 표시됩니다.

일정 스크랩

웹 스크랩을 생성할 때 일정 스크랩 탭을 사용하면 스크랩을 시작할 시기와 반복하려는 경우 빈도를 설정할 수 있습니다. 웹 페이지의 변경 사항이 감지되면 스크랩이 실행되도록 구성할 수도 있습니다. 이것을하기 위해 시작 웹페이지가 변경될 때 확인란을 선택한 다음 모니터링할 웹페이지의 URL과 함께 CSS 선택기 당신이 있는 페이지 부분의 int중요하지 않은 변경으로 인한 오탐을 방지하려면 페이지의 작은 부분을 선택하는 것이 중요합니다.

스크랩 모니터링 및 디버깅

웹 스크랩이 시작되면 상태 아이콘이 처리 된 페이지는 시간이 지남에 따라 증가하기 시작합니다. 스크랩 진행률의 실시간 스냅 샷은 스크레이퍼가 마지막으로 발견 한 웹 페이지의 정기적 스크린 샷과 함께 로그 파일이 생성되어 정기적으로 생성됩니다. 이것은 당신이 긁는 동안 무슨 일이 일어나고 있는지 볼 수 있습니다. 이 정보를 찾으려면 스크랩 옆에있는 확장 아이콘을 클릭하고 뷰어 긁힘 때문에 int긁어 모음 지침에 문제가있는 등의 오류가 발생한 경우 세부 정보가 표시됩니다.

스크랩이 성공적으로 완료되면 상태 아이콘이 , 뷰어를 열어서 결과가 없으면 로그와 마지막 스크린 샷에서 무엇이 잘못되었는지 알 수 있습니다.

로그에보고 된 가장 일반적인 문제 중 하나는 페이지를 긁어 내기에 충분한 렌더링 지연이없고 종종 페이지로드 지연 발견 된 스크랩 옵션 탭은 대부분의 웹 사이트에 충분합니다.