웹 캡처 및 변환 도구

웹 스크레이퍼 설명서

웹 스크랩을 만들려면 다음 탭에 5 가지 유형의 정보를 지정해야합니다.

  1. 스크랩 옵션
  2. 대상 웹 사이트
  3. 스크랩 지침
  4. 내보내기 옵션
  5. 일정 스크랩

스크랩 옵션

스크랩 옵션 탭에서 웹 스크랩을 사용자 정의하는 데 다음 기능을 모두 사용할 수 있습니다.

긁어 이름 스크랩의 이름.

링크 따라 가기 스크레이퍼가 링크를 따르는 방법에 대한 다음 옵션을 제공합니다.

  • 필요에 따라-기본 설정 및 가장 안전한 옵션으로 스크레이퍼는 지시 된 링크 만 따르게됩니다.
  • 모든 페이지-스크레이퍼는 찾은 모든 링크를 따릅니다.
  • 첫 페이지-첫 페이지에서 찾은 링크 만 따르고 대상으로 지정
  • ~까지 n 초기 페이지의 페이지-첫 페이지의 지정된 클릭 수만큼 페이지의 링크 만 따라 가기
  • 프레임에서-프레임 및 iframe에서 찾은 링크를 따릅니다.

Robots.txt 파일 무시 스크레이퍼를 설정하면 웹 사이트 소유자가 크롤링하지 않는 웹 페이지를 방문 할 수 있습니다.

파일 다운로드 무시 일단 링크를 설정하면 방문시 파일 다운로드가 다운로드되지 않습니다.

중복 무시 설정하면 설정 한 유사성 이상의 페이지를 무시합니다. 예를 들어 95 % 같은 페이지를 무시할 수 있습니다.

스크랩 제한 중지하기 전에 웹 스크레이퍼가 긁어 낼 페이지 수를 지정할 수 있습니다.

내 시간대 사용 설정된 경우 웹 스크레이퍼가 스크랩 한 날짜를 변환해야 함을 나타냅니다. into 현지 시간대. 시간대는 계정 페이지에서 설정할 수 있습니다.

위치 웹 스크레이퍼가 스크랩을 수행 할 지리적 위치. 대상 웹 사이트에 위치에 따라 제한이있는 경우 유용 할 수 있습니다.

기본 날짜 형식 날짜 형식을 결정할 수없는 날짜를 변환 할 때 Web Scraper는 대신이 선택된 형식으로 기본 설정됩니다.

페이지로드 지연 이것은 페이지를 구문 분석하기 전에 웹 스크레이퍼가 기다려야하는 시간 (밀리 초)입니다. 페이지에 AJAX가 많거나 로딩 속도가 느린 경우에 매우 유용합니다.

대상 웹 사이트

대상 웹 사이트

대상 웹 사이트 탭에서 데이터를 추출 할 웹 사이트를 지정합니다. 스크랩 도구가 웹 사이트에서 데이터를 추출하도록하려면 먼저 기본 URL을 지정해야합니다 int예를 들어 erested http://www.example.com/shop/ 이것은 스크레이퍼가 스크래치를 시작하므로 일반 웹 페이지, PDF 문서, XML 문서, JSON 문서, RSS 피드 또는 사이트 맵일 수 있습니다. 웹 페이지 또는 PDF 문서가 아닌 경우 스크레이퍼는 파일의 모든 링크를 찾아 각 링크를 방문합니다.

후속 페이지가 아닌 대상 URL에있는 링크 만 따르기 위해 링크 따라 가기 스크랩 옵션첫 페이지에. 이렇게하면 나머지 URL을 시드하기 위해 대상 URL 만 사용합니다.

기본적으로 웹 스크레이퍼는 방문하는 각 웹 페이지에서 발견 한 모든 링크를 따릅니다. 링크를 제한하려는 경우 웹 스크레이퍼 다음으로이를 수행하는 간단한 방법 중 하나는 URL 패턴을 지정하는 것입니다. 이것은 별표가있는 URL을 와일드 카드로 지정하여 패턴의이 부분에 문자가 존재할 수 있음을 나타냅니다. 예를 들어 http://www.example.com/*/articles/* 웹 사이트의 루트에서 기사가있는 모든 URL을 두 번째 디렉토리로 긁습니다.

URL은 예를 들어 로그인 양식과 같이 POST하는 매개 변수가있는 URL을 지정할 수도 있습니다. 이렇게하려면 대상 URL 텍스트 상자에 양식 URL을 지정하고 사용할 필수 게시물 매개 변수를 추가하십시오. 사후 변수 값에는 다음과 같은 특수 GrabzIt 변수도 포함될 수 있습니다.

  • {{day}} – 두 자리 값으로 일
  • {{month}} – 두 자리 숫자로 된 월
  • {{year}} – 네 자리 숫자로 된 연도
  • {{hour}} – 두 자리 숫자로 표시되는 시간
  • {{minute}} – 두 자리 값으로 분
  • {{second}} – 두 자리 숫자로 두 번째

마지막으로 당신은 지정할 수 있습니다 시드 URL 해당 URL이 스크랩되도록합니다.

시드 URL

시드 URL을 통해 사용자는 Web Scraper에서 크롤링해야하는 URL 목록을 지정할 수 있습니다. 시드 URL 만 스크랩하려면 링크 따라 가기 스크랩 옵션페이지가 없습니다 스크랩 옵션 탭에서

대상 웹 사이트 탭에서 시드 URL을 설정하려면 대상 추가 버튼을 클릭 한 다음 시드 URL 설정 확인란을 선택하고 각 URL을 지정하여 별도의 줄에 긁으십시오.

템플릿 URL에서 시드 URL 만들기

또는 템플릿 URL을 사용하여 시드 URL을 자동으로 생성 할 수 있습니다. 이는 URL 변수를 포함하는 단일 URL입니다. URL 변수는 반복 할 숫자 범위를 지정합니다.

{{start number|finish number|iterate number}}

  • 시작 번호 URL 변수가 시작하는 숫자
  • 끝 번호 URL 변수가 끝나는 숫자
  • 반복 번호 URL 변수가 반복하는 숫자

시작 번호는 URL 변수가 계산을 시작해야하는 숫자이고, 완료 번호는 URL 변수가 계산을 중지 할 숫자이며, 반복 숫자는 URL 변수의 모든 반복에 대해 숫자가 증가하는 숫자입니다.

예를 들어 다음 템플릿 URL의 경우 http://www.example.com/search?pageNo={{1|3|1}}

그러면 다음과 같은 시드 URL이 생성됩니다.

  • http://www.example.com/search?pageNo=1
  • http://www.example.com/search?pageNo=2
  • http://www.example.com/search?pageNo=3

스크랩 지침

스크랩 지침은 대상 웹 사이트를 스크랩 할 때 수행 할 작업을 Web Scraper에 알려줍니다. 스크랩 지침 탭에는 기본적으로 스크랩 마법사가 표시되므로 필요한 스크랩 지침을 쉽게 추가 할 수 있습니다. 시작하려면 새로운 스크랩 명령 추가 링크를 클릭하십시오.

그러면 마법사가 열리고 대상 URL이 자동으로로드되어 스크랩하려는 항목을 즉시 선택할 수 있습니다. 웹 페이지 또는 PDF 문서가로드 된 경우 모든 링크를 클릭 할 수 있으며 다른 웹 페이지로의 탐색과 같이 정상적으로 작동합니다. 화면 하단의이 위치에서 작업 중 하나를 선택할 때까지int 내용을 클릭하면 추출하거나 조작하려는 HTML 요소가 선택됩니다.

스크랩 지침에 대해 가장 먼저 이해해야 할 것은 기본적으로 모든 웹 페이지에서 실행된다는 것입니다. 이를 막는 방법은 템플릿을 사용하는 것입니다. 링크 클릭과 같은 작업을 수행 할 때 템플릿을 할당 할 수 있으므로 스크레이퍼가 해당 링크를 방문하거나 해당 버튼을 클릭 할 때마다 할당 된 템플릿에 속하는 것으로 인식됩니다. 이를 통해 다양한 페이지 유형을 정의 할 수 있습니다. 예를 들어, 개요 정보가 포함 된 제품 범주 페이지와 제품 정보가 포함 된 세부 정보 페이지가있을 수 있습니다. 두 페이지 모두 다른 스크랩 지침 세트가 필요할 것입니다.

스크레이퍼 템플릿

시작하려면 Click 하십시요. 작업을 수행 한 다음 작업을 수행 할 항목을 선택하고 다음 버튼에 템플릿 이름을 입력합니다 템플릿 만들기 텍스트 상자에서 스크레이퍼가 이러한 작업을 실행할 때마다 반환 된 템플릿이 제공 한 이름이됩니다.

그런 다음 특정 템플릿을 스크랩 지침에 할당하려면 원하는 템플릿을 실행 스크랩 명령이 추가되기 직전에 나타나는 옵션 창에 나타나는 드롭 다운 목록. 템플릿을 선택할 때 세 가지 주요 옵션은 다음과 같습니다.

  • 모든 페이지 -이 스크랩 명령에 템플릿을 사용하지 마십시오. 스크랩 명령은 모든 웹 페이지에서 실행됩니다.
  • 기본 템플릿 -사용자 정의 템플릿 중 하나를 사용하지 마십시오. 스크랩 명령은 템플릿이 지정되지 않은 웹 페이지에서 실행됩니다.
  • 사용자 정의 템플릿 -특정 웹 페이지 또는 작업을 식별하기 위해 사용자가 정의한 템플릿 중 하나입니다.

이 옵션 중 하나를 선택하면 스크랩 명령은 지정된 템플릿에서만 실행됩니다.

데이터 추출

당신이 선택하면 데이터를 추출 조치 즉시 추출 할 일련의 데이터 항목이 화면의 왼쪽 하단에서 다운로드 할 수있게됩니다. 다운로드 할 수있는 전체 페이지의 속성입니다. 하나를 선택하려면 옵션 목록에서 해당 항목을 선택하고 다음 데이터를 데이터 세트.

전체 페이지에 속하지 않고 특정 HTML 요소에서 데이터를 추출하려면 관련 HTML 요소를 클릭해야하는 경우 단일 또는 다중 항목을 선택할 수 있습니다. 그러나 여러 항목을 선택하는 경우 스크레이퍼가 선택한 데이터 모음을 고유하게 식별 할 수있는 규칙을 만들 수없는 경우 스크랩 명령이 수행 할 수 없으므로 열의 여러 행과 같은 동일한 여러 항목을 선택하여 선택하십시오. 만들 수 있습니다. 또한 웹 스크레이퍼 마법사에서 클릭하는 여러 항목이 반복 데이터로 식별 된 경우 동일한 그룹의 모든 반복 데이터가 자동으로 선택됩니다. 하나 또는 여러 개의 항목을 모두 선택했으면 화면 왼쪽 하단에서 추출 할 속성을 선택한 다음 다음.

데이터 세트 생성

데이터 세트 화면에서 데이터 처리 방식을 변경할 수 있습니다. 예를 들어 데이터 세트와 그 안의 열의 이름을 바꿀 수 있습니다. 이름을 클릭하면 이름이 변경됩니다. 데이터 세트에 열을 추가 할 때 실행할 템플릿을 선택해야합니다. 열 이름 아래에있는 드롭 다운 목록을 클릭하여이를 변경할 수 있습니다.

데이터를 추출 할 때 일부 반복 항목이 일관되지 않게 반복되어 올바른 행이 여전히 서로 연관되어 있는지 확인하는 것이 일반적입니다. 링크 열 일치하지 않는 열을 데이터 집합에서 가장 일관된 열과 연결합니다.

데이터 세트에 더 많은 데이터를 추가하려면 버튼을 클릭하거나 데이터 세트에서 데이터를 제거하거나 전체 데이터 세트를 삭제합니다. 데이터 집합을 사용하면 다양한 기준을 데이터에 적용 할 수 있으며, 이렇게하면 맨 위에서 원하는 작업을 선택한 다음 관련 열을 클릭하여 기준을 적용 할 수 있습니다. 기준을 잘못 추가 한 경우에는 버튼을 클릭합니다.

다양한 기준 유형과 사용 방법은 다음과 같습니다.

  • 행 제한 -이렇게하면 웹 페이지에서 추출 된 행 수가 정의한 수로 제한됩니다. 클릭을 사용하려면 그런 다음 그 이상의 행을 클릭하십시오.
  • 반복 -열이 가장 긴 열의 길이와 일치 할 때까지 열 항목을 반복합니다. 사용하려면 클릭 그런 다음 항목을 반복하려는 열을 클릭하십시오.
  • 독특하게 -입력 된 모든 값에 대한 중복 값을 제거합니다 into 열. 사용하려면 클릭 고유하게 만들려는 열을 클릭하십시오.
  • 값 추출 -텍스트 블록에서 일치하는 데이터 항목 만 추출하도록 패턴을 지정하십시오. 사용하려면 클릭 에서 관련 항목을 선택한 다음 안내에 따라 관련 데이터를 반환하는 패턴을 만듭니다. string.
  • 트림 값 -중복 텍스트를자를 패턴을 지정하십시오. 사용하려면 클릭 , 관련 항목을 선택한 다음 안내에 따라 텍스트를자를 패턴을 만듭니다.
  • 링크 열 -열을 서로 연결할 수 있습니다. 따라서 데이터를 추출 할 때 결과 수가 불일치하더라도 레코드가 연결된 열의 상대 행과 동일한 행에 나타납니다. 사용하려면 클릭 연결하려는 열을 선택한 다음 연결할 열을 선택합니다.
  • 열 숨기기 -때로는 필터링 할 열을 포함하려고하지만 최종 결과에 값을 포함하지 않으려는 경우가 있습니다. 이렇게하려면 클릭하십시오 제외 할 열을 선택하십시오.
  • 오름차순 정렬 -오름차순으로 열을 기준으로 정렬합니다. 클릭을 사용하려면 정렬 할 열을 선택하십시오.
  • 내림차순 정렬 -열을 기준으로 내림차순으로 정렬합니다. 클릭을 사용하려면 정렬 할 열을 선택하십시오.
  • 포함 -정의 된 값이 포함 된 값만 포함하십시오. 클릭을 사용하려면 원하는 열을 선택한 다음 열 값에 포함되어야하는 값을 입력하십시오.
  • 동일 -정의 된 값과 동일한 값만 포함하십시오. 클릭을 사용하려면 원하는 열을 선택한 다음 열 값이 같아야하는 값을 입력하십시오.
  • 같지 않음 -정의 된 값과 다른 값만 포함하십시오. 클릭을 사용하려면 원하는 열을 선택한 다음 열이 같지 않아야하는 값을 입력하십시오.
  • 보다 작음 -정의 된 값보다 작은 값만 포함하십시오. 클릭을 사용하려면 원하는 열을 선택한 다음 열보다 작은 값을 입력하십시오.
  • 보다 큰 -정의 된 값보다 큰 값만 포함하십시오. 클릭을 사용하려면 원하는 열을 선택한 다음 열보다 큰 값을 입력하십시오.

위의 작업 중 하나를 선택하면 여러 열에 영향을 줄 수 있으면 열의 하위 집합 또는 모든 열에 만 영향을 줄 수 있는지 묻습니다. 대부분의 경우 모든 열에 영향을 주길 원하지만 경우에 따라 영향을받는 열을 제한하는 것이 좋습니다. 예를 들어 일련의 라벨 및 값웹 페이지에서 위치를 변경하면 모든 라벨과 값을 선택할 수 있습니다. 그런 다음 데이터 세트에서 equals 연산을 사용하여 원하는 레이블로 제한하고 레이블 및 값 열만 영향을 받도록 지정하십시오. 이렇게하면 다른 열이 삭제되는 행의 영향을받지 않게됩니다. 완전성을 위해 레이블 열을 숨기는 것이 유용합니다.

원하는 것을 모두 수정했으면 다음 스크랩 지침이 스크랩에 추가됩니다.

웹 페이지 조작

드롭 다운에서 값을 클릭, 입력 및 선택하여 스크랩하기 전에 웹 페이지를 조작 할 수 있습니다. 이로 인해 새 웹 페이지가로드 될 수 있음에도 불구하고 적용 가능한 모든 스크랩 명령이 실행될 때까지 스크랩 명령이 다시 시작되지 않습니다.

웹 페이지를 조작하려면 요소를 클릭하십시오, 호버 요소, 스크롤, 문자 입력 or 드롭 다운 목록 값 선택 행위. 클릭 동작을 수행하는 경우 웹 페이지에서 원하는 수의 요소를 클릭 할 수 있습니다. 그렇지 않으면 적절한 HTML 요소를 선택해야합니다. 예를 들어 텍스트는 텍스트 상자에 입력해야합니다. 그런 다음 다음. 작업을 완료 할 수있는 옵션 상자가 열립니다. 텍스트를 입력하고 드롭 다운에서 선택할 때 각각 입력하거나 선택할 데이터를 선택해야합니다. 그 이외의 옵션은 세 가지 작업 모두에 대해 동일합니다.

클릭 동작이 완료되면이 동작을 실행하고 템플릿이 적용되는 클릭 동작에 대해 템플릿을 선택할 수 있습니다. 그러나 같은 페이지에서 여러 번의 클릭을 수행하는 클릭 동작에 새 템플릿을 할당하는 것은 인라인 팝업을 열거 나 화면에 표시하는 것과 같은 좋은 생각이 아닙니다. 클릭 동작이 특정 템플릿에서만 실행되는 경우 첫 번째 클릭에 의해 할당 된 새 템플릿은 재설정되지 않으므로 스크랩이 작성된 방식에 따라 동일한 페이지에서 실행되는 이후 클릭이 중지 될 수 있습니다. 이 작업을 한 번만 실행하도록할지 정의 할 수도 있습니다. 이는 로그인과 같은 작업을 수행 할 때 유용합니다. int웹 사이트.

텍스트 입력 또는 드롭 다운 목록 값 선택 작업을 사용하면 여러 텍스트 항목을 입력하거나 여러 선택 상자를 각각 선택할 수 있습니다. 스크랩 지침을 클릭하여 편집 할 수 있습니다 변수 변경 또는보기 스크린 샷 왼쪽에 표시된대로

예를 들어 검색 창에 이름 목록을 입력하려는 경우이 기능이 중요 할 수 있습니다. 검색 창에 값이있는 경우에만 양식을 제출하기 위해 텍스트를 성공적으로 입력 할 때마다 템플릿을 설정할 수 있습니다 into이 템플릿이 설정되어 있지 않으면 텍스트 상자와 버튼에 대한 클릭 동작이 수행되지 않습니다. 클릭 동작이 수행 된 후 절차를 재설정하기 위해 템플릿을 다른 것으로 변경해야합니다.

웹 사이트를 조작하는 조치가 실행 된 후 조치가 AJAX 기능을 시작하는 경우 잠시 기다려서 스크랩을 계속하기 전에 AJAX 컨텐츠를로드 할 수 있도록하는 것이 좋습니다. 지연 시간을 추가하면됩니다. 실행 대기 후 텍스트 상자.

일부 조건이 충족되면 다른 URL로 바로 이동할 수 있습니다. 이렇게하려면 URL로 이동 액션은 하나 이상의 템플릿이 스크랩에 정의되어 있고 생성 될 때 템플릿에 할당되어야 할 때에 만 표시되어 무한 루프를 피할 수 있습니다.

마지막으로 웹 스크랩에서 모든 GrabzIt의 캡처 API를 사용하고 웹 페이지 캡처 조치를 선택한 후 원하는 캡처를 선택할 수 있습니다. 한 번 선택한 템플릿을 실행하여 스크랩 내의 특정 웹 페이지를 캡처하도록 제한 할 수 있습니다. 다음 버튼을 클릭합니다.

모든 스크랩 명령이 추가되면 스크랩 명령 패널에서 볼 수 있습니다. 각 스크랩 명령 옆의 십자 표시는 스크랩 명령을 삭제할 수 있도록합니다. 다른 스크랩 지침에 필요한 스크랩 지침이 삭제되면 해당 지침도 삭제됩니다. 잡기 아이콘으로 긁기 지침을 드래그하여 긁기 지침의 순서를 변경할 수 있습니다.

스크랩 지침 수동 작성

보다 구체적인 방법으로 스크랩 지침을 사용자 정의해야하거나 코드를 실행하려는 경우 스크랩 전후 스크랩 지침을 수동으로 변경해야합니다.

스크랩 지침은 JavaScript를 기반으로하며 코드 편집기에는 구문 검사기, 자동 완성 및 툴팁이 포함되어있어 최대한 쉽게 만들 수 있습니다.

웹 스크레이퍼 지침 코드 편집기의 핵심 기능은 스크린 샷에 표시된 메뉴 옵션을 통해 액세스 할 수 있으며 각 기능의 목적은 아래에 별도로 설명되어 있습니다. 스크랩 지침의 구문 오류는 코드 편집기의 왼쪽 홈통에 표시됩니다.

마법사 마법사를 사용하면 추출하려는 페이지의 일부를 선택하고 웹 캡처 작성과 같은 다른 일반적인 작업을 수행 할 수 있습니다.

스크랩 지침 표시 스크랩 지침 코드를 사용자에게 표시합니다.

모든 지시 사항 삭제 모든 긁기 지침을 삭제합니다.

웹 페이지 기능 페이지 키워드를 입력합니다 into 스크랩 지침 및 자동 완성을 엽니 다. 페이지 기능. 페이지 기능을 사용하면 웹 페이지에서 데이터를 추출 할 수 있습니다.

데이터 기능 데이터 키워드를 입력합니다 into 스크랩 지침. 데이터 기능 에 당신을 허용 save 정보.

탐색 기능 탐색 키워드를 입력합니다 into 코드 편집기. 그만큼 탐색 기능 Web Scraper가 대상 웹 사이트를 탐색하는 방법을 제어 할 수 있습니다.

글로벌 함수 글로벌 키워드를 입력합니다 into 스크랩 지침. 이것은 당신에게 액세스를 제공합니다 기능 다른 웹 페이지를 구문 분석하는 사이에 데이터를 저장할 수 있습니다. 스크랩 지침을 작성할 때 전역 함수를 사용하여 스크랩 퍼가 웹 페이지를 이동할 때 스크레이퍼 명령의 JavaScript 변수 상태가 유지되지 않는다는 점을 기억해야합니다. save 아래와 같이 변수.

Global.set("myvariable", "hello");
var mrvar = Global.get("myvariable");

지속적 전역 변수를 만들려면 아래와 같이 Global.set 메서드의 persist 매개 변수에 true를 전달하십시오.

Global.set("myvariable", "hello", true);

유틸리티 기능 유틸리티 키워드를 입력합니다 into 스크랩 지침. 이것은 당신이 사용할 수 있습니다 공통 기능 쿼리 추가 또는 제거와 같은 스크랩 작성이 더 쉬워집니다.string URL의 매개 변수

기준 기능 기준 키워드를 입력합니다 into 스크랩 지침. 이들 기능 중복 제거와 같이 스크랩 중에 추출 된 데이터를 세분화 할 수 있습니다.

FILTER 웹 페이지 내에서 특정 HTML 요소를 선택하려면 일부 기능에서 필터를 쉽게 만들 수 있습니다. 대상 요소에 있어야하는 특성 및 / 또는 요소의 부모가 해당 요소를 선택해야하는 속성을 선택하기 만하면됩니다. 이 옵션을 클릭하기 전에 커서가 함수에서 필터를 통과 할 수있는 올바른 위치에 있는지 확인하십시오.

스크린 샷 기능 스크린 샷 옵션을 설정할 수 있습니다. 툴팁으로 식별 된대로 커서를 기능의 올바른 부분에 놓고 스크린 샷 옵션을 누르기 만하면됩니다. 그런 다음 원하는 모든 옵션을 선택하고 명령을 삽입하십시오.

긁기 전후에 작업 수행

스크랩 지침 탭의 상단에있는 옵션 드롭 다운 목록을 사용하여 스크랩 전후에 명령을 실행할 수 있습니다. 다음에 입력 한 모든 명령 스크래핑 후 실행 을 선택하면 스크랩이 완료된 후 실행됩니다. 명령이 입력 될 때 긁기 전에 실행 을 선택하면 스크랩이 시작되기 전에 실행됩니다.

그러나이 두 가지 특수 모드에서 사용 가능한 스크랩 명령의 하위 집합 만 있습니다. 사용 가능한 명령은 데이터, 전역 및 탐색 스크랩 지침입니다.

Strings

String웹 스크랩을 수행 할 때 텍스트를 정의하기 위해 스크랩 지침에 사용됩니다. 에이 string 이중으로 구분됩니다 (") 또는 작은 따옴표 ('). 만약 string 큰 따옴표로 시작하면 큰 따옴표로 끝나야합니다. string 작은 따옴표로 시작하고 작은 따옴표로 끝나야합니다. 예를 들어 :

"my-class"'my-class'

발생할 수있는 일반적인 오류는 닫히지 않은 것입니다. string 오류,이 때 string 위에 표시된 닫는 따옴표가 없거나 줄 바꿈이 있습니다. string. 다음은 불법입니다 strings:

"my
class"

"my class

이 오류를 해결하려면 다음과 같이 줄 바꿈이없고 따옴표가 일치해야합니다.

"my class""my class"

때로는 작은 따옴표 나 큰 따옴표를 string. 가장 쉬운 방법은 작은 따옴표를 string 큰 따옴표와 큰 따옴표로 구분 string 작은 따옴표로 묶습니다.

"Bob's shop"'"The best store on the web"'

또는 백 슬래시를 사용하여 다음과 같이 따옴표를 이스케이프 처리 할 수 ​​있습니다.

'test\'s'

일반적인 수동 스크랩 작업

링크 검사기 사용자 정의 링크 검사기 만들기 -이 간단한 지침에 따라 사용자 정의 링크 검사기를 작성하는 방법을 찾으십시오.
이미지 다운로드 웹 사이트에서 모든 이미지 다운로드 -전체 웹 사이트에서 모든 이미지를 다운로드하는 방법을 알아보십시오.
데이터 세트 생성 데이터 추출 및 변환 intoa 데이터 세트 -스크랩하는 웹 사이트에서 데이터 세트를 만드는 방법을 알아보십시오.
링크 추출 웹 사이트에서 링크 추출 -전체 웹 사이트에서 모든 HTML 링크를 추출하는 방법 알아보기 save 원하는 형식으로
텍스트를 선택하십시오 패턴을 사용하여 텍스트에서 값 추출 -패턴을 사용하여 텍스트 블록에서 값을 추출하는 방법을 찾으십시오.
OCR 이미지에서 텍스트 추출 -이미지에 포함 된 텍스트를 추출하는 방법을 찾으십시오.
데이터 세트 데이터 세트를 채우는 방법 -패딩을 사용하여 추출 된 데이터를 더 잘 형식화하십시오.
배열 배열 조작 -특별한 배열 유틸리티 메소드를 사용하여 스크랩 내에서 배열을 쉽게 처리하는 방법을 찾으십시오.
동작 긁기 동안 한 번만 작업 수행 -전체 스크랩 중에 한 번만 작업을 수행하는 방법을 찾으십시오.
수정 스크랩 된 데이터 정제 -스크랩에서 불필요한 데이터를 제거하는 방법을 알아보십시오.
이메일 주소 웹 사이트에서 이메일 주소 긁기 -웹 사이트에서 모든 이메일 주소를 긁는 방법을 알아보십시오.
스크린 샷 전체 웹 사이트 스크린 샷 into PDF 또는 이미지 -GrabzIt의 Web Scraper를 사용하여 전체 웹 사이트의 모든 페이지를 캡처하는 방법을 찾으십시오.
스크린 샷 구조화되지 않은 텍스트에서 구조화 된 정보 추출 -GrabzIt을 사용하여 감정, 이름, 위치 및 조직을 추출하십시오.

HTML 이외의 내용 긁기

Web Scraper가 PDF, XML, JSON 및 RSS를 발견하면이를 HTML 근사치로 변환하여 Web Scraper가 올바르게 구문 분석하고 추출 할 컨텐츠를 선택할 수있게합니다. 예를 들어 JSON 데이터를 구문 분석하려면 데이터를 변환합니다 into 측면에 표시된 계층 적 HTML 표현. 이렇게하면 평상시처럼 스크랩 지침을 작성할 수 있습니다.

스크레이퍼가 PDF 문서를로드 할 때와 비슷한 방식으로 PDF가 변환됩니다. into 이미지, 하이퍼 링크, 텍스트 및 표를 선택하고 스크랩 할 수있는 HTML. 그러나 PDF에는 실제 구조가 없으므로 휴리스틱을 사용하여 테이블이 식별되므로 항상 정확한 것은 아닙니다.

내보내기 옵션

이 탭에서는 결과를 Excel 스프레드 시트, XML, JSON, CSV, SQL 명령 또는 HTML 문서 등의 옵션으로 내보내는 방법을 선택할 수 있습니다. 또한이 탭에서는 압축 된 스크랩 결과의 이름을 설정할 수 있습니다. 파일 만 다운로드하거나 웹 캡처를 작성하는 경우 결과가 포함 된 ZIP 파일 만 수신되므로 내보내기 옵션을 선택할 필요가 없습니다. 이 탭에서는 결과 전송 방법을 지정할 수도 있습니다. 당신은 통해 결과를 보낼 수 있습니다 아마존 S3, 드롭 박스, 이메일 알림, FTPWebDAV를.

마지막 옵션은 콜백 URL입니다.이 URL을 사용하면 애플리케이션에서 스크랩 결과를 처리 할 수 ​​있습니다. 스크랩 API.

압축 된 결과의 파일 이름 또는 개별 데이터 전송을 요청한 경우 각 데이터 파일은 기본 파일 이름 사용 옵션을 선택 취소하고 원하는 파일 이름을 설정하여 설정할 수 있습니다.

일정 스크랩

웹 스크랩을 만들 때 스크랩 예약 탭을 사용하면 스크랩을 시작할시기와 반복을 원하는 빈도를 설정할 수 있습니다.

스크랩 모니터링 및 디버깅

웹 스크랩이 시작되면 상태 아이콘이 처리 된 페이지는 시간이 지남에 따라 증가하기 시작합니다. 스크랩 진행률의 실시간 스냅 샷은 스크레이퍼가 마지막으로 발견 한 웹 페이지의 정기적 스크린 샷과 함께 로그 파일이 생성되어 정기적으로 생성됩니다. 이것은 당신이 긁는 동안 무슨 일이 일어나고 있는지 볼 수 있습니다. 이 정보를 찾으려면 스크랩 옆에있는 확장 아이콘을 클릭하고 뷰어 긁힘 때문에 int긁어 모음 지침에 문제가있는 등의 오류가 발생한 경우 세부 정보가 표시됩니다.

스크랩이 성공적으로 완료되면 상태 아이콘이 , 뷰어를 열어서 결과가 없으면 로그와 마지막 스크린 샷에서 무엇이 잘못되었는지 알 수 있습니다.

로그에보고 된 가장 일반적인 문제 중 하나는 페이지를 긁어 내기에 충분한 렌더링 지연이없고 종종 페이지로드 지연 발견 된 스크랩 옵션 탭은 대부분의 웹 사이트에 충분합니다.