웹 캡처 및 변환 도구

웹 사이트에서 링크 추출

이 예제는 주형.

일반적인 작업은 웹 사이트에서 링크, 특히 HTML 링크를 추출하는 것입니다. 다행히도 이것은 사용하기 쉽습니다 GrabzIt의 웹 스크레이퍼. 우선 스크랩의 시작 페이지 및 기타 옵션과 같은 일반적인 세부 정보로 새 스크랩을 만듭니다.

그런 다음 스크랩 지침 탭을 클릭 웹 페이지 버튼 단추. 이것은 입력합니다 Page 키워드 into 스크랩 지침에 따라 드롭 다운이 열립니다. 고르다 getTagAttributes 목록에서. 다음 추가 'href' 첫 번째 매개 변수로 Web Scraper에 href 속성을 추출한 다음 쉼표를 입력하도록 지시합니다.

다음을 클릭하십시오 필터 버튼 이를 통해 Web Scraper에 href 속성을 추출 할 요소를 지정할 수 있습니다. 필터 창에서 유형이 '웹 페이지'로 설정되고 제한이 '태그 이름'및 '같음'인지 확인하십시오. 그런 다음 입력 a 텍스트 상자에서 추가 버튼을 클릭 한 다음 필터 삽입 버튼을 클릭하십시오. 줄 끝에 세미콜론을 추가하여 지시 사항을 완료하십시오.

아래에 표시된 것과 같은 것이 남아 있어야합니다.

Page.getTagAttributes('href', {"tag":{"equals":"a"}});

위의 코드는 웹 페이지에서 모든 링크 URL을 추출하지만 이제는 save 해당 링크 URL 이를 위해이 명령에서 세미콜론을 빼고 Data.save 명령. 이렇게하려면 줄의 시작 부분으로 이동하여 데이터 버튼 단추. 그런 다음 드롭 다운에서 save그런 다음 줄 끝으로 이동하여 쉼표를 추가하십시오. 그런 다음 '내 웹 사이트'와 같은 데이터 세트를 호출하려는 다음 쉼표를 추가 한 다음 '링크'와 같은 열을 설명하는 다른 매개 변수를 추가 한 다음 ) 세미콜론 앞에.

이제 다음 스크랩 지침이 있어야합니다.

Data.save(Page.getTagAttributes('href', {"tag":{"equals":"a"}}), 'My Websites', 'Links');

이제 스크랩을 실행하면 웹 사이트에서 모든 링크를 추출합니다. 그러면 내 웹 사이트 이름으로 테이블을 만들고 열 이름을 링크로하여 내보낼 수 있습니다 into XML, CSV 또는 스프레드 시트와 같은 다양한 형식. 이 자습서는 스크랩 지침 도구 모음의 마법사 버튼을 사용하여 수행 할 수도 있습니다.