일반적인 작업은 웹 사이트에서 링크, 특히 HTML 링크를 추출하는 것입니다. 다행히도 이것은 사용하기 쉽습니다 GrabzIt의 웹 스크레이퍼. 우선 스크랩의 시작 페이지 및 기타 옵션과 같은 일반적인 세부 정보로 새 스크랩을 만듭니다.
그런 다음 스크랩 지침 탭을 클릭 단추. 이것은 입력합니다
Page
키워드는 into 스크랩 지침에 따라 드롭 다운이 열립니다. 고르다 getTagAttributes
목록에서. 다음 추가 'href'
첫 번째 매개 변수로 Web Scraper에 href 속성을 추출한 다음 쉼표를 입력하도록 지시합니다.
다음을 클릭하십시오 이를 통해 Web Scraper에 href 속성을 추출 할 요소를 지정할 수 있습니다. 필터 창에서 유형이 '웹 페이지'로 설정되고 제한이 '태그 이름'및 '같음'인지 확인하십시오. 그런 다음 입력
a
텍스트 상자에서 추가 버튼을 클릭 한 다음 필터 삽입 버튼을 클릭하십시오. 줄 끝에 세미콜론을 추가하여 지시 사항을 완료하십시오.
아래에 표시된 것과 같은 것이 남아 있어야합니다.
Page.getTagAttributes('href', {"tag":{"equals":"a"}});
위의 코드는 웹 페이지에서 모든 링크 URL을 추출하지만 이제는 save 해당 링크 URL 이를 위해이 명령에서 세미콜론을 빼고 Data.save
명령. 이렇게하려면 줄의 시작 부분으로 이동하여 단추. 그런 다음 드롭 다운에서
save
그런 다음 줄 끝으로 이동하여 쉼표를 추가하십시오. 그런 다음 '내 웹 사이트'와 같은 데이터 세트를 호출하려는 다음 쉼표를 추가 한 다음 '링크'와 같은 열을 설명하는 다른 매개 변수를 추가 한 다음 )
세미콜론 앞에.
이제 다음 스크랩 지침이 있어야합니다.
Data.save(Page.getTagAttributes('href', {"tag":{"equals":"a"}}), 'My Websites', 'Links');
이제 스크랩을 실행하면 웹 사이트에서 모든 링크를 추출합니다. 그러면 내 웹 사이트 이름으로 테이블을 만들고 열 이름을 링크로하여 내보낼 수 있습니다 into XML, CSV 또는 스프레드 시트와 같은 다양한 형식. 이 자습서는 스크랩 지침 도구 모음의 마법사 버튼을 사용하여 수행 할 수도 있습니다.