웹 캡처 및 변환 도구

PDF 문서에서 데이터 추출

PDF 문서의 내용에서 데이터를 스크랩하는 것은 HTML 문서 에서처럼 유연하지 않지만 여전히 여러 가지 방법으로이를 달성 할 수 있습니다 GrabzIt의 웹 스크레이퍼. 먼저 당신이 사용하는 PDF 내용을 긁어 PDF 보다는 기능 Page 그러나 기능은 일반적으로 동일한 방식으로 작동합니다.

PDF 문서에 대한 필터는 HTML 문서에 대한 필터보다 훨씬 간단합니다. 먼저 링크, 이미지 또는 텍스트와 같이 추출 할 컨텐츠 유형을 지정해야합니다.

//Extract images
PDF.getValue({"type":"image"});
//Extract links
PDF.getValue({"type":"link"});
//Extract text
PDF.getValue({"type":"text"});

링크 및 이미지의 경우 위치를 지정하여 반환되는 이미지 또는 링크를 제한 할 수 있습니다.

PDF.getValue({"type":"image","position":"2"});

문서의 두 번째 이미지를 가져옵니다. 텍스트, 이미지 및 링크의 경우 페이지 번호를 지정하여 반환되는 데이터를 추가로 제한 할 수 있습니다.

PDF.getValue({"type":"image","position":"2","page":"5"});

다섯 번째 페이지에서 두 번째 이미지가 반환됩니다. 텍스트에는 줄 번호 옵션이 추가되었지만 텍스트는 위치를 지원하지 않습니다.

PDF.getValue({"type":"text","page":"5","line":"10"});

다섯 번째 페이지에서 열 번째 텍스트를 가져옵니다. 이러한 필터 옵션 차이점을 제외하고 PDF 문서에서 데이터를 스크래핑하는 것은 다음과 매우 유사한 방식으로 작동합니다 HTML 문서에서 데이터 스크랩그러나 PDF 필터로 추출한 내용을 구체적으로 지정할 수 없으므로 무늬 텍스트에서 올바른 정보를 추출합니다.