2016년 8월 24일

Crawling

 

%ea%b7%b8%eb%a6%bc1

 

크롤링이란 수많은 컴퓨터에 분산 되어있는 문서 등을 수집하여 검색대상의 색인에 포함시키는 기술을 말하여 얼마나 빠르게 검색대상에 포함 되느냐는 것이 우위를 결정하는 요소로써 최근 들어 웹 검색의 중요성에 따라 크게 주목 받고 있습니다.

 

데이터엔지니어스랩은 로컬, 인트라넷 상의 문서를 찾아 파싱하여 텍스트를 추출합니다. 추출한 MS Office 파일, PDF, 아래한글등은 Tika를 이용해 파싱 가능하며 멀티미디어의 메타 정보 또한 추출하여 원하는 Repository에 (DB, File 또는 검색엔진) 저장 가능합니다.

 

데이터엔지니어스랩은 웹크로울러, 스크래핑, Open API, 로그파일, 브라우저 기반 크롤링 등 다양한 소스를 이용하여 정확한 데이터를 빠른 시간 내에 수집하여 제공합니다.