본문 바로가기
IT,과학/IT용어풀이

[IT 용어 풀이] 웹크롤링

by 오우너 2018. 5. 4.
728x90
반응형

[IT 용어 풀이]

웹크롤링

웹 스크래핑, 웹 수집 또는 웹 데이터 추출은 웹 사이트에서 데이터를 추출하는 데 사용되는 데이터 스크래치입니다. 웹 스크래핑 소프트웨어는 하이퍼 텍스트 전송 프로토콜을 사용하여 WorldWideWeb에 액세스 할 수 있습니다. 웹 스크래핑은 소프트웨어 사용자가 수동으로 수행할 수 있지만 일반적으로 bot또는 WebCrawler를 사용하여 구현하는 자동 프로세스를 의미합니다. 이것은 나중에 검색 또는 분석할 수 있도록 특정 데이터를 수집하여 웹에서 중앙 로컬 데이터베이스 또는 스프레드 시트로 복사하는 복사의 한 형태입니다. 웹 페이지를 자르는 작업에는 웹 페이지를 가져오고 추출하는 작업이 포함됩니다. 따라서 웹 크래핑은 나중에 처리하기 위해 페이지를 가져오는 웹 스크래핑의 주요 구성 요소입니다. 가져온 후에는 추출을 수행할 수 있습니다. 페이지의 내용을 구문 분석, 검색, 다시 포맷하고, 데이터를 스프레드 시트로 복사하는 등의 작업을 수행할 수 있습니다. 웹 스크레이퍼들은 일반적으로 페이지의 어떤 것을 다른 어딘가의 다른 목적을 위해 사용한다. 예를 들어 이름과 전화 번호 또는 회사와 URL을 찾아 목록에 복사할 수 있습니다.
웹 스크래핑은 접속 스크래핑에 사용되며 웹 색인 작성, 웹 마이닝 및 데이터 마이닝, 온라인 가격 변경 모니터링 및 가격 비교, 제품 검토 및 웹 사이트 수집, 경쟁 업체를 감시하기 위해 사용됩니다.
웹 페이지는 텍스트 기반 표시 언어(HTML및 .TML)를 사용하여 작성되며 텍스트 형식으로 다양한 유용한 데이터를 포함하는 경우가 많습니다. 그러나 대부분의 웹 페이지는 자동화된 사용 편의성이 아닌 최종 사용자를 위해 설계되었습니다. 이 때문에 웹 콘텐츠를 긁는 도구 키트가 만들어졌다. 웹 스크래퍼는 웹 사이트에서 데이터를 추출하는 API입니다. AmazonAWS및 Google과 같은 회사는 최종 사용자에게 무료로 웹 캡처 도구, 서비스 및 공용 데이터를 제공합니다.
새로운 형태의 웹 스크래핑은 웹 서버의 데이터 피드를 듣는 것을 포함합니다. 예를 들어 JSON은 일반적으로 클라이언트와 웹 서버 간의 전송 스토리지 메커니즘으로 사용됩니다.
일부 웹 사이트에서는 웹 조각이 페이지를 기어오르는 것을 탐지하고 보는 것을 방지하는 등의 방법을 사용합니다. 이에 대응하여, 오프라인 구문 분석을 위해 웹 페이지 내용을 수집할 수 있도록 사용자 검색을 시뮬레이션하기 위해 DOM구문 분석, 컴퓨터 비전 및 자연 언어 처리 기술을 사용하는 웹 스크래핑 시스템이 있습니다.

728x90
반응형

'IT,과학 > IT용어풀이' 카테고리의 다른 글

[IT 용어 풀이] SQLite  (0) 2018.05.05
[IT 용어 풀이] CMake  (0) 2018.05.05
[IT 용어 풀이] 컴퓨터 비전  (0) 2018.05.04
[IT 용어 풀이] SSL(SecureSocketsLayer)  (0) 2018.05.04
[IT 용어 풀이] CUDA  (0) 2018.05.04

댓글