**Open API(Rest API)**를 제공하는 서비스에 Open API를 호출해서, 받은 데이터 중 필요한 데이터만 추출하는 기법 → Closed API는 무단으로 사용하면 안되겠죠?ㅎㅎ 그런데 보안적인 허점이 많아보여요.. 그 단적인 예시를 보여주었을뿐..절대 권장하는게 아닙니다! 자제적으로 크롤링을 막고자한다면 API의 보안수준을 높이려는 노력도 필요하다고 생각합니다. Open API같은 Closed API가 너무 많아요.. 물건을 훔쳐간사람은 당연히 잘못한것이지만, 문단속을 안한것도 문제가 있다는 생각.
수작업으로 데이터를 수집..
크롤링과 스크래핑의 차이
web crawling : 화면에 있는 data를 실시간으로 자동화하여 가져오는 것
web scrapping : scrapping 하는 시점에서의 데이터만 갖고오는것. 실시간 자동화가 아니다.
robots.txt
크롤링에 대한 사이트 정책
크롤러가 요청할수있는 경로, 접근하면 안되는 경로등을 설정
통상 웹사이트들은 접근 조건을 명시하지 않았다면 “검색엔진의 크롤링”에 암묵적으로 동의하는것이다.
구조
User-agent: robots.txt 에서 지정하는 크롤링 규칙이 적용되어야 할 크롤러를 지정 Allow: 크롤링을 허용할 경로 (/ 부터의 상대 경로). Disallow: 크롤링을 제한할 경로 (/ 부터의 상대 경로). Sitemap: 사이트맵이 위치한 경로의 전체 URL (https:// 부터 /sitemap.xml 까지의 전체 절대경로 URL).