selenium

[Web Scraping] Netflix news scraping with Selenium4 & newspaper library

2024.02.06· 컴퓨터/프로그래밍

이전 포스팅에 이어서 실전 코드를 작성했습니다.🫡 ◾Web Scraping Problems 🔻Limitation of chrome test browser - 이전 포스팅에 작성한 문제점 때문에 한 번에 2018-01-01 부터 2023-12-31 까지의 모든 뉴스 기사를 스크래핑하는 것은 불가능하다. - 아래 사진과 같이 크롬에서 뉴스 탭 메뉴를 선택하면 기존에 무한 스크롤로 컨텐츠를 보여주던 페이지가 고전적인 페이지 네비게이터를 이용한 페이지로 바뀐다. 🔻Downloading Error - 뉴스 기사의 본문을 추출하는 것이 최종 과제인데 newspaper 라이브러리의 Article 클래스의 download() 함수가 될 때도 있고 안 될 때도 있어서 우선 뉴스 기사들의 url을 수집한 다음 뉴스 기사의..

[Web Scraping] Netflix news scraping with Selenium4

2024.01.30· 컴퓨터/프로그래밍

reference : Web Scraping with Selenium and Python in 2024🫡 ◾Web Crawling & Scraping 🔻Difference between Crawling and Scraping 🔸Web Crawling - 웹 크롤링을 간단히 말하자면 indexing과 같다. crawler라고 하는 봇이 웹 페이지들을 돌아다니며 정보들에 index(색인, 목차)를 매기는 행위를 의미한다. 웹 크롤링이 하는 행위는 검색 엔진의 기능과 같다. 검색 엔진 역시 웹 상에 존재하는 모든 페이지에 색인을 매기며 검색에 용이하도록 정리해둔다. 🔸Web Scraping - 웹 스크래핑이 우리가 흔히 알고 있는 뉴스 기사 긁어오기와 같은 행위이다. HTML과 같이 패턴을 띄는 데이터를 분석..

티스토리툴바