본문 바로가기

Jupyter notebook3

파이썬 크롤링 User-Agent 파이썬 크롤링에서 user agent를 학습했다. 참고 영상은 아래처러 나도코딩님의 유트브 강좌이다. https://www.youtube.com/watch?v=yQ20jZwDjTE&t=3661s user agent란? 크롬으로 가령 https://naver.com 으로 들어가서 F12(개발자도구)를 켜면 HTTP 패킷 중 Header에 User-Agent가 위치한다. 사람이 정보를 얻기 위해 웹브라우저를 사용하는데 이 웹 브라우저가 어떤 종류이고 어떤 상태인지 적혀 있는 집약체라고 할 수 있다. 웹브라우저라 하면 IE, Edge, Chrome 등등이 있는데 사람마다 휴대폰으로 들어갈 수도 있고, window 11 버전인 os에서 접속할 수도 있다. 이에 따라 화면이 다르게 보이도록 되어 있기 때문에, 크.. 2022. 2. 9.
파이썬 정규표현식 re 사용 requests에 이어 정규표현식 re 라이브러리를 이용해 보았다. 강의는 다음과 같다. https://www.youtube.com/watch?v=yQ20jZwDjTE&t=3154s 정규표현식을 찾아봤는데, 다양한 정의 중 한 가지 공통된 점이 있었다. 복잡한 문자열을 처리할 때 사용하는 기법으로, 특정 패턴을 가진 문자열이 있는지 여부를 확인할 수 있다는 것이다. 예를 들면 다음과 같다. . (ca.e) : 하나의 문자 의미 > care, cafe, case (0) | caffe(X) ^ (^de) : 문자열 시작 > desk, destination(0) | fade(X) $ (se$) : 문자열을 끝 > case, base(O) | fase (X) .. 등등 정규식은 많다! 간단하게 강의 바탕으로 이.. 2022. 2. 9.
파이썬 크롤링 requests 사용 http 응답코드 확인해보는 테스트를 했다. 참고 영상은 다음과 같다. 나중에 다시 한 번 더 봐야겠다. https://www.youtube.com/watch?v=yQ20jZwDjTE 기본적으로 http 응답이 제대로 왔으면 200을 출력하는데, jupyter notebook으로 확인했을 때는 응답코드 200이 찍혔다. import requests res = requests.get("https://naver.com") print("응답코드 :", res.status_code) # 200이면 정상 강제로 에러코드 생기게 url을 만들어서 응답코드 이상하게 나오도록 해보았다. import requests res = requests.get("http://naver.hello.com") print("응답코드 :.. 2022. 2. 8.
반응형