본문 바로가기
데이터분석

[파이썬데이터분석] 네이버 블로그 통계 가져와서 분석하기(1)

by 퍼마인 2020. 5. 5.
반응형

지금 글을 쓰고있는 곳은 티스토리 블로그지만, 네이버 블로그도 동시에 운영하고 있습니다. 

 

블로그 운영에 있어 데이터분석은 중요하죠. 내 블로그에 온 방문자들이 어떤 키워드로 유입되었는지, 어디서 유입되었는지 등 알면 운영에 도움이 될 정보가 가득합니다. 하지만, 매일 통계에 들어가서 분석하기는 쉽지 않으니, 자동으로 네이버 블로그 통계를 가져와 구글스프레드시트에 업데이트하고, 간단하게 대시보드로 구축하는 것을 코딩해보려고 합니다. 

 

#01. 네이버 블로그 데이터 가져오기

네이버 블로그 운영 통계에는 어떤 데이터가 유의미할까요? 물론, 유의미한 데이터가 다른것도 많겠지만, 중요한 것들은 유입경로와 조회수 순위 정도가 될 것 같습니다. 매일매일 유입되는 경로와 키워드, 그리고 내가 발행한 컨텐츠의 조회수를 모니터링 할 수 있다면 좋겠죠.

 

우선 필요한 데이터는, 네이버 블로그 통계 영역에서 지표 다운로드로 "유입분석"과 "조회수순위" 이 부분입니다. 

네이버 블로그 통계 영역에 가시면 지표 다운로드가 있습니다. 저는 여기에 들어가서 지표를 엑셀로 다운받으려 합니다. 

 

크롤링은 파이썬 셀리늄을 통해 데이터를 다운받고, 다운받은 데이터는 파이썬 판다스로 가져와서, 다시 이걸 재가공한 뒤 구글시트에 업로드 하는 것 까지 코딩해보겠습니다. 구글시트에 업로드를 한 데이터는 raw data로 파악하고, 구글시트 함수를 통해 대시보드 구현하는 것까지 해보려합니다.(얼마나 걸릴지는 모르겠네요, 지금 작성시간은 5/4이고, 임시저장으로 계속 글을 작성한 뒤 완성되면 포스팅하려 합니다)

 

#02. 네이버 블로그 로그인해서, 데이터 다운받기

우선 네이버 블로그에 로그인하는 코드입니다. 로그인 한 뒤 pyautogui를 통해 통계 영역을 클릭하고, 데이터를 다운받겠습니다. 

 

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import pandas as pd
import os
import pyautogui
import sys 
import time
from os import rename, listdir # 현재 위치의 파일 목록 

driver = webdriver.Chrome('chromedriver')
driver.get('https://nid.naver.com/nidlogin.login')
id = '본인의 아이디'
pw = '본인 네이버 패스워드'
driver.execute_script("document.getElementsByName('id')[0].value=\'" + id + "\'")
driver.execute_script("document.getElementsByName('pw')[0].value=\'" + pw + "\'")
driver.find_element_by_xpath('//*[@id="frmNIDLogin"]/fieldset/input').click()
time.sleep(5)

driver.get('https://blog.naver.com/본인 블로그 아이디')

우선 위의 코드로 라이브러리를 불러오고, 네이버에 로그인 한 뒤, 본인의 블로그로 들어가서 통계 영역을 클릭하고, 데이터를 다운 받으려고 합니다. 제 코드를 공유하는 것도 좋겠지만,  pyautogui를 통해서 브라우저 클릭 자동화를 하는 것은, 매우 섬세한 컨트롤이 필요한 부분이고, 각자의 환경이 다 다르기 때문에 공유하지는 않겠습니다. 

 

#03. 다운받은 엑셀 파일을 판다스 데이터프레임으로 가져오기

#04. 판다스 데이터프레임을 리스트로 변환하기

#05. 구글시트에 업로드하기

 

3~5번은, 조만간 정리해서 업로드 해두겠습니다. 

 

 

 

 

 

반응형

댓글