[21일차] ABC부트캠프 : ESG포럼 & 세미나3
·
ABC부트캠프 테크노트
들어가며ESG특강의 세번째이자, 마지막 날이다. "우리 지역, 로컬 이야기(지역 리서치 프로젝트 사례)" 라는 주제로 이번엔 어떤 분들께서 이야기를 해주셨을지, 또 그 이야기 속에서 느낀점은 무엇인지 잘 정리해보자. 나는 나다작가님은 자신의 가족사와 성장환경이 오늘의 '나'를 이뤘다고 말씀하셨다. 사람은 각자 처지와 환경이 천차만별로 다른데 이렇게 어려운 상황 속에서도 환경 탓을 하기보다 그 속에서 무엇을 얻었는지를 생각하는 태도가 정말 존경스러웠다. 과연 나는 어떠한 일에 대해서 결과가 만족스럽지 않았을 때, 주변환경 탓을 하지 않았을까? 사실 그런 생각이 들었다가도 일단 나에 대한 문제점을 먼저 찾으려고 하는 편이다. 아무리 타인의 잘못이 뚜렷하다고 해도 일단은 자신에 대한 고찰부터 마쳐야 전체적인 ..
[20일차] ABC부트캠프 : 머신러닝2
·
ABC부트캠프 테크노트
들어가며어제 당뇨병 데이터를 활용하다가 끝났기 때문에 그래프로 시각화하는 부분부터 마저 이어서 진행해보자. 당뇨병 데이터셋선형회귀를 이용해서 모델을 학습시킨 후 그래프를 그려보았다. 모델 성능 수치는 `0.3554944130715042`로 낮게 나왔다. 그래프를 봐도 테스트 데이터가 예측모델에 근접하다고 말하기는 어려울 것 같다.import matplotlib.pyplot as pltimport numpy as npfrom sklearn.linear_model import LinearRegressionfrom sklearn import datasetsfrom sklearn.model_selection import train_test_splitfrom sklearn.neighbors import KNeig..
[19일차] ABC부트캠프 : 머신러닝1
·
ABC부트캠프 테크노트
들어가며어제에 이어서 데이터 전처리와 시각화를 마친 후 간단한 모델을 학습시켜보는 머신러닝 기초를 다뤄보았다. 기억나는 만큼 복기해보자. 타이타닉 데이터 셋 활용오류 수정어제 수업 중에 타이타닉 데이터 셋을 활용해서 상관계수를 구하려다가 예상하지 못한 오류가 발생했었다.`could not convert string to float`라는 오류였는데, 교수님께서 말씀하시길 버전 업데이트에 따른 오류라고 설명해주셨다. 문자열을 실수형으로 변환하지 못한다는 메시지였기 때문에 `select_dtypes()`를 사용해서 `include`에 `int`, `float`, `bool` 자료형을 지정해줌으로써 `string` 값을 제외시켜주었다. 의도한 결과는 다음과 같다.# 오류 could not convert stri..
[18일차] ABC부트캠프 : 머신러닝 - 라이브러리 기초
·
ABC부트캠프 테크노트
들어가며머신러닝 수업이 있는 첫날이다. 첫날인 만큼 깊게 다루지는 않겠지만 뭐든지 기초가 중요한 만큼 배운 내용을 복기하는 시간을 가져보자. NumpyNumpy는 대규모 다차원 배열과 행렬 연산에 필요한 다양한 함수와 메소드를 제공하는 라이브러리이다. 간단한 1차원 행렬을 만들어보자. 리스트와는 다르게 comma `,`가 없는 것을 확인할 수 있다. 또한 여러 개의 정수 중 하나라도 실수가 존재한다면 모든 요소의 자료형이 `float`로 바뀐다.  그 이유는 정수형(4byte)이 실수형(8byte)보다 크기가 작기 때문에 모든 요소의 크기를 통일하기 위해서 큰 자료형에 맞추기 때문이다. a:np.ndarray = np.array(object=[1, 2, 3]) # (:) 파스칼 노테이션print(a) #..
[17일차] ABC부트캠프 : 건양대 메디컬 캠퍼스 견학
·
ABC부트캠프 테크노트
들어가며오늘은 건양대 메디컬 캠퍼스로 견학을 가는 날이다. AI가 접목된 의료분야가 현재 어느 수준까지 와 있는지 먼저 교수님의 특강을 통해 알아보자. 의료 인공지능의 현재와 미래 아무래도 생명과 직결된 분야인 만큼 인공지능의 개입이 깊을 거라고 생각했었다. 하지만 실상은 조금 달랐다. 의료진을 완전히 대체하는 것이 아닌 의료진을 도와주는 방향으로 개발이 이뤄지고 있다고한다. 뷰노메드 본에이지 같은 경우 골 연령을 분석해서 성장 잠재력과 성장키 보고서까지 작성을 해주는 데 의사 개인의 능력으로도 가능함에 따라서 상용화되지 않았다. 의사의 능력에서 커버가 된다면 웬만한 기술로는 상용화가 쉽지 않다는 것을 보여주는 사례이지 않나 싶다. 또한 다소 엉뚱한 사례도 있었는데 루닛에서 빅데이터를 이용한 암발생 예측..
[16일차] ABC부트캠프 : 데이터 분석 팀 프로젝트(2/2)
·
ABC부트캠프 테크노트
들어가며데이터 분석 팀 프로젝트의 발표가 있는 날이다. 데이터 크롤링을 하는 과정에서 상당히 애를 먹었는데, 프로젝트를 완수하기까지 그 과정을 알아보자. 무신사어스 상품후기 데이터 크롤링 무신사어스 상품들의 후기를 수집할 것이기 때문에 후기가 많은 순으로 정렬한 후, 그 중 TOP10 상품들의 모든 일반후기들을 수집하는것이 목표이다. 먼저 메인페이지에 접속해서 html요소들 중 상품 정보가 담겨있는 class가 `info`인 `div`를 모두 찾는다.def musinsa_collector(url): df = pd.DataFrame() # 빈 데이터프레임 정의 driver.get(url) time.sleep(STOP_TIME) # 사람인 척 하는 동적 이벤트 주기 -> 스크롤 내리기(..
[15일차] ABC부트캠프 : 구글 이미지 크롤링 및 데이터 분석 팀 프로젝트(1/2)
·
ABC부트캠프 테크노트
들어가며크롤링 및 시각화의 마지막 수업으로 구글 이미지의 크롤링이 남아있다. 이미지 크롤링이 끝난 후에는 이 때까지 배운 것을 활용하여 미니프로젝트를 진행하게 될텐데 일단 이미지 크롤링 실습부터 진행해보자. 구글 이미지 크롤링1. 라이브러리 불러오기spyder를 열고 필요한 라이브러리부터 불러오자. 구글 검색창에 검색하고자 하는 것을 입력하기 위한 이벤트를 줄 것이기 때문에 `Keys`를 추가했고, 파일생성을 위해서 운영체제 시스템에 접근할 수 있는 `os`도 추가했다.from selenium import webdriver # 웹애플리케이션 테스트 자동화 도구# Selenium을 사용하여 크롬브라우저를 자동화할 때 필요한 크롬 드라이버를 관리하는 데 사용from webdriver_manager.chrom..
[14일차] ABC부트캠프 : 음악 정보 수집 및 시각화
·
ABC부트캠프 테크노트
들어가며유튜브에 이어서 이번엔 멜론 차트의 음악 정보를 수집해보는 시간이다. 음악으로 어떤 분석을 할 수 있을지 직접 실습을 통해 배워나가보자. 멜론 2020년 TOP30 크롤링우리는 2020년도의 순위차트에서 30개만 수집을 할 것이다. 너무 많이하면 사이트 접속이 안될 수도 있기 때문에 개수는 30개로 잡았다. 또한 각 노래마다 정보를 담고 있는 사이트를 가지고 있는데 이 사이트에서 가사를 모두 수집하기 위해서는 펼치기 버튼을 클릭해줘야한다. 즉, 유튜브에서 댓글을 스크롤을 해줘야하는 것처럼 동적 크롤링이 필요하다. 1. 라이브러리 불러오기 및 크롬브라우저 옵션 세팅from selenium import webdriver # 웹애플리케이션 테스트 자동화 도구# Selenium을 사용하여 크롬브라우저를 ..
[13일차] ABC부트캠프 : 유튜브 댓글 수집 및 시각화
·
ABC부트캠프 테크노트
들어가며오늘은 유큐브 댓글을 크롤링해서 시각화까지 해보는 시간이다. 그 전에 11일차 막바지에 주어진 과제를 리뷰하는 시간부터 가져보자. 네이버 연예 공감별 랭킹 뉴스 크롤링 및 시각화순위, 공감종류, 기사제목, 기사링크, 기사내용, 공감수, 수집일자 데이터 수집공감 6가지에서 30위까지 = 180건의 기사 정보 수집저번시간과 같이 필요한 라이브러리를 불러온다.from urllib.request import urlopen # 웹페이지를 여는데 사용from bs4 import BeautifulSoup # HTML 및 XML 문서를 파싱하는 데 사용import re # 정규표현식 사용 import pandas as pd # 데이터프레임 및 데이터 조작 및 분석 기능 활용import datetime # 현재 ..
YooSeungJun
'고용노동부' 태그의 글 목록 (3 Page)