Notice
Recent Posts
Recent Comments
Link
«   2025/07   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31
Archives
Today
Total
관리 메뉴

유령의 일기

CRISP-DM _ EDU Day2 본문

공부/기타

CRISP-DM _ EDU Day2

Smallghost 2024. 2. 22. 21:26

오늘의 기록은 배운 것을 기록하는 것이 아닌, 앞으로 배울 것에 대한 큰 틀을 잡기 위해 CRISP-DM 하나만 적을 것이다.

 


내가 지금 듣는 교육에서는 정확하게 목표가 잡힌 것이 특징이다. 강사님께서 말씀해주신 문장이 정확했는데, 바로 "비즈니스 문제를 해결하는 개발자"로써 성장하는 것이다.

우리는 당장 코테를 잘봐서 실력이 뛰어난 개발자가 되는 것이 목표가 아니라, 앞으로 생길 모든 비즈니스에서 문제를 파악하고 이를 해결하는 개발자가 되는 것이다. 나무가 아닌 숲을 보는 훈련을 한다고 생각한다.

 

 

이거시 CRISP-DM(데이터분석 방법론) !


Business Understanding
처음 우리가 일을 시작할 때에 전제조건은 문제가 '이미' 발생한 것이다. 우리가 하는 것은 "왜 발생했는가?"로 원인을 파악하는 것, 또한 "어떤 식으로 해결할 수 있는가?"로 결과를 내기 위한 경우의 수를 나열해야한다. 따라서 이 과정이 가장 오래 걸리고, 고객과 가장 많이 컨택해야한다. 이것이 해결되지 않으면 일을 시작할 수 없을 정도이다.


Data Understanding
문제가 발생한 시점부터, (아니 사실 그 이전부터) 우리는 꾸준히 데이터를 모아야 한다. 과거-현재-미래 중에 미래를 유추하기 위해 과거-현재라는 연결고리는 필수이다. 이때 필요한것이 데이터 수집(웹 크롤링), 데이터 분석이다. 우선 데이터를 있는대로 끌어모은 후, 이 데이터가 우리의 비즈니스에 필요한 데이터인지 판별하는 과정이 필요하다. 

예를 들어, 내가 교통사고를 당한 원인이 오늘 먹은 고등어뼈가 폐에 찔려 놀라 순간 다리를 자빠져 발생했다고 치자.  우리는 고등어의 뼈가 폐에 찔릴 가능성이 커서 사고가 발생한것인지, 고등어를 애초에 먹었기 때문에 발생한 것인지 직관적으로 판단하기 어렵다. 따라서 이를 판별하기 위한 고등어로 인한 사고를 모두 수집하여 필요여부에 따라 데이터를 판별하는 과정이 필요할 것이다.


Data Preparation
우리 AI는 구두로 말하면 말귀를 알아듣질 못한다. 굳이굳이 컴퓨터 언어로 만들어줘야하고, 그도 아니라면 AI가 알아들을 수 있는 데이터 형태로 만들어서 씹어먹여주면 그제서야 학습을 시작할 수 있다. 따라서, 우리는 이제껏 모은 데이터들을 싹 모아 AI가 알아들을 수 있는 구조로 만들어준다. 이것을 데이터 전처리(Data Preprocessing)이라고 한다.

Modeling
AI가 Data를 먹고 학습을 하고 검증(예측, 평가)을 하는 과정을 거친다. ML/DL로 진행하는데, 이는 내가 어떤 데이터를 가지고 있느냐에 따라 이용할 수 있는 모델의 형태가 천차만별이다. 데이터의 형태는 다음 글에서 서술할 예정이다.

Evaluation
기존에 우리가 가지고 있던 데이터로 아무리 씹고뜯고 맛봐도, 앞으로 미래를 예측하려면 우리의 현재 데이터와 과거 학습된 데이터가 얼마나 비슷한지, 혹은 얼마나 차이가 나는지를 확인해보아야한다. 이것을 검증(Evaluation)과정이라고 한다. 상황에 따라 다르겠지만, 대체로 오차범위가 적을수록 상용화하기 딱 좋은 상태가 되어갈 것이다. 그렇지 않다면 다시 문제이해(Business Understanding)으로 돌아간다.

Deployment
 따라서 우리가 개발한 것을 돈주고 팔거나, 혹은 무료로 배포하여 기술적으로 더 발전된 것을 얻거나 한다. 하지만 보통 여기까지 다다르기 전까지 수차례의 굴레를 거쳐서 와야할 것이다.

 


내일 배우는게 더 중요하댄다. 힘내자!

'공부 > 기타' 카테고리의 다른 글

EDU_Day6(kor)  (0) 2024.03.04
알고리즘 - 시간복잡도  (0) 2024.03.03
EDU_Day5(kor)  (1) 2024.02.28
EDU_Day4_(kor)  (0) 2024.02.26
EDU_Day3_(Kor)  (0) 2024.02.23