이론공부 VS 경진대회
이론 공부 | 경진대회 참여 | |
차이점 1 | 데이터 사이언스 기본 지식 학습 | 경진대회를 통한 프로젝트 실습 |
차이점 2 | 머신러닝, 딥러닝 이론 학습 | 실습 위주의 Practical skills 학습 |
차이점 3 | 파이썬 및 딥러닝 프레임워크 기초 | 전처리, 학습, 추론까지 전체적인 과정을 연습 |
"경진대회는 실습을 통해 점진적인 모델 성능 향상을 경험하고 머신러닝 파이프라인의 한 부분을 경험하는 목적이 있다."
대회 참여 과정
문제 정의(Problem Definition)
"내가 지금 풀어야 할 문제가 무엇인가?"
"이 문제의 Input과 Output은 무엇인가?"
"이 솔루션은 어디서 어떻게 사용되어지는가?"
˙˙˙
Data Description을 통해 문제를 이해하도록 한다.
EDA(Exploratory Data Analysis) 탐색적 데이터 분석
Exploratory(탐색적) Data(데이터) Analysis(분석) : 데이터를 이해하기 위해 노력하자!
무엇을 해야할까...?
무엇을 해야할 지 모를 때 방향성을 잡고 아무렇게 해보는 것이 중요하다.
사실 도중에 떠오르는 아이디어 때문에 다시금 확인해볼 필요가 수시로 생기기도 한다.
Baseline
Data Analysis
- EDA
Data Processing
- Dataset
- pre-processing
- Generator
- Augmentation
Modeling
- Torch Model
- Pretrained Model
- Loss, Opt, Metric
Training
- Training Process
- Ensemble
Pre-processing (전처리 작업)
데이터 사이언스는 80%의 pre-processing(전처리 작업)과 20%의 모델링 등으로 나뉜다.
Bounding box
최대한 필요한 정보만 훈련시키도록 하는 것이 좋기 때문에 필요 이상의 정보는 지워주는 것이 좋다.
Resize
계산의 효율을 위해 적당한 크기로 사이즈를 변경한다.
import torchvision
torchvision.transforms.Resize(size, interpolation=InterpolationMode.BILINEAR, max_size=None, antialias=None)
여러 기법이 있지만 항상 기법이 좋은 결과를 가져다 주지는 않는다.
그저 도구일 뿐이고 무조건 적용 가능한 기법도 사실 없다.
앞서 정의한 주제를 깊이 관찰해서 어떤 기법으로 적용하면 다양성을 가질 수 있다고 가정하고 실험으로 증명해야 한다.
이러한 점을 주의하여 전처리 작업을 하고 이론에서 배운 모델링, 훈련(training)을 통해 test 데이터를 사용해서 얻은 결과물을 제출하면 되는 것이다.
[피어세션 일지](https://www.notion.so/2021-08-23-bf02c4178d4f4b0eb5af7a55c910d233)
'AI-Tech 부스트캠프' 카테고리의 다른 글
[PyTorch] 기본 모델링 과정 (0) | 2021.08.27 |
---|---|
Data Augmentation (0) | 2021.08.27 |
2021_08_19_(목) (0) | 2021.08.20 |
2021_08_16_(월) (0) | 2021.08.16 |
2021_08_14_(토) (0) | 2021.08.14 |
댓글