2021년 회고

1 minute read

개요

금년을 마무리하기에는 다소 이른 시기이지만 얼마 전 있었던 일을 계기로 2021년 제 삶을 되돌아보게 되었습니다. 부족했던 부분을 살펴보며 앞으로를 대비하고자 합니다.

커리어

인공지능 스타트업에서 데이터 분석, 모델링 업무를 담당하고 있습니다. 작년부터 이어진 코로나19 사태로 인해 어려움도 있었지만 강점이었던 교육 인프라를 십분 활용하여 ‘현직자 인공지능 교육 - 현업 실무에 인공지능 도입’이라는 사업 모델을 성공적으로 안착시켰습니다. 시리즈 투자 유치도 지속되고 있으며 국내 유수 기업으로부터 양질의 레퍼런스를 축적했습니다.

실 데이터 핸들링

실제 산업에서 쌓인 데이터를 직접 다룰 수 있었다는 점은 제게 큰 행운이었습니다. 더불어 특정한 문제를 데이터 기반으로 해결하고자 할 때 어떤 features들이 필요할지 리서치했고 끊임없이 고민했습니다. 모델링 가능한 형태로 변환하거나 고객에게 요구하여 추가 데이터를 확보하기도 했습니다.

데이터 전처리

학습할 수 있는 형태로 바꾸기 위해 문자열 변수를 인코딩하고 결측치를 처리하는 기법을 체득했습니다. 때로는 문장 데이터를 사용하기 위해 자연어 처리 기법을 도입했고 이상치를 탐지하고 처리했으며 충분한 EDA를 거쳐 파생변수를 생성했습니다.

모델 검증

알고리즘이나 성능보다 더 중요했던 것이 모델의 검증이었습니다. 결과가 안 나올 때보다 생각보다 잘 나올 때 고민이 더 깊었습니다. Data leakage가 발생한 것은 아닌지, train-test set 분할에 문제는 없는지, 모델이 새로운 데이터를 예측할 때도 지금과 같은 성능이 나올지 철저하게 검증하려 했습니다. 요새는 성능 지표를 아주 보수적으로 측정합니다. 모델링 초기 단계부터 최악을 가정하는 것이지요. 이러한 과정을 거쳐야만 고객이 만족하는 결과를 얻을 수 있다고 봅니다.

모델 서빙

아무리 잘 만들어진 전처리 프로세스, 예측 모델이라도 실제로 사용되지 않으면 한낱 실험에 불과합니다. 결국엔 서버에 올라가 학습과 인퍼런스에 이상이 없어야 합니다. 이를 위해 MLOps가 있는 조직일지라도 데이터 사이언티스트가 모델 서빙의 기본은 알고 있어야 합니다. 모델을 docker image로 build할 수 있어야 하며 서버상에서 정상 작동하는지 확인할 수 있어야 합니다.

보완할 부분

  1. SQL: 데이터를 직접 추출했던 적이 많지 않습니다. SQL을 공부하면서 데이터 수집에 대한 지식을 쌓아 나가려 합니다.
  2. 데이터가 많지 않은 상황에서의 추천 시스템: 어느 기업이나 추천 시스템에 대한 수요가 있는 듯합니다. 회귀나 분류 모델과는 달리 추천 시스템은 문제 정의나 평가 방식에 따라 variation이 크다고 생각합니다. 데이터 사이즈 자체가 크지 않고 각 사용자별로 rating이 적은 경우, 어떻게 해야 효율적인 추천 시스템을 구축할 수 있을지 탐구하고 있습니다.
  3. 고객과 소통: 인공지능 관련 지식이 깊지 않은 고객과 효과적으로 소통하고자 노력하지만 쉽지 않습니다. 가장 중요한 것은 공통의 목적을 명확히 공유하는 것입니다. 그 목표를 이루기 위해 서로가 해야 할 일이 무엇인지 어떻게 접근해야 하는지 머리를 맞대야 합니다. 이게 어그러지면 갑과 을, 불통 등 마찰이 시작됩니다. 유연하게 대처하는 지혜가 필요합니다.

source of teaser


Scroll to Top

Leave a comment