바야흐로 데이터의 시대다. 제아무리 똑똑한 AI도, 결국 시작은 데이터다. 이런 데이터를 가공하고 분석하는 데이터 분석가들의 '올림픽'이라 불리는 무대가 있으니 '캐글'이다. 2010년 설립돼 2017년 구글이 인수, 운영하는 머신러닝 플랫폼인데, 데이터 분석 관련 경진대회가 열리는 장이자, 기술과 지식을 공유하는 커뮤니티란다.
기업이나 다양한 기관에서 상금을 걸고 데이터와 과제를 주면, 데이터 분석가들은 과제를 풀어낸다. 대회가 끝나면 랭킹별로 점수를 받는다. 전체 참가자 중 상위 1%에 들면 금메달이 수여되는 식이다. 높은 등급을 받은 이들은 그 능력을 인정받아 유수의 기업에서 채용 제안을 받기도 한다고.
그러니 데이터라는 세계에 발을 내딛었다면 한 번쯤 도전해 보고 싶을 터. 하지만 초보자가 혼자 도전하자니 쉽지 않을 것 같은 느낌이 절로 든다. '경험자가 가르쳐주면 좋을 텐데' 답답한 초보자들을 위해 캐글메달리스트 8명이 모여 경험으로 쌓은 노하우를 담아 책을 냈다. 이름하여 <캐글메달리스트가 알려주는 캐글 노하우>. 직접 참가한 대회의 시작부터 제출까지 전 과정을 꼼꼼하게 담아 따라만 하면 된단다.
데이터 분석가들만의 공간일 것 같은데, 데이터 문외한이라도 캐글을 알면 세상을 보는 시야가 넓어질 것이란다. <캐글메달리스트가 알려주는 캐글 노하우>의 대표 저자 김태진 님을 만나 캐글에 대해 알아봤다.
-소개 부탁드려요. 어떻게 캐글을 시작하게 되셨나요?
두들린에서 ML Engineer로 일하고 있는 김태진입니다. 대학에서 정보컴퓨터공학을 전공했는데, 왜 배워야 하는지, 이걸 어디에 쓸 수 있는지 모르겠더라고요. 그러다 동아리 활동으로 공모전에 나가기 시작했는데 강의만으로는 잘 몰랐던 배움의 이유를 찾을 수 있어서 너무 재미있었어요. 휴학을 하고 공모전, 해커톤 대회만 준비할 정도로요. 그때 열렸던 각종 대회는 다 나간 것 같아요.
다양한 정부 기관, 기업에서 이런 문제에 관심이 있구나, 이런 문제를 해결하려고 하는구나, 이런 문제를 푸는 사람이 필요하구나 같은 걸 알게 됐어요. 하다 보니 문제는 많은데 해결 방법은 제한적인 거예요. 그때 탈출구를 찾은 것이 데이터였어요.
데이터가 내가 해결하고 싶은 것을 찾아줄 수 있겠구나를 알게 되면서 데이터 분야에 관심이 갔어요. 여러 아이디어에 데이터, AI를 활용하는 비중이 커지더라고요. 그래서 관심을 두고 찾다보다 캐글을 알게 됐는데 새로운 세상을 발견한 것 같았어요.
-데이터 하는 분들 사이에선 '올림픽'이라 불릴 정도로 유명하다고 들었지만, 아직 익숙하지 않은 분들을 위해 캐글이 뭔지 소개 부탁드려요.
캐글은 세계에서 가장 큰 데이터 사이언스 커뮤니티, 플랫폼입니다. 어떤 나라나 단체에서 해결이 필요한 문제를 내면, 캐글러(캐글 커뮤니티 사람들)들은 이들이 제시한 문제와 데이터를 가지고 문제를 풀어요. 이렇게 문제를 내고 푸는 공간이라고 생각하시면 될 것 같아요. 주최 측에 따라 좋은 해결책을 제시한 팀(사람)에게 상금을 주기도 하고요.
전 세계에서 일어나는 다양한 데이터 사이언스 챌린지들을 모아놓은 곳, 이를 해결하기 위한 여러 가지 해결 방안이 있는 곳, 이를 위해 많은 사람들이 소통하고 고민하는 곳이죠.
아무래도 대회에 나가 좋은 성적를 얻고 랭킹을 올리는 것으로 많이 알려져 있는데요. 상금이 적게는 5000달러, 많게는 10만 달러까지 나오기도 해요. 문제를 내는 기업 입장에서는 홍보가 되기도 하고, 여기서 얻은 솔루션을 실제 경영에 적용하기도 하고요. 잘 하는 사람은 채용까지 연결되기도 하더라고요.
- 캐글을 알고 어떤 점이 좋으셨어요?
캐글의 장점은 실제 여러 나라와 기업에서 해결이 필요한 실질적인 문제가 제시된다는 점인 것 같아요. 캐글러들은 이를 간접적으로 경험해 볼 수 있고요.
또 캐글에는 현업에서 데이터 관련 직업을 가진 분들이 많으세요. 이들과 소통하면서 문제를 같이 고민하고 풀어가는 과정에서, 필드에서 일하는 것과 같은 경험을 해볼 수 있어요. 그만큼 현실적인 문제를 수준 높은 현업의 사람들과 함께 고민하면서 배우고 성장할 수 있어요.
페이스북 커뮤니티인 캐글 코리아 멤버들과 스터디 하는 중
-어떻게 책까지 내게 되셨나요?
캐글이 무엇인지 알리고 싶은 마음이 가장 컸어요. 또 제가 캐글을 하면서 얻었던 것을 초보자분들에게 알려주고 싶은 마음도 있었고요. 제가 캐글을 어떻게 활용했는지, 실제 캐글 대회에 참가할 때 많이 해본 사람들은 어떻게 문제를 풀어가는지, 참가 했던 당시의 생생한 기억을 전달하고 싶었어요.
사실 캐글이 점수를 올리고 상금을 받는, 서로 경쟁해 이기는 것이 목표로 보일 수 있는데요. 전 그것보다 세상의 문제를 바라보는 시야가 넓어진 점이 좋았어요. 예를 들어, 고래의 꼬리 데이터를 제시하면서 꼬리만으로 고래 지도를 그리고 싶은데 어떻게 해야 하느냐, 구름을 모양별로 분류하고 싶은데 어떻게 해야 할까 같은 문제들을 본 적이 있어요.
어떤 나라에서는, 어떤 기업에서는, 누군가는 이런 관심사를 가지고 있구나, 이런 문제 때문에 고민하는 사람들이 있구나, 이런 문제는 이런 방향으로 분석해서 해결책을 찾을 수 있구나 같은 걸 알 수 있어 좋았거든요. 이런 걸 공유하고 싶었어요.
-캐글을 처음 시작하시는 분들을 위한 책인데요. 책 100% 활용법을 소개해 주신다면?
이 책은 캐글을 한 번도 해보지 못한 사람부터 캐글 대회를 본격적으로 시작해 보고 싶은 사람들을 위한 책인데요.
책의 1장은 캐글을 아주 자세하게 묘사하고 있고, 캐글이 어떤 가치를 추구하고자 하는지 제 경험을 상세히 담았습니다. 아마 1장만으로도 지금까지 알지 못했던 많은 것을 알 수 있을 거로 생각합니다.
2장부터는 실제 대회에 참가해서 메달을 획득한 경험이 있는 분들이 직접 대회 시작부터 종료까지의 과정을 설명합니다. 대회를 어떤 방향으로 준비하는 것이 좋을지 참고하고 싶을 때, 혹은 특정 도메인에 관심이 많다면 그 도메인에 어떻게 접근해야 할지 알고 싶을 때 보면 좋습니다.
캐글, 그것이 궁금하다!
<캐글메달리스트가 알려주는 캐글 노하우>를
<컴퍼니타임스> 독자 10분께 드립니다!
이벤트 기간: ~2023년 9월 26일 (화요일)
▶책 받으러 가기◀