티스토리 뷰







안녕하세요, “생각을 읽다, ZUM” 입니다.

최근 선보인 검색ZUM ‘문서분류 서비스’ 경험해 보셨나요?


오늘은 ‘문서분류 서비스’의 원천 기술이자 검색ZUM의 자랑거리인

문서분류AI DeepCat 엔진을 통해 인공지능 그리고 딥러닝 이야기를

나눠보려 합니다^^


너무 똑똑해도 문제인 인공지능,

매 순간 학습하는 DeepCat 이야기, 궁금하지 않으세요?



#01. 문서분류AI DeepCat, 탄생 기술은?


딥러닝에서 학습의 과정은 원하는 인과관계를 함수로 구현하기 위해, 인공 신경망 내부에서 사용하는 수치들이 조금씩 바뀌어 가는 과정을 의미합니다.


어떻게, 컴퓨터가 스스로 문서와 분류 정보 사이의 함수 관계를 학습할까요?

수학 시간에 배웠던 ‘미분’ 이 바로 그 해답입니다. ‘미분’은 ‘변화량’을 측정하는 데 사용되는 것으로 많은 데이터를 학습하면서 더 합리적인 방향으로 변화량을 측정하고 분류기를 발전시켜 나가도록 프로그램되어 있지요.

더 놀라운 사실은 더 합리적인 분류를 해 내기 위해, 컴퓨터가 스스로 학습하며 오차를 경험하고 그 오차를 줄여 나간다는 점이에요!


#02. 인공지능이 학습한다고?


쉽게 생각하면, 인공지능에게 데이터와 정답을 알려주고 반복하여 외우게 하는 것인데요. 일컬어, 지도 학습(Supervised Learning)이라고 합니다.

학습의 과정이 수학적 개념인 ‘미분’으로 이루어지면서 반복 학습을 통해 오차가 점점 줄어드는 거에요.


대량의 문서가 학습된 모델(AI)이 있다고 가정할때, 우리는 새로 들어오는 문서가 어떤 카테고리인지 알고 싶습니다. 그럼 그 모델(AI)에게 물어봅니다. ‘이 문서는 무슨 카테고리인지 알려주세요. ‘라고 문서의 데이터를 전송합니다. 데이터를 받은 모델(AI)은 이전까지 학습했던 데이터를 바탕으로 예측값을 내 줍니다. 모델(AI)은 “이 문서에는 스포츠라고 학습했던 데이터가 많이 나오는구나! 스포츠인것 같다!” 라고 판단을 하는 겁니다. 이 일련의 과정을 통해 문서 분류가 가능한 것이에요.  


딥러닝이라는 것은 한 마디로 ‘학습시키는 방식’ 인 거지요.




#03. 어떻게 학습하는 걸까요?


맨 처음 사과를 먹을땐 사과인지 모르고 먹습니다.

그러나 한번 먹어보고(음식) 이것이 사과이군! 하고 인식합니다.

우리는 어떻게 사과라고 인식한 걸까요?


바로 사과의 특징을 학습한 것입니다.

사과의 특징을 예로 들자면, 빨갛고 동그란 모양, 고유의 사과 향기, 고유의 사과 맛 등을 들 수 있겠죠.


눈, 코, 혀 등 각각의 기관들이 분류한 정보를 종합해서 이것이 사과라고 결론을 내려주는 거에요.




그럼 문서의 특징에는 무엇이 있을까요?

뉴스를 예로 들자면, 뉴스 제목, 뉴스 본문, 언론사, 이미지 등을 들 수 있습니다.

뉴스를 표현하는 특징들을 똑같이 학습해주면 됩니다.

“A는 제목 정보를 분류하고, B는 본문 정보를 분류해!” 라고 A와 B에게 역할을 주는 것이에요.

그렇게 하기 위해선 이러한 특징들을 딥러닝이 이해할 수 있도록 형식을 바꿔야 하는데 이를 데이터 전처리라고 합니다.

데이터 전처리가 완료가 되고 나면 딥러닝 모델에 학습을 시킬 수 있어요.


학습 다음엔? 시험을 치러 봐야겠지요?

이 경우, 미리 학습한 데이터로만 문제를 내면 안되는데요.


예를들어 90% 이상 정확도가 나왔다고 해보죠.

숫자만 놓고 보았을때 90% 이상의 정확도는 일반적으로 우수하다고 평가될 수 있어요.


그런데 만약 시험문제가 편중되어 쉬운 문제만 출제했다면요?

1단원부터 10단원 까지 배웠는데 시험은 1단원만 친 결과가 90점이라면 어떨까요?


1단원부터 10단원까지 문제가 골고루 출제되어야 함은 물론이고 난이도가 다양하게 출제되어야 좋은 시험이라고 할 수 있어요.

즉, 정량적인 수치보다는 이 모델이 어떤 테스트 데이터로 평가되었는지 초점을 맞춰야 합니다.


#04. 오버피팅, 위험하다구요?


문서를 분류할 때 뿐만 아니라 딥러닝을 이용하여 인공지능을 학습시킬 때, 큰 문제가 하나 있습니다.


개*콘** TV 프로그램의 1 대 1 이라는 퀴즈 코너를 보면, 모든 기출 오답 모음 문제집을 한가득 들고 나온 개그맨이 하는 말이 있습니다. "제가 이 오답 문제지를 100% 다 외워왔기 때문에 이번 상금 제가 탈 수 있을 것 같습니다." 처음에 출제자가 내는 어려운 작년 기출문제는 바로 맞추지만, 정작 새로운 쉬운 문제는 전혀 맞추지 못합니다.


이와 같은 현상이 인공지능에게는 실제로 일어날 수 있습니다.

인공지능은 굉장히 기억력이 좋죠. 충분히 많이 학습시키면 기출문제는 전부 외워버릴 수도 있습니다. 하지만 우리는 학습시킨 정보 외에 어떤 글이라도 분류해주기를 원합니다. 그렇기 때문에 기출문제를 완벽히 다 외워버리면 새로운 문제가 주어졌을 때 정답을 맞출 확률이 오히려 줄어듭니다. 이것을 오버피팅(overfitting) 이라고 합니다. 이를 방지하기 위해서는 충분히 많은 데이터와 적절한 인공지능 모델의 크기가 필요합니다.


즉, 모든 기출문제를 기억할 수 있을 정도로 똑똑하면 안되지만 원하는 작업을 잘 수행할 만큼은 똑똑해야합니다. 이 부분에서 우리는 많은 시행착오를 겪으며 인공지능을 학습시켜야 합니다.



너무 똑똑한 것보다 계속 똑똑해져야 하는 인공지능,

검색ZUM 문서분류 서비스를 예시로 알아보았는데요.


이제 매 순간 학습하고 매 순간 달라지는 문서분류AI DeepCat 엔진,

줌닷컴 검색 경험을 통해 직접 만나보세요.


문서분류 검색 서비스 체험하기>



생각을 읽다, ZUM



댓글