아이들의 그림이 나타내는 것을 인공지능과 결합한다면

Tech 2021. 7. 23. 15:39

0. 아이들의 그림은 감정을 비추는 창

알고리마는 AI 교육을 전문적으로 제공하는 회사입니다. 그런데 인공지능이라는 단어는 때로 거리감을 자아냅니다. 인공지능과 관련된 연구 주제들은 어려워보이거나, 재미없어 보이거나, 나와 상관없어 보이는 단어일 수 있습니다. 특히 어린 아이들에게는 더욱 그렇게 느껴질 것입니다.

그래서 알고리마는 되도록이면 다양한 인공지능 연구주제를 가지고 대중에게 친근하게 다가가려 합니다. 이번에 다룰 주제는 “그림 심리”입니다. 아이들의 그림은 아이들이 느끼는 감정과 경험을 비추는 창과 같습니다. 아이들은 아직 말하고 쓰기를 배우는 단계에 있기 때문에, 자신이 느끼는 것을 언어화 시키지 못합니다. 그러므로 아이들의 그림은 아주 특별한 커뮤니케이션 수단이 될 수 있는 것이죠.

그림은 아이들의 공포, 기쁨, 악몽, 경험 그리고 성격까지 나타냅니다. 아이들에 대한 중요한 정보들도 그들이 그리는 그림으로 파악할 수 있습니다. 이렇게 그림으로 아이들이 느끼는 것을 파악하는 방법은 심리학에서 오랫동안 쓰인 방법인데요. 대표적인 예시로 “가족"을 그려보게 하는 것이 있습니다.

다들 어렸을 때 학교에서 한 번쯤은 가족에 대한 그림을 그려본 적이 있을 것입니다. 아이들이 그리는 가족 그림은 아이들이 가장 가까운 관계인 가족에 대해 느끼는 바를 나타냅니다. 가족 그림 테스트는 60년이 넘은 심리 테스트 방법입니다. 비슷한 테크닉으로는 나무그림 그리기 등이 있습니다.

1. 그림 데이터셋 모으기 - 라벨링 하기

인공지능 이야기와 다르게, 벌써부터 흥미진진하죠? 여기서 인공지능이 등장합니다. 수많은 그림을 일일히 상담사와 심리학자가 읽어서 판정할 수 없으니, 인공지능에게 대신하게 하면 어떨까? 하는 호기심이죠. 그러기 위해서는 엄청나게 많은 그림 데이터를 모아 라벨을 붙인 후 인공지능에게 학습시켜야 합니다.

라벨은 일종의 표지판입니다. 얼굴 인식을 예로 들자면 얼굴 사진 위에 눈, 코, 입 딱지를 달아 인공지능이 이를 학습할 수 있게 해주는 것이죠. 그림 인식에서는 어떤 것이 표지판이 될 수 있을까요?

그림에 사용한 색깔이 하나의 라벨이 될 수 있습니다. 보라색과 검은색은 권력, 지배를 나타내며 상대적으로 무언가를 더 요구하고 지배적인 성향을 보이는 아이가 사용할 수 있습니다. 파란색은 남들을 잘 챙기고 사람들과 함께 있는 것을 좋아하는 아이들이 많이 사용하죠. 빨간색은 흥분을 나타내며 어떤 것도 놓치고 싶지 않아하는 아이들이 많이 씁니다. 분홍색은 사랑, 초록색은 남들과 다르고 싶은 욕망을 나타냅니다. 초록색을 좋아하는 아이들 중에는 예술적이고 똑똑한 아이들이 많죠. 노란색은 행복하고 밝은 성격을 보여줍니다.

그렇다면 모양은 어떤가요? 충동적인 아이는 큰 형태에 목이 없는 모양을 그릴 가능성이 큽니다. 긴장된 아이는 구름, 비, 날아가는 새, 눈이 없는 형태를 그리고요. 부끄럼을 많이 타는 아이는 작은 형태에 코나 입이 없고 팔이 몸통과 딱 붙은 모습을 그립니다.

이 같은 표지판을 바탕으로 우리는 감정의 클래스를 만들 수 있습니다.

2. 클래스 만들기

에크만의 BIG SIX 감정 분류를 아시나요? 폴 에크만은 캘리포니아 대학의 미국 심리학자이자 명예 교수입니다. 비언어적 커뮤니케이션 분야의 세계적 전문가인 그는 인간에게는 6가지의 기본 감정이 있다고 하였습니다. 이 6가지의 감정을 일차감정이라고도 하는데, 바로 기쁨, 슬픔, 분노, 공포, 혐오, 놀람입니다. 우리가 잘 알고 있는 수치, 불안, 우울과 같은 감정은 일차감정에서부터 생겨난 이차감정이라 할 수 있습니다.

알고리마 연구 팀은 폴 에크만의 BIG SIX 이론을 바탕으로 이 감정들 중 가장 명확하게 구분되는 세 개의 감정을 골랐습니다. 슬픔, 기쁨, 분노인데요. 이 감정의 카테고리를 딥 러닝 모델에서 클래스라고 합니다. 우리가 수집한 그림 데이터셋은 모델을 통해 세 개의 클래스로 분류될 것입니다.

데이터 셋은 중, 고등학생들로부터 수집하였습니다. 더욱 정확한 모델 구축을 위해서는 심리에 영향을 끼치는 학생의 성장환경 등 여러가지 요소가 고려되어야 합니다. 하지만 이번 연구에서는 고려되지 않았습니다.

3. 모델링하기

그림 심리 분석을 위해 사용할 모델의 구조는 그림 1과 같습니다.

그림1. 사용할 모델의 구조

그림 심리 분석의 경우는 그림의 전체적인 내용에 대한 분석 뿐 아니라 그림 안의 대상에 대한 개별적인 분석도 필요하기에 이에 적합한 모델인 multimodal model을 고안하였습니다.

우선, 데이터의 수가 부족할 것으로 예상되기에, 특정 데이터에 대한 과적합을 막고 정확도를 높이고자 이미지 데이터에 데이터 증강 기법을 적용해 데이터의 개수를 늘려줍니다. 사용할 데이터 증강 기법으로는 그림 회전, 자르기, 뒤집기, 밝기 조정 등이 있습니다. 그 다음, 데이터를 신경망에 넣어 학습시킬 수 있도록 이미지의 사이즈를 조정하는 작업을 거치고, 학습을 보다 용이하게 진행하기 위해 이미지 데이터 값의 분포를 특정 분포에 고정시키는 정규화 작업을 취합니다. 전처리 과정이 완료된 이미지들은 각각 전체 이미지의 느낌을 보기 위한 시각적 임베딩(Visual Embedding) 과정과 이미지 속 주요 사물들을 추출해내기 위한 상 생성(Phase Generation) 과정으로 나뉘어져 들어가 학습에 사용되게 됩니다.

시각적 임베딩 과정에서는 사전 학습된 신경망인 vggnet이나 inception network, resnet등을 사용하지 않았습니다. 사전 학습된 신경망을 사용할 경우, 학습을 위해 사용될 데이터가 비슷하면 신경망의 정확도가 오르고, 학습에 소요되는 시간이 줄어든다는 장점이 있습니다. 하지만, 앞서 언급한 신경망들이 사전학습될 때 사용한 데이터(Imagenet 등)와 그림 심리 분석을 위해 사용할 데이터셋은 차이가 있기에 사전 학습 모델의 사용은 모델의 학습율을 오히려 저하시킬 가능성이 있다고 판단하였고, CNN(Convolutional Neural Network)에 기반한 신경망을 구성해 처음부터 학습시키고자 하였습니다. 신경망을 처음부터 학습시켜 학습해야 할 파라미터 수가 상당하기 때문에 이를 줄여 학습 시간을 감소시키기 위해 CNN에 일반적으로 사용하는 Convolution layer 대신 Separable Convolution layer로 바꾸어 진행하고자 합니다. 또한 과적합을 방지하는데 도움이 되는 Batch Normalization layer를 마지막 부분에 추가하였습니다.

상 생성 과정에서는 전처리를 거친 이미지 데이터를 학습을 통해 fine-tuning된 resnet(그림 2)에 넣어 이미지 에서 집중적으로 보고자 하는 핵심적인 대상을 추출해냅니다. 예를 들면, 그림 3과 같은 이미지에서 나무, 가로등, 밤과 같은 키워드들을 얻어내는 것입니다.

그림 2. Resnet을 이용한 Fine-tuning 학습 과정

그림 3.

얻어낸 대상들 중 가장 중요도가 높은 몇 단어들과 피실험자가 작성한 키워드들을 쌓아 올린 후에, 언어를 컴퓨터가 이해할 수 있게 벡터 형태로 바꾸는 토큰화 작업과 같은 전처리 작업을 수행합니다. 이렇게 가공된 데이터는 텍스트 임베딩 단계에서 학습된 BERT(Bidirectional Encoder Representations from Transformers, 그림 4)등의 신경망을 거치며 텍스트를 통해 느낄 수 있는 핵심적인 감정들을 벡터 형태로 도출해내게 됩니다.

그림 4. BERT 구조

최종적으로, 텍스트 분석으로 얻은 벡터와 시각적 임베딩 단계에서 얻은 이미지의 전반적인 느낌에 대한 벡터를 합쳐 Fully connected layer에 넣음으로써 감정 식별 작업을 완료할 수 있습니다. 학습을 위한 손실 함수로는 식별 작업에 자주 사용되는 cross entropy 함수를 사용할 것입니다. 세부적인 hyperparameter들은 실험을 진행하며 스케쥴러 등을 이용해 tuning을 수행하고자 합니다.

4. 글을 마치며

그림은 우리가 생각하는 것보다 더 많은 것을 보여줍니다. 아이들의 그림은 특히 강한 메시지가 되죠. 알고리마는 이에 착안하여 그림에서 나타나는 감정을 읽어내기 위한 모델을 고안하려 합니다.

연구의 한계점을 서술하자면, 실제 미술을 이용한 심리분석에서는 감정이 하나로 딱 떨어지는 경우는 없으며 그림에 여러가지 감정이 섞여 있을 때가 많습니다. 또한, 그림을 그린 학생이 자라온 성장환경, 나이, 성별 등이 판별이 되어야 더욱 정확한 감정을 할 수 있습니다. 따라서 이 심리분석 모델을 구축한 후에도 해당 분야에 대한 더욱 추가적인 연구가 필요할 것입니다.

하지만 아이의 심리를 파악하는 보조도구로서 이 연구와 인공지능 모델을 활용할 수 있으면 하는 바람입니다. 또한 인공지능 모델을 구축하여 활용함으로써 상담사나 심리치료사 등의 전문가가 수많은 그림을 일일히 읽어 분류하는 수고를 덜 수 있을 것입니다. 알고리마는 AI 분야에 특화된 기술과 ML엔지니어들을 보유한 AI 전문 스타트업입니다. 알고리마가 가진 우수한 인적 자원을 활용하여 알고리마는 앞으로도 지속적인 연구를 진행할 계획입니다.

저작자표시 비영리 변경금지 (새창열림)

'Tech' 카테고리의 다른 글

[1급 기밀] 2021 인공지능 그랜드 챌린지 도전기 (0)	2021.08.13
Django Database Migration Conflict 해결하기 (1)	2021.08.13
스윗한 GCP IAM 입문 도우미 (0)	2021.08.11
NLP Transformer에 XL 끼얹기 : Transformer-XL(2019) 논문 리뷰 (0)	2021.08.06
AI 챔피언쉽 - Naver Clovacall 데이터를 활용해 STT(Speech to Text) 문제 해결 (1)	2021.07.23

ABOUT ME

알고리마 팀블로그 알고리마 팀블로그

0. 아이들의 그림은 감정을 비추는 창

1. 그림 데이터셋 모으기 - 라벨링 하기

2. 클래스 만들기

3. 모델링하기

4. 글을 마치며

'Tech' 카테고리의 다른 글

티스토리툴바

ABOUT ME

0. 아이들의 그림은 감정을 비추는 창

1. 그림 데이터셋 모으기 - 라벨링 하기

2. 클래스 만들기

3. 모델링하기

4. 글을 마치며

'Tech' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바