모든 것의 네트워크와 모든 것의 전이학습 - 기계학습 연구가 발견한 인간 학습의 방법론 7가지

모든 것의 네트워크와 모든 것의 전이학습 - 기계학습 연구가 발견한 인간 학습의 방법론 7가지
우리가 배우는 모든 것이 때로는 느슨하고 때로는 단단하게 연결되어 있으며 (Fully-connected), 인간의 뇌는 신경망 알고리즘으로 일정부분 모사와 시뮬레이션이 가능했다.

기계학습을 공부하면서 가장 좋았던 건 ‘학습’이라는 개념이 머릿속에서 재정립되는 과정이었다. 기계학습의 분야에서는 인간이 무언가를 학습하는 방식, 알고리즘이 데이터의 패턴을 발견하는 과정을 끊임없이 새로운 각도에서 바라보고 이를 수식화, 모형화한다.

전이학습 (Transfer Learning)은 기계학습의 분야에서 가장 좋아하는 개념인데, 이는 인간이 한자를 배우면 한국어, 일본어, 중국어와 같은 한자 문화권의 언어를 한자를 배우지 않은 경우보다 더 수월하게 배울 수 있다 - 이전의 학습 내용이 다음 학습으로 전이된다 - 는 개념이다. [1, A Comprehensive Survey on Transfer Learning]

전이학습의 개념과 가설을 너무나 좋아하는 나머지 그것에 대한 연구나 실험을 하다보면, 연구자들은 자꾸만 이런 가정을 한다. ‘이 데이터도 Fine-tuning에 도움이 될까? 이 데이터셋이 더 도움이 될까?’ 말은 어렵게 느껴지지만 우리가 일상생활에서 늘 하고 있는 것들이다. ‘영어를 배우면 돈을 많이 벌 수 있을까?’, ‘미술관에 가면 미적 감각을 키울 수 있을까?’ 이것들을 단지 알고리즘에 대입해 생각하는 것이다.

최근 가장 유행하고 있는 ‘생성 모델’의 대중화에서 다른 무엇보다도 내가 크게 감명받는 부분은 압도적인 전이학습의 힘이었다. ‘생성 모델’은 아무런 사전지식 없이 곧잘 새로운 지식을 창조해내지는 못한다. 그들은 이전까지 실험해보지 못했던 수준의 대량 데이터셋을 게걸스럽게 먹어치운다. 수십 억, 수백 억, 수천 억 문장과 이미지를 학습하고 이를 생성 작업의 사전지식으로 삼는다. [2, LAION-5B: An open large-scale dataset for training next generation image-text models]

이 부분은 인간도 마찬가지다. 인간 또한 사전지식 없이 새로운 지식을 창조해내지 못한다. 아이를 돌보는 사람과 환경의 가르침이 없다면, 타고난 오감 센서가 없었다면, 타고난 뇌세포가 없었다면, 타고난 네트워크가 없었다면, 타고난 유전자 지도가 없었다면 - 이런 식으로 전제를 하나씩 거꾸로 더듬어나가다 보면 ‘사전지식’을 가진다는 것, ‘전이학습’을 한다는 것은 알고리즘과 인간의 공통점임을 부정할 수 없게 된다.

최신 생성 모델과 초거대 인공지능 연구에 따르면, 더 많고 다양한 데이터셋을 학습한 더 거대한 모델은 일부 상황적인 예외가 있더라도 거의 대부분의 경우에서 더 좋은 출력을 만들어낸다. 만약에 더 많은 데이터셋이 모델의 성능을 나쁘게 만들었다면 이는 데이터가 사실은 부족한 것일 수 있다. [3,4 Deep Double Descent, Training Compute-Optimal Large Language Models]

만약 알고리즘에 있어 이 가설이 참이라면, 나는 사람의 뇌에서도 이 가설이 참일 것이라고 생각한다. 그러니까 더 많고 더 다양한 경험을 쌓을 수 있는 사람은 이 경험을 필시 다른 곳에 써먹을 상황이 생긴다. 많은 인간에게 시간은 평등하게 주어졌기 때문에, 같은 시간을 살아가더라도 더 정보량이 높은 경험을 쌓는 방법, 같은 정보더라도 더 효과적으로 받아들이는 방법을 구축하면 더 많은 부분을 학습할 수 있다.

교육학에 대해서는 내가 잘 모르지만, 기계학습 트렌드 속에서 발견된 방법론들은 다음과 같다.

  1. 미세조정 (Fine-tuning) — 다양한 분야의 사전지식을 한 분야에 다시 집중시킨다. 그 분야와 무관한 분야를 잠시 잊어버리는 부작용은 있지만, 여태까지 배운 사전지식과 집중하는 분야를 연관시켜 분야의 지식을 폭발적으로 학습해낸다.
  2. 지식의 증류 (Knowledge Distillation) — 복잡하고 더 연산량을 많이 소모하는 똑똑한 모델의 가르침을 받아 다음 똑똑한 모델을 학습시키는 방법론이다. 인간의 학습상황에서도 쉽게 적용할 수 있는데 지식을 Raw-data로 받아들이는 것이 아니라 가장 똑똑한 사람이 나 대신 정제하고 편집한 지식을 배우는 것이 도움이 될 수 있다. [5, Knowledge Distillation: A Survey]
  3. 커리큘럼 학습 (Curriculum Learning, Step-by-step Learning) — 가장 쉬운 것에서 가장 어려운 것으로 점진적으로 난이도가 상승하도록 잘 설계된 지식을 배운다. [6,7 Curriculum Learning, Large Language Models are Zero-Shot Reasoners]
  4. 1회 학습량 (Batchsize) 조절 — 기계 학습에서는 ‘한 번의 학습 단계에 받아들일 데이터의 양’을 조절해 학습의 속도와 효과를 조절할 수 있다. 하드웨어 여건에 따라 다르지만 일반적으로 1회 학습량이 많을수록 빠른 속도로 학습할 수 있지만, 1회 학습량이 매우 적더라도 계속해서 시간을 들여 꾸준하게 배운 경우 모델이 약간 더 좋은 성능을 낼 수도 있다. 예를 들어 1년간 하루 10분씩 공부한 외국어가 1개월간 하루 2시간씩 공부한 외국어보다 나을수도 있다. 정확한 감을 잡기 위해서는 많은 시행착오를 겪어야 한다. [8, 좋은 batchsize 고르기]
  5. 편식 없이 받아들이기 — 전에 겪어보지 못했던 새로운 자극에 꾸준하게 도전하는 것도 좋은 방법이다. 초거대 언어모델은 잘쓴 글도 배우고 못쓴 글도 배우고 다양하게 배우면서 결론적으로 자신만의 대화법을 구축한다.
  6. 체리 피킹 — 편식 없이 받아들이라고 해놓고 다시 말하기 뭐하지만, 특정한 주제를 학습해야 하는데 시간이 없다면 진짜로 특징적인 알짜배기 정보만 엄선해서 배우면 좋다. 전에 배운 적이 없고, 완전히 새로운 부분만 하나씩 하나씩 골라서 배운다. 기계 학습에서도 ‘이미 학습된 데이터와 굉장히 유사한 데이터’를 추가로 배우는 것은 모델의 성능 향상에 크게 기여하지 못할 때도 많다. 그러니까 중복적인 데이터는 전부 버리고 색다른 데이터만 계속해서 골라배우는 것도 좋은 전략이 될 수 있다. 사실 이 작업은 무지 어렵다. 자신의 내면에 들어있는 지식과 경험을 부정하는 지식일수록 유의미하기 때문이다.

모두 기계 학습 분야의 연구를 통해 발생된 노하우이지만, 사람의 학습 과정에서도 비슷한 은유가 가능하다는 것을 느낄 것이다. 이는 연구자들의 지속된 상호참조 덕분일 것이다.

우리가 배우는 모든 것이 때로는 느슨하고 때로는 단단하게 연결되어 있으며 (Fully-connected), 인간의 뇌는 신경망 알고리즘으로 일정부분 모사와 시뮬레이션이 가능했다.

만약 이같은 교훈을 통해서 한 가지 삶에 적용하고 싶은 가장 큰 가설이 있다면 그건 바로 모든 것의 학습이 다른 모든 것으로 전이된다는 것이다.

실제 기계 학습에서는 도메인 유사성이 낮은 분야의 사전 학습 내용이 앞으로 이뤄질 학습의 방해가 되기도 하는 음의 전이 현상이 발생한다. 그러니까 어떤 것들은 전이가 잘 안된다는 뜻이다. [9, A Survey on Negative Transfer]

음의 전이를 효과적으로 배제하는 방법은 명시적으로 모든 것을 연결지어 생각하는 것이다. 예를 들어 보편적인 기계 학습 알고리즘에 입력되는 데이터는 도메인간의 상관관계를 설명하지 않는 경우가 많다. 스포츠와 사업은 상관관계가 있을까? — 어제 본 넷플릭스 드라마와 업무는 상관이 있을까? — 동료와의 관계가 부모와의 관계와 상관이 있을까? 우리는 이같은 상관관계의 여부를 경험적으로, 무의식적으로 채득한다.

그러니 만약 목표하는 학습과 상관관계가 적은 경험을 축적했을 때 우리가 여과 (Filtering) 행위를 하지 않는다면, 상관관계가 적은 경험은 목표하는 학습에 방해가 될 수 있다.

하지만 예를 들어 스포츠와 사업이 닮아있는 부분 (팀워크, 끊임없는 노력, 자신감 같은 감정)을 명시적으로 인지하고, 이 부분들을 지속적으로 연결지어 생각한다면 어떨까?

어제 본 넷플릭스 드라마의 잘 짜여진 각본을 오늘 작성하는 PPT 자료의 전달력과 연결지어 인지한다면 어떨까?

우리는 떨어져있는 것만 같았던 점과 점들을 연결하는 과정에서 전이학습의 효과를 극대화할 수 있다.

이 과정에서 천천히 모든 것이 다른 모든 것과 닮아있는 세계를 상상한다. 모든 것이 다른 모든 것과 연결되어 있는 세계를 상상한다.

우리는 분명 어디에서든지 배울 수 있을 것이다.

Subscribe to Optimization Process

Sign up now to get access to the library of members-only issues.
Jamie Larson
Subscribe