담배 끊는 법 - 2024/10/23, Wednesday, UTC
거의 모든 버릇 고치는 법: 딥 러닝 훈련 처럼 학습 loss 함수를 0이상 만드는 방법
담배 끊는 법
이 글은 물리학, 뇌과학, 생물학에 대한 책을 수십 권 읽고 그로 인해 생긴 얕은 지식과 사고를 가진 딥러닝과 컴퓨터공학 베이스의 20년 차 엔지니어이자 “아마추어” 뇌과학 연구자의 시각에서 쓴 글이다. 과학적 방법으로 이 방법을 증명하고 쓰는 글은 아니라는 걸 먼저 말하고 시작한다. 인간의 뇌가 어떻게 학습하는지, 딥러닝과 비교하면서 습관을 바꾸는 방법에 대해 이야기하겠다.
딥러닝과 인간 뇌 훈련 과정 비교
먼저 딥러닝의 학습 과정을 간단히 설명하겠다. 딥러닝에서는 손실 함수를 통해 모델의 예측값과 실제값 간의 차이를 계산하고, 이 차이를 최소화하는 방향으로 모델의 가중치를 업데이트한다.1 이 과정에서 역전파 알고리즘2이 사용되는데, 이는 출력층에서의 오차를 입력층 방향으로 전파하면서 각 층의 가중치를 조정하는 방식이다.
흥미롭게도 인간의 뇌도 이와 유사한 방식으로 학습한다는 가설이 있다.3 뇌에 입력된 감각 정보가 신경망을 통해 전파되는 과정을 순전파4라 할 수 있는데, 이 과정에서 긍정적 자극이 있으면 뇌는 이를 ‘보상’으로 인식하고 해당 행동을 강화하는 방향으로 학습하게 된다. 반면 부정적 자극이 있으면 이를 ‘손실’로 인식하고 해당 행동을 약화시키는 방향으로 학습이 이루어진다.
이 학습 과정에서 중요한 역할을 하는 것이 바로 도파민이다. 도파민은 실제 보상이 예측된 보상보다 클 때 분비되는 신경전달물질로,5 이는 딥러닝에서 손실 함수의 값이 예상보다 작게 나올 때 모델의 가중치가 크게 업데이트되는 것과 유사하다고 볼 수 있다. 즉, 도파민은 학습의 방향과 강도를 조절하는 일종의 ‘학습 신호’로 기능한다고 할 수 있다.
그래서 딥러닝 처럼 인간 뇌의 훈련과정을 간단히,
감각 정보 -> 뇌 신경망 -> "보상/손실 함수" -> 보상,손실에 따른 뇌 신경망 강화/약화 업데이트
로 아주 단순히 모델링할 수 있고 이를 통해 습관을 바꾸는 방법을 생각해 볼 수 있다.
노화: 훈련이 점점 느려진다
인간의 뇌는 이런 방법을 통해 어려서부터 성인이 될 때까지 심도 있는 훈련 과정을 거친다. 하지만 이러한 훈련이 지속되고 결국 딥러닝 훈련 처럼 profit/loss값이 0에 까가워지게 되는 것 같다. 결국 우리가 흔히 느끼는 것 처럼 나이 들수록 감정이 무뎌지고 웬만한 자극에는 놀라지 않게 되고 결국 손실 함수의 값이 0이 되고 더 이상 뇌가 적극적으로 훈련하지 않게 되고, 습관이나 의견이 고착화된다.
좋아하는 음식만 먹고, 좋아하는 음악만 듣고, 좋아하는 행동만 하고 더이상 새로운 것을 배우거나 경험 하지 않고 새로운 것에 대해 거부감을 느끼게 되어 간다. 진보와 보수가 한번 결정되면 쉽게 정치 성향이 바뀌지 않는 것도 같은 이유다. 현재 빌드업 중인 가설이지만 이런 이유로 나이가 들수록 시간도 빨리 가는 것 처럼 느껴지는 것 같다.6 이 주제는 나중에 시간이 되면 에세이로 작성하겠다.
이를 해결하려면 평소에 보상이나 손실 함수의 값이 0보다 크게 될 수 있도록 노력해야 한다. 항상 새로운 걸 배우고, 책을 읽으며, 모든 감각을 사용하고, 비판적이고 과학적인 사고를 해야 한다. 그럼 어떻게 해야할까?
“손실 함수"를 0 이상 만드는 방법
나이가 들면 아무리 주변에서 담배 끊으라, 도박하지 말라, 술 마시지 말라고 해도 지금까지 설명한 뇌의 손실 함수 값이 0이 돼서 아무것도 바뀌지 않는다. 나이 들어 해당 손실 함수를 0 이상으로 만드는 방법이 몇 가지 있는데 다음과 같다.
외부의 강력한 힘(법적 기관 제재, 물리적 강력한 힘)
- 예) 범죄 저지르고 감옥에 가는 것
- 예) 공권력 약해지는 밤에 거리를 지나다 강도 만나거나 폭력 당하는 것
- 예) 가족이나 지인의 극약 처방
자기 자신을 설득하는 것
외부의 강력한 힘으로 담배를 끊을 순 있겠지만, 그런 극단적인 상황은 그 누구도 바라지 않는다.
우리의 어릴 때를 기억해보자. 부모님이 혼냄이나 칭찬에서, 선생님이나 친구들과의 상호 작용에서 우리는 큰 보상/손실을 받았고 우리는 지금도 여러가지 큰 보상이나 손실 함수값이 발생한 이벤트에 대해 지금도 기억한다. 하지만 이제 나이가 들었고 더 이상 이러한 방법을 통한 보상/손실 함수의 큰 값은 우리에게 발생하지 않는다.
결국 남은건 “나” 자신 밖에 없다. 우리는 진화론의 결과물이고 스스로의 개체 생존을 위해 살아간다. 스스로의 생존을 위해 스스로를 설득하고 훈련시키는 것이 남은 방법이다. 20살이 넘으면 자신을 설득할 수 있는 사람은 자기 자신밖에 없다. 자신과의 대화를 통해 “손실 함수” 값을 높이고 “훈련” 할 수 있다.
방법 X: 스스로 혼내는 방법
아마도 어떤 자기 개발서에 비슷한 방법이 써있을거라고 생각한다. 하지만 이건 스스로 생각해내고 실험해 본 방법이다.
첫째, 목표가 명확해야 한다. 예륻 들어 필자는 “AGI의 도래와 그 이후의 세상을 보기 위해 오래 살겠다” -> “담배를 끊겠다"의 과정으로 목표가 정해졌다.
둘째, 스스로 진지하게 화내는 것처럼 큰 소리로 본인을 호통 치고 혼을 낸고 욕을 한다. 자기 목소리에 깜짝 놀랄 정도로 큰 소리여야 한다. 남들이 들으면 싸우는 줄 알 정도로 내야 한다. 내가 낸 말이 공기를 타고 내 귀로 들어가서 깜짝놀랄 정도의 큰 소리가 효과적이라고 생각한다. 방음 잘되는 개인 공간에서 해야 남들한테 이상한 사람으로 오인 받지 않을 수 있다. 자기 뺨 때리거나, 큰 소리로 “이러이러한 걸 하지 않으면 XX 할 거야!“라고 자신을 협박하는 것도 방법이다. 입과 귀라는 여러 감각을 동시에 활성화시켜서 다중 감각 훈련이라고 생각하면 된다. 더 여러 가지 자극(예를 들면 통각)을 동시에 주면 더 효과적으로 뇌에 남을 것이다.
이는 일종의 부정적 강화로 볼 수 있다. 부정적 강화란 어떤 행동을 했을 때 불쾌한 자극을 제거함으로써 그 행동을 더 많이 하게 만드는 걸 말한다.7 스스로에게 고함 지르거나 협박하는 게 불쾌한 자극이 되고, 이를 피하기 위해 원하는 행동(예: 담배 끊는 것)을 더 많이 하게 되는 것이다.
이 방법이 모든 사람에게 적합한 건 아닐 수 있다. 개인의 성격이나 기질에 따라 이런 강압적 방식이 오히려 역효과를 낼 지도 모른다. 자신에게 맞는 방법을 찾아보는 게 중요하다. 어떤 사람은 스스로 격려하고 칭찬하는 게 더 효과적일 수 있다. (모름)
필자는 이 방법으로 사용 했을 경우 이후 무의식적으로 내 손이 담배를 자연스럽게 꺼내고 불을 붙이려고 할 때 머리에 번개처럼 놀람 신호가 들면서 내가 스스로 혼낸 기억이 아주 선명하게 떠올랐고 바로 담배를 잡고 모두 화장실에 털어넣고 버릴 수 있었다. (실화)
결과와 한계
필자는 이 방법으로 담배 끊는 데 성공했고, 다른 몇 가지 나쁜 습관도 고칠 수 있었다.
하지만 시간 지나면 예전 습관이 되살아날 수 있다. 금연의 경우, 10년, 20년 동안 매일 수회씩 하던 행동을 끊는게 쉽지 않은게 너무 당연하다. 20년간 훈련한 결과다. 처음 몇 일은 담배를 보거나 잡을 떄마다 스스로에게 호통을 쳤던 기억이 떠올라서 쉽게 안 필수 있었지만, 2주에서 4주쯤 지나니 훈련 효과가 흐려지기 시작했다. 그래서 이러한 효과 유지하려면 일종의 보수 교육 같은 게 필요하다. 꼭 훈련 효과가 완전히 흐려지기 전에 A/S를 해줘야 한다. 다시 한 번 자신과 진지하게 대화를 나누고, “손실 함수” 값을 높이는 훈련을 해야 한다.
결론
습관 바꾸려면 적절한 자극으로 뇌의 보상 체계를 활성화해야 한다는 것이다. 나이 들수록 이게 쉽지 않아지지만, 그럴 때일수록 의식적 노력이 필요하다. 스스로 설득하고 훈련시키는 게 핵심이지만, 그 방법은 개인에 따라 다를 수 있다.
다만 이 글에서 제안한 방법들이 과학적으로 증명된 건 아니라는 점을 다시 한번 강조하고 싶다. 어디까지나 내 개인의 경험과 생각에 기반한 것이며, 모든 사람에게 보편적으로 적용하기는 어려울 수 있다. 이 글이 습관 바꾸고자 하는 분들께 작은 도움이나마 되길 바란다.
추천 도서:
- 『생각에 관한 생각』 - 대니얼 카너먼8 - 인간의 사고가 어떤식으로 이뤄지고 어떤 오류가 있는지를 이해하고 오류를 줄이는데 도움이 된다.
- 『도파민네이션』 - 애나 렘키9 - 도파민에 대한 이해1
- 『도파민형 인간』 - 대니얼 Z. 리버먼, 마이클 E. 롱10 - 도파민에 대한 이해2
- 『사피엔스』 - 유발 하라리11 - 본문의 주제와 큰 관련이 없지만 2016년에 이 책을 처음 읽었을때 약간 잔잔한 충격을 받았다. 호모 사피엔스의 역사에 대해 깊은 통찰을 얻을 수 있고, “나"란 존재에 대해 철학적 고찰을 해볼 수 있었다.
-
딥러닝은 인공신경망(Artificial Neural Network) 구조를 기반으로 하는 기계학습의 한 분야로, 복잡한 비선형 관계를 모델링할 수 있다는 장점이 있다. 최근에는 컴퓨터 비전, 자연어 처리, 음성 인식 등 다양한 영역에서 뛰어난 성능을 보이고 있다. ↩︎
-
역전파(Backpropagation) 알고리즘은 1974년 Paul Werbos에 의해 처음 제안되었으며, 1986년 Geoffrey Hinton 등에 의해 다층 퍼셉트론(Multi-layer Perceptron)의 학습에 성공적으로 적용되면서 널리 알려지게 되었다. 역전파는 현재 대부분의 딥러닝 모델 학습에 사용되는 핵심 알고리즘이다. ↩︎
-
Lillicrap, T. P., et al. (2020). Backpropagation and the brain. Nature Reviews Neuroscience, 21(6), 335-346. 이 연구에서는 인간 뇌의 학습 과정이 역전파와 유사한 메커니즘을 가지고 있을 가능성에 대해 논의하고 있다. 다만 아직 이에 대한 직접적인 증거는 부족한 상황이며, 추가적인 연구가 필요한 상태이다. https://www.nature.com/articles/s41583-020-0277-3 ↩︎
-
순전파(Forward Propagation)는 입력 데이터가 신경망의 입력층에서 출력층까지 전파되는 과정을 말한다. 이 과정에서 각 층의 뉴런들은 이전 층의 출력과 가중치의 선형 조합에 활성화 함수를 적용하여 다음 층으로 신호를 전달한다. ↩︎
-
Schultz, W., Dayan, P., & Montague, P. R. (1997). A neural substrate of prediction and reward. Science, 275(5306), 1593-1599. 이 연구에서는 도파민 신경세포의 활성이 보상 예측 오류를 코딩한다는 것을 보여주었다. 이는 강화학습(Reinforcement Learning) 이론의 핵심 아이디어 중 하나이기도 하다. ↩︎
-
카너만의 시스템1, 시스템2 생각 이론을 이해하면 되는데 나이가 들수록 시스템1만 사용하게 되고 시스템1은 시간 흐름에 대해 인지 하지 못하는 것 같고, 시스템2만 시간의 흐름을 인지한다고 생각 한다. https://github.com/labforadvancedstudy/paper/blob/main/Time.md ↩︎
-
Skinner, B. F. (1938). The behavior of organisms: An experimental analysis. New York: Appleton-Century. https://www.researchgate.net/publication/313181463_The_behavior_of_organisms_-_Skinner_BF ↩︎
-
Kahneman, D. (2011). 『생각에 관한 생각』. 김영사. 노벨경제학상 수상자인 다니엘 카너먼은 이 책에서 인간의 사고방식을 ‘시스템 1’과 ‘시스템 2’로 구분한다. 시스템 1은 빠르고 직관적이며 무의식적인 사고이고, 시스템 2는 느리고 분석적이며 의식적인 사고이다. 카너먼은 우리가 시스템 1에 의존하는 경향이 있으며, 이로 인해 편향과 오류에 빠지기 쉽다는 점을 다양한 심리학 실험과 사례를 통해 보여준다. 이 책은 우리의 사고 과정을 이해하고 합리적인 의사결정을 내리는 데 도움을 준다. ↩︎
-
렘키, A. (2021). 『도파민네이션: 중독사회를 만든 도파민의 진실』. 나무옆의자. 이 책에서 저자 애나 렘키는 현대 사회에 만연한 중독 문제에 도파민이 어떤 역할을 하는지 설명한다. 스마트폰, 소셜미디어, 음식, 쇼핑 등에 대한 중독이 도파민 보상 회로와 어떻게 연관되어 있는지 과학적 근거를 바탕으로 분석하였다. 나아가 도파민이 우리의 동기, 습관, 의사결정 등에 미치는 영향을 다양한 사례를 통해 조명하고, 건강한 도파민 활용을 위한 실천 방안을 제시한다. ↩︎
-
리버먼, D. Z., & 롱, M. E. (2021). 『도파민형 인간: 뇌과학이 밝힌 인간 행동의 뿌리』. 웅진지식하우스. 이 책은 도파민이 인간의 성격과 행동에 미치는 영향을 뇌과학적 관점에서 설명한다. 저자들은 도파민 시스템의 개인차가 어떻게 서로 다른 성향을 만들어내는지, 그리고 이것이 삶의 다양한 영역에서 어떤 결과로 이어지는지 흥미로운 사례와 함께 분석한다. 또한 도파민 시스템을 조절하기 위한 실용적인 전략들을 소개하며, 독자들이 자신의 도파민형 성격을 이해하고 강점으로 활용할 수 있도록 안내한다. ↩︎
-
하라리, Y. N. (2015). 『사피엔스』. 김영사. 이 책에서 저자 유발 하라리는 인류의 역사를 거시적 관점에서 조망한다. 인지혁명, 농업혁명, 과학혁명이라는 세 가지 주요 혁명을 통해 인류가 어떻게 진화했는지 추적하며, 사피엔스가 지구 생태계의 지배자가 된 과정을 흥미롭게 설명한다. 하라리는 사피엔스의 성공 요인으로 ‘상상의 능력’을 꼽는데, 이는 종교, 화폐, 국가와 같은 집단적 허구를 만들어낼 수 있는 능력이다. 그는 이러한 허구가 대규모 협력을 가능케 함으로써 사피엔스의 번영을 이끌었다고 주장한다. 이 책은 인류의 기원과 발전에 관한 독창적이고 통찰력 있는 시각을 제공한다. ↩︎