심리학 공부/심리학 입문

[Simply Psychology] 행동주의: 조작적 조건 형성

멜리비 2019. 5. 30. 06:51

원문 보기: http://www.simplypsychology.org/operant-conditioning.html

1920년대에 이르러, John B. Watson은 심리학계를 떠났고 다른 행동주의자들이 영향력을 얻기 시작하여, 고전적 조건 형성 이외에 다른 학습 방법에 대해 제안하기 시작하였다. 이중에서 가장 중요한 행동주의 학자는 아마도 Burrhus Frederic Skinner (B.F. Skinner)일 것이다.

Skinner의 관점은 Watson (1913)에 비해 조금 덜 극단적이었다. Skinner는 사람에게 이성이 있기는 하나, 내면의 과정을 연구하는 것보다는 외부의 행동을 관찰하는 것이 더욱 생산적이기 때문에 그쪽에 집중해야 한다고 보았다.

Skinner의 연구 활동의 기저에는 복잡한 인간의 행동을 설명하기에 고전적 조건 형성 이론은 너무 단순하다는 전제가 깔려 있었다. 그는 행동을 이해하는 가장 좋은 방법은 행동의 원인과 결과를 살펴보는 것이라고 주장하였다. 그는 이 접근법을 조작적 조건 형성이라고 하였다.

조작적 조건 형성은 조작(operant)으로 설명할 수 있다. 조작이란, 주변 환경에 영향을 미칠 수 있는 의도된 행동을 말한다. Skinner는 특정 조작적 행동이 나타날 확률에 영향을 끼칠 만한 과정을 찾아내는 데에 노력을 집중하였다.

B.F. Skinner: 조작적 조건 형성

Skinner는 조작적 조건 형성의 아버지라 일컬어지지만, 그의 연구 활동은 Thorndike의 효과의 법칙(law of effect, 1905)에 기반하고 있다. Skinner는 효과의 법칙에 이어, 강화(Reinforcement) 개념을 소개하였다. 강화된 행동은 대체로 반복될 가능성이 높아지고, 강화되지 않은 행동은 점점 소멸되는 경향이 있다.

Skinner(1948)는 Thorndike의 퍼즐 박스와 유사한 ‘Skinner Box’에 동물을 넣어 조작적 조건 형성에 관한 실험을 진행하였다.

B.F. Skinner (1938)는 조작적 조건 형성이라는 용어를 고안하였다. 이 용어의 의미는 대략 원하는 반응이 나왔을 때 강화를 함으로써 행동을 변화시키는 것을 의미한다. Skinner는 행동 이후에 주어질 수 있는 반응, 혹은 조작을 세 가지로 분류하였다.

• 중립적 조작: 환경으로부터 주어지는 반응 중 행동이 반복될 확률을 높이지도, 낮추지도 않는 반응.

• 강화 조작: 환경으로부터 주어지는 반응 중 특정 행동이 반복될 확률을 높이는 반응. 강화는 긍정적일 수도, 부정적일 수도 있다.

• 처벌 조작: 환경으로부터 주어지는 반응 중 행동이 반복될 가능성을 낮추는 반응. 처벌은 행동을 약화시킨다.

우리 모두 어린 시절 강화 조작과 처벌 조작으로 인해 행동에 영향 받은 경험이 있을 것이다. 어린 아이였을 때 누구나 다양한 행동을 실험해보고 그 결과에 대해 학습한다.

예를 들어, 학생 때 학교에서 담배 피우기를 시도하였고, 그 결과 원하던 그룹의 친구들과 어울릴 수 있게 되는 결과를 경험하였다면, 담배 피우는 행동에 대해 긍정적인 강화를 받았을 것이고, 아마도 그 행동을 반복하게 되었을 것이다.

하지만, 담배 피우다 걸려서 학교에서 정학 당하고 부모님이 개입하게 되었다면, 당신은 아마도 처벌을 받았을 것이고, 아마도 현재 담배를 피울 확률이 낮아졌을 것이다.

긍정적 강화 조작

Skinner는 배고픈 쥐를 Skinner Box에 넣음으로써 긍정적인 강화 조작이 일어나는 과정을 보여주었다. 이 박스의 측면에는 레버가 있어 쥐가 박스 안을 돌아다니다 보면 레버를 조금씩 건드리게 되어 있었다. 쥐가 레버와 부딪히는 순간, 레버 옆의 먹이통에 사료 한 점이 떨어졌다.

쥐는 박스 안에 몇 번 넣어두고 나니 곧바로 레버로 가서 누르는 행동을 학습하게 되었다. 레버를 누르면 사료가 나온다는 사실을 학습한 후부터, 쥐들은 레버를 반복하여 누르게 되었다.

긍정적 강화는 개인이 보람을 느끼는 결과를 제공함으로써 특정 행동을 강화한다. 예를 들어, 숙제를 해올 때마다 선생님이 1천원을 준다면, 아마도 미래에도 이 행동을 반복할 가능성이 크다. 그리하여 숙제를 완성하는 행동이 강화된다.

부정적 강화

불쾌한 강화를 제거하는 것 또한 행동을 강화할 수 있다. 부정적인 자극을 제거하여 대상이 되는 동물, 혹은 사람이 보람을 느끼게 하기 때문에 부정적 강화라 불린다. 부정적 강화는 불쾌한 경험을 그치게 하거나 제거하기 때문에 행동을 강화한다.

예를 들어, 당신이 숙제를 하지 않을 경우 선생님에게 1천원을 줘야 한다고 한다면, 1천원을 내는 것을 피하기 위해 숙제를 해올 것이다. 이로써 숙제를 해오는 행동이 강화된다.

Skinner는 Skinner Box 안에 쥐를 넣고 불쾌한 전기 자극을 계속 가하였다. 쥐가 박스 안을 돌아다니다가 레버에 우연히 부딪히면, 그 전기 자극은 즉시 멈추었다. 쥐들은 몇 번 박스에 들어간 경험을 하고 나서부터 곧장 레버를 찾아 누르는 법을 학습하였다. 전기 자극을 피할 수 있다는 사실은 쥐로 하여금 레버를 누른 행동을 반복하도록 만들었다.

나아가, Skinner는 쥐들이 전기 자극이 시작되기 직전에 불을 켜서 전기 자극을 피하는 법을 가르치기도 하였다. 쥐들은 레버를 눌러 불을 켜서 전기 자극이 시작되는 것을 방지하는 것을 학습하였다.

이 두 가지 학습된 반응을 도피 학습 (Escape Learning)과 회피 학습 (Avoidance Learning)이라고 한다.

처벌 조작 (행동을 약화시킨다)

처벌 조작은 강화 조작의 반대로 정의되며, 특정 반응을 더 유도하기보다는 약화시키거나 제거하기 위해 고안된 것이다. 이는 뒤따르는 행동을 감소시키는 부정적인 사건이다.

강화와 마찬가지로, 처벌은 특정 반응 이후에 전기 충격과 같은 불쾌한 자극을 직접 적용하거나, 긍정적인 자극을 제거함으로써 작용한다. 예를 들어, 원치 않는 행동을 한 사람에게서 용돈을 빼앗는 등의 행동을 말한다.

유의점: 처벌 조작과 부정적 강화는 때로 구분하기 어려울 수 있다.

하지만 처벌을 활용할 때에는 다음과 같은 문제점이 있을 수 있다:

• 처벌된 행동은 잊혀지는 것이 아니라, 억눌러지므로, 처벌이 사라지면 행동은 재개된다.

• 공격적인 방법으로 문제를 해결함으로써 공격성 증대를 유도한다.

• 바람직하지 않은 행동으로 이어질 수 있는 두려움으로 일반화될 수 있다 (예를 들어, 학교 전반에 대한 두려움)

• 바람직한 행동으로 반드시 이어지지 않는다. 강화는 바람직한 행동을 유도하지만, 처벌은 오직 해서는 안 되는 행동이 무엇인지만 알려줄 뿐이다.

강화 계획 (Reinforcement Schedule)

Skinner Box 속의 쥐를 상상해 보라. 조작적 조건 형성에서는 레버를 누른 후 사료가 즉시 제공되지 않는다면, 쥐는 레버를 몇 번 누르는 시도를 하다가 곧 그 행동을 멈출 것이다. 또 다른 예로 사장이 직원들에게 월급을 주지 않는다면, 몇 달 후에는 직원들이 일하기를 멈출 것이다. 이로써 행동은 소멸한다.

행동주의자들은 강화의 패턴을 달리하면 학습과 소멸의 속도에 영향을 미칠 수 있다는 사실을 발견하였다. Ferster와 Skinner (1957)은 강화를 적용하는 다양한 방식을 고안하여, 다음 요소에 영향이 있다는 사실을 알아냈다:

1. 반응 속도 – 쥐가 레버를 반복해서 누른 속도 (쥐가 얼만큼 열심히 노력하는지)

2. 소멸 속도 – 레버를 누른 행위가 얼만큼 빨리 소멸하는지 (쥐가 얼만큼 빨리 포기하는지)

Skinner는 소멸의 속도를 가장 늦추는 강화는 변동비율강화 (variable-ratio reinforcement)로, 이 방식을 사용할 경우 강화가 멈춘 이후에도 행동을 반복할 가능성이 높아진다는 사실을 알아냈다. 이후 행동이 가장 빨리 소멸하는 강화 방법은 연속 강화 (continuous reinforcement)이다.

(A) 연속 강화 (Continuous Reinforcement)

동물/인간이 특정 행동을 할 때마다 긍정적인 강화를 받는다면, 예를 들어 레버를 누를 때마다 사료가 제공되다가 사료 제공이 멈출 경우,

• 반응 속도는 느리고

• 소멸 속도는 빠르다

(B) 고정비율 강화 (Fixed Ratio Reinforcement)

행동이 특정 횟수만큼 반복된 이후에만 강화가 제공된다면, 예를 들어 어린이가 단어 철자를 5번 연속으로 올바르게 적었을 경우 별을 한 개씩 받는다면,

• 반응 속도는 빠르고

• 소멸 속도는 보통이다

(C) 고정간격 강화 (Fixed Interval Reinforcement)

고정된 기간 동안, 한 번이라도 원하는 반응이 나왔을 경우 한 번의 강화가 주어진다. 예를 들어 시급으로 봉급을 지급하는 경우가 있다. 또 다른 예로, 매 15분, 혹은 매 시간, 레버를 한번이라도 눌렀다면 사료가 제공되고, 다시 사료 제공이 중단된다.

• 반응 속도는 보통이고

• 소멸 속도는 보통이다

(D) 변동비율 강화 (Variable Ratio Reinforcement)

예측할 수 없는 반복 횟수 이후에 행동 강화가 이루어진다. 예를 들어 도박이나 낚시의 경우,

• 반응 속도는 빠르고

• 소멸 속도는 느리다 (예측할 수 없기 때문에 소멸이 매우 어렵다)

(E) 변동간격 강화 (Variable Interval Reinforcement)

한번의 올바른 반응을 했을 경우, 일정치 않은 간격 이후에 강화가 주어진다. 예를 들어 자영업자가 일정치 않은 간격으로 돈을 받는 경우

• 반응 속도는 빠르고

• 소멸 속도는 느리다

행동 형성 (Behavior Shaping)

Skinner (1951)가 기여한 또 다른 주요 개념은 연속적 접근 (successive approximation)을 통한 행동 형성이다. Skinner는 조작적 조건 형성의 원리를 이용하여, 생물체가 바람직한 행동에 근접하도록 강화와 처벌이 적절히 제공된다면, 극도로 복잡한 행동도 유도할 수 있다고 주장하였다.

그러기 위해서는 보상을 받기 위한 조건이 생물체가 바람직한 행동에 근접할 때마다 변경되어야 한다.

Skinner는 동물과 사람의 행동이 대부분 (언어를 포함해서) 이런 식의 연속적 접근으로 설명될 수 있다고 보았다.

행동 수정 (Behavior Modification)

행동 수정이란 조작적 조건 형성 이론에 기반한 일련의 치료 요법을 말한다 (Skinner, 1938, 1953). 주요 원칙은 특정인의 행동과 관련된 환경적인 사건을 변화시키는 데에 있다. 예를 들어, 바람직한 행동을 강화하고, 바람직하지 않은 행동을 무시하거나 처벌하는 것이다.

이는 사실 생각만큼 간단한 일이 아니다. 원하는 행동을 언제나 강화하는 것은 뇌물을 주는 것과 별반 다를 것이 없다.

긍정적 강화에는 다양한 종류가 있다. 1차적 강화는 강화 자체로 행동을 강화할 때를 말한다. 2차적 강화란 1차적 강화로 이어지기 때문에 행동이 강화될 때를 의미한다.

행동 수정 요법에는 토큰 경제와 행동 형성 방식이 있다.

토큰 경제 (Token Economy)

토큰 경제란 목적한 행동을 토큰 (2차적 강화)를 통해 강화되고, 이후에 보상 (1차적 강화)와 맞바꾸는 체제를 말한다.

토큰으로는 가짜 돈이나 딱지, 포커 칩, 스티커 등을 활용할 수 있다. 보상 자체는 간식이나 특권, 혹은 좋아하는 활동이 될 수 있다.

토큰 경제는 정신 의학 환자를 치료하는 데 매우 효과적이다. 하지만, 환자들이 토큰에 지나치게 의존함으로써 그들이 감옥, 병원 등의 시설을 떠난 이후에 사회에 적응하는데 어려움을 겪기도 한다.

교사들 또한 초등학교에서 어린 학생들이 바람직한 행동을 보였을 때 스티커를 줌으로써 원하는 행동에 대해 보상을 준다.

교육적 활용

전통적인 학습 환경에서 조작적 조건 형성은 대체로, 학습 내용 자체보다는 학급과 학생 관리 및 운영과 관련이 있다. 조작적 조건 형성은 기술 능력 향상과 관련이 매우 깊다.

행동을 수정하는 아주 간단한 방법은 학습자의 행동에 대해 피드백을 주는 것이다. 예를 들어 칭찬, 격려, 긍정과 같은 반응을 보이는 것이다. 학생들에게 새로운 과업을 가르칠 때에는 변동비율 강화를 통해 가장 빠른 반응을 유도할 수 있다. 처음에는 강화를 자주 해주다가, 숙달이 어느 정도 되면 강화의 빈도를 줄이고, 숙달이 많이 된 후에는 아주 뛰어난 성과를 보였을 때에만 강화를 주는 방식이다.

예를 들어, 교사가 수업 중 학생들이 질문에 답하는 빈도를 높이고 싶다면, 처음에는 학생이 질문을 시도할 때마다 칭찬을 하다가 (답이 틀렸더라도), 점차 갈수록 답이 올바르거나, 아주 뛰어난 답변을 했을 때에만 칭찬을 하는 쪽으로 바뀔 것이다.

지각이나 토론 시간에 토론을 독점하는 행위 등 원치 않은 행동을 소멸하게 하려면, 교사가 관심을 주어 강화하기 보다는 그 행위를 무시하여 소멸을 유도할 수 있다.

성공을 인식하는 것 또한 이후의 학습에 동기를 부여해주기 때문에 중요하다. 하지만 강화할 때에는 행동을 유지하기 위해 강화의 종류에 유의해야 한다. 교사가 자신의 행동에 대해 너무 많이 생각하다 보면 가식적으로 보일 수도 있기 때문에, 이는 쉬운 일이 아니다.

조작적 조건 형성 개요

비둘기나 쥐의 행동에 대한 Skinner의 고전적 연구를 살펴보면, 행동주의 접근의 대전제를 몇 알아볼 수 있다:

• 심리학은 과학 분야로, 과학적인 방식으로 연구되어야 한다. Skinner의 쥐에 관한 연구는 철저히 통제된 연구실 조건 하에서 수행되었다.

• 행동주의는 특히 사고나 감정과 같은 내적인 사건이 아닌, 관측 가능한 행동이 주된 관심사다. Skinner는 쥐들이 음식을 원했기 때문에 레버를 눌렀다고 말하지 않은 점에 주목할 만하다. 그는 대신 쥐들이 학습한 관측 가능한 행동에만 집중하였다.

• 인간 행동에 영향을 가장 크게 미치는 것은 환경이다. Skinner의 연구에서, 음식이 특정 행동 패턴을 따라 제공되기 때문에, 쥐들은 그 행동을 반복하도록 학습하였고, 이를 조작적 조건 형성이라 본다.

• 사람과 동물의 학습 과정은 크게 다르지 않다. 그러므로 조작적 조건 형성에 대한 연구는 동물과 사람 모두에게 실행될 수 있다. Skinner는 사람이 행동을 학습하는 과정이 쥐가 레버를 누르는 것을 학습하는 과정과 같다고 보았다.

당신이 평소에 가지고 있던 심리학에 대한 이미지가 연구실에서 흰색 가운을 입은 연구원들이 쥐들로 하여금 저녁을 먹기 위해 복잡한 미로를 통과하도록 해놓고 관찰하는, 그런 이미지라면, 당신은 아마도 행동주의 심리학을 떠올리는 것일 거다.

행동주의와 그에서 파생되어 나온 분야들은 심리학 분야 중 가장 과학적이라고 볼 수 있다. 행동주의 심리학의 주요 관심사는 우리가 특정 행동을 학습하는 방법에 관한 것이다. 우리는 쉬지 않고 새로운 행동을 학습하고, 이미 학습된 행동을 수정하는 법을 학습해 나간다. 행동주의 심리학은 이 학습이 일어나는 과정에 집중하는 심리학적인 접근법이다.

비평

조작적 조건 형성 이론으로 학습, 중독, 언어 습득 등 매우 다양한 행동 종류에 대해 설명을 할 수 있다. 또한 토큰 경제와 같이 실용적 가치도 있어 학교나 감옥, 정신 의학 병원에서 활용도가 높다.

하지만, 조작적 조건 형성은 유전적으로 타고났거나 인지 요소에 대해서는 전혀 감안하지 않는다. 따라서 사람과 동물의 학습 과정에 관한 불완전한 설명만을 제공한다고 볼 수 있다.

예를 들어 Kohler (1924)는 영장류들은 시행착오를 통해 학습하기 보다는 순간적인 통찰에 의해 문제를 해결하는 것처럼 보인다는 사실을 알아냈다. 도한 사회 학습 이론 (Bandura, 1977)에서는 인간이 개인적인 경험보다는 관찰을 통해 학습을 주로 한다고 주장하기도 하였다.

연구 과정에서 동물을 사용함으로써 확대 적용에 관한 문제가 지적되곤 한다. 어떤 심리학자들은 동물과 사람은 신체적으로나 생리적으로나 서로 다르기 때문에, 동물에 대해 진행된 연구를 사람에게 확대 적용해서는 안 된다고 주장한다. 사람과 달리, 동물은 자신의 경험에 대해 사고하거나 이성을 활용하거나, 인내심, 기억, 혹은 자기 위안 등의 정신적 행위를 하지 못하기 때문이다.