HR Insight 공감을 부르는 성과 평가제도, 우리도 만들 수 있을까?
페이지 정보

작성일 24-09-30 11:31 노출일자 24-09-30
본문
올해 잡코리아 조사에 의하면 직장인의 57.1%가 회사의 인사평가가 합당하지 않다고 응답했으며, 인사평가의 영향으로 이직을 고민하거나 실제로 구직활동을 시작한 직장인도 무려 82.7%에 달했다고 한다. 조직의 과반수가 평가에 불만인 현재의 상황을 어떻게 바라봐야 할까?
심리학의 연구결과로 '더닝 크루거 효과'라는 것이 있다. 대표적인 인지 편향 중 하나로, 능력이 부족한 사람들은 본인의 능력을 과대평가하고, 반대로 능력이 뛰어난 사람들은 본인을 과소평가한다는 것이다. 이 이론이 맞다면 적어도 개인 차원에서 주관적으로 공정한 평가는 어쩌면 현실에 존재하지 않는 이데아에 불과할지도 모른다. 평가의 관점을 개인 차원의 '공정'에 대한 불만족이 없는 소극적인 상태로만 접근하면 불만족의 현상은 유지될 뿐이다. 오히려 다소 불만은 있을지 언정 조직이 제시하는 평가의 기준과 절차, 그것을 통해 합리적인 결과가 나왔을 것이라고 신뢰하는 감정의 상태, 즉 구성원의 '공감'이 평가에는 더욱 중요하다고 본다. 그렇다면 구성원이 공감할 수 있는 평가를 어떻게 만들 수 있을까?
공감의 전제 조건은 '성과의 정의'
평가 불만이 많은 조직에서 가장 먼저 생각하는 것은 아마 제도에 대한 개선 작업일 것이다. 실제로 컨설팅을 의뢰하는 기업의 이야기를 들어보면, 최근에 평가 공정성을 높이기 위해 OKR 도입을 고려하는 중이라는 경우가 꽤 많았다. 이는 목적과 수단을 혼동하거나 비중 설정을 잘못한 것이다. 평가의 본질은 성과에 대한 판단이며, 사전에 정의된 '성과'에 대해 깊이 공감할 수 있어야 그 결과인 평가에 대한 공감도 가능하다.
그런 점에서 Microsoft의 사례를 참고해 볼 만하다. Microsoft는 성과를 'Impact'로 정의한다. Impact는 개인이 스스로 달성하는 성취뿐만 아니라 타인의 성공에 영향을 미치는 것까지 포함한다. 이런 정의 하에 구성원들은 자연스레 협업을 일하는 방식의 가장 중요한 요소로 삼고, 개인 차원에만 머무르는 성과에 낮은 평가를 하더라도 수용하게 된다. 물론 전사 차원의 성과를 명확히 정의하고 합의에 이르는 것이 쉬운 일은 아니다.
먼저, IT/제조/금융 등의 특수성이 무엇인지, 그 안에서 영업, 연구, 생산 등 개별 기능의 성과를 어떻게 차별적으로 정의할 수 있을 것인지 고민해 볼 것을 추천한다.
'제도적 합리성'을 고민하라
구성원들에게 합리적이라고 받아들여지는 제도의 틀을 구성하고 운영하는 것도 공감을 이끌어내는 데 매우 중요한 요소다.
급변하는 경영 환경, MZ세대 주도 등 시대 변화에 따라 평가 영역에도 많은 변화가 있었다. 대표적인 내용을 추려보면, 성과관리/피드백, 다면진단, 절대평가 제도로의 개선이 가장 크게 두드러졌다. 관련 변화가 제도적으로 내재화한 <그림1>의 마이크로소프트의 사례를 참고해 보기 바란다.

상시 성과관리와 피드백 |
연중 일어나는 무수한 성과 활동에 대해 연말에 1회 평가하는 것은 근본적으로 구성원의 신뢰를 받기 어려운 일이다. 게다가 중간에 아무런 피드백을 받지 못하다가 예상과는 다른 결과를 받았을 때는 더욱 그렇다. 과거와 달리 고도화된 성과관리 시스템의 도움을 받을 수 있는 현시대에는 유연한 목표 변경, 실시간 피드백을 통해 성과 수준에 대한 상호 공감대를 연중 지속적으로 형성할 수 있다. 다만 이제는 환경이 갖추어진 만큼 형식보다는 내용에 좀 더 집중할 필요가 있다. 단순히 '참 잘했어요' 식의 형식적인 피드백은 구성원의 공감을 얻기 힘들다.
잡코리아 조사에 의하면, MZ세대 직장인이 꼽은 이상적인 상사 유형 1위는 '피드백이 명확한 상사'인 것으로 나타났다.
평소 불편한 피드백이 어려운 리더들은 이런 변화를 받아들이고, 구체적인 성과에 대해 가감 없는 피드백을 시작해 볼 것을 권한다.
다면진단의 장점을 극대화 |
다면진단에 대해 불신하는 조직이 많다. 인기투표로 흐를 가능성에 대한 막연한 불안감과 더불어, 한동안 뉴스를 떠들썩하게 했던 특정 기업에서 발생한 부정적인 사례의 영향도 크다. 하지만 통상 평가 불만의 가장 큰 이유가 평가자 한 사람의 주관에 치우친 평가라는 점에서, 다면진단은 여전히 구성원의 공감을 이끌어내는 데 충분히 매력적인 방식임은 분명하다.
이때문에 최근에는 다면진단을 실시하되 장∙단점 키워드를 선택하거나, 점수화를 철저히 배제하고 서술형 피드백만 제공하는 등 제도적 장점을 극대화할 수 있는 방안을 고민하는 추세다. 여기서 더 나아가 다면 진단을 아예 평가의 주된 방식으로 운영하는 사례도 있다.
넷플릭스는 전통적인 연간 평가를 360도 피드백으로 완전히 대체했다. 직원은 최소 10명 이상의 동료에게 피드백을 제공해야 하며, 피드백을 작성하는 텍스트 필드가 곧 평가등급이 된다.
조직의 상황에 맞춘 절대평가 |
오랜 시간 성과와 평가(등급) 간 괴리를 일으키는 주범으로 상대평가가 지목되었다. 평가 관대화에 대한 우려, 연계되는 과보상 이슈로 인해 대부분 절대평가 전환을 시기상조로 생각했던 것이 불과 수년 전의 일이다.
하지만 현시대 구성원들은 다른 누군가의 성과로 인해 내 평가가, 그것도 사후적으로 조정되는 방식에 더 이상 공감하지 않는다. 일부 등급의 상대화를 인정하는 제한적 절대평가, 등급 분포에 따라 보상을 연동하는 시뮬레이션 등 많은 연구 결과가 축적되고 있는 만큼 절대평가 도입에 더 이상 주저할 이유는 없다.
흥미로운 연구를 잠깐 소개하자면, 컨설팅을 진행한 S 그룹의 경우 절대평가 전환 이후 수년간 평가등급 분포에 대해 추적 조사를 진행한 바 있다. 결과는 애초 우려와는 다르게 아주 약간의 상향 평가(A등급 비중이 약 5% 상승)가 있었지만 전체적인 평가 오류를 발견하지 못했다.
물론 기업 특성과 리더십, 평가 관행이 반영된 결과이므로 해석은 각자의 판단에 맡긴다.
상호 이익의 매커니즘
수직적이고 일방적인 관계에서 진정한 공감은 발현하기 어렵다. 조직의 관점에서 불공정 요소를 제거하는 것은 위생요인(hygiene factor)에 불과하다. 진정한 공감은 상호 신뢰에 바탕을 둔 자발적인 참여를 전제로 하는데, 자발성은 개인적 이익과 같은 동기요인(motivator)이 있을 때
더 잘 발현된다.
최근 트렌드 중 하나를 예시로 한 번 생각해 보자. 최근까지 많은 기업에서 직무역량은 개인의 수준을 등급화하고, 종합점수로 합산해서 일괄적으로 보상과 승진에 기계적으로 연동하는, 지극히 조직 관점의 평가요소로 운영되었다.
반면에 최근 대두되는 'Skill-based HR'은, 조직 관점에서 스킬 갭(skill gap)을 파악할 수 있고 채용과 배치 등에 활용할 수 있는 것은 물론이지만, 개인화되고 세분화된 스킬 셋(skill set)은 자신이 보유한 스킬과 연관성 있는 구체적 경력 기회를 주도적으로 탐색하고, 스킬의 중요도에 따라 보상을 차별화할 수 있는 수단으로 활용할 수 있다.
양자의 사례를 비교해 보면 어느 제도 하의 구성원들이 직무평가에 보다 공감하고 적극적으로 참여할지는 명약관화한 일이다.
이런 관점에서 HR은 평가의 전 과정에서 발생하는 개별 활동들이 구성원의 성장과 보상과 같은 구체적인 이익을 제공하는 매력적인 컨텐츠를 담고 있는지 한 번 검토해 보면 좋을 것이다.
AI 시대에도 평가의 본질은 '사람'
챗GPT가 공식적으로 발표된 지 만 2년이 채 지나지 않은 현재, HR 영역의 AI 도입 속도는 가히 놀라운 수준이다. 평가 영역에서도 AI를 활용해 공정성을 확보하려는 시도들이 계속되고 있다. 실제로 AI 활용의 장점이 충분히 예측되는 분야도 있다. 연간 성과 데이터를 요약하는 일, 커뮤니케이션 및 협업 패턴을 분석하는 일, 피드백 초안을 작성하는 일 등은 활용에 따라 평가의 합리적 근거 확보에 크게 기여할 수 있다.
AI가 이와 같은 보조적 역할을 넘어 인간의 평가를 '대체'할 수 있는가는 또 다른 차원의 문제다. 먼 미래의 일처럼 느껴질 수 있지만,
이미 이러한 방향의 시도는 진행 중인 것으로 보인다. G사가 소개하는 AI솔루션은 직무역량 수준을 진단할 수 있는 문항을 AI가 출제하고, 모범답안과 평가 기준을 제시하고, 그 결과에 대해 분석하고 평가의견을 제시한다.
개인적으로는 최근 대표적인 AI 거대 언어 모델(LLM) 몇 가지에 대해 샘플 테스트를 진행하면서 생성형 AI가 거짓 정보를 사실인 것처럼 생성해 전달하는 할루시네이션(hallucination) 현상과 같은 다양한 형태의 오류를 직접 경험했다. 향후 AI 평가에 대한 개발이 진행된다면 그 전제 조건으로 AI 모델 자체에 대한 신뢰성 검증은 남아있는 매우 큰 숙제로 보인다.
결국 AI가 평가하는 시대가 온다면 인간은 어떤 반응을 보일까? AI가 내놓는 평가 결과에 기꺼이 공감할 수 있을까?
최근에 미국 코넬대에서는 재미있는 실험을 진행했다. 결과를 요약해 보면 AI가 평가한다고 생각하는 것만으로도 창의적인 아이디어를 제시하거나 자율적으로 일하는 비율이 떨어졌으며, 동일한 피드백을 하는 경우에도 사람이 피드백하는 대조군 대비 AI의 피드백에 불만을 표하는 비율이 23% 더 높았다. 실험을 통해 파악할 수 있는 가장 큰 시사점은 AI 시대에도 평가의 본질은 결국 사람에 대한 일이며, 진정한 공감은 결국 감정의 문제라는 점이다. 최근의 놀라운 기술 발전은 사람의 시선과 표정을 추적하고, 목소리의 억양을 파악하며 긍정적인 단어 사용의 빈도를 분석할 수 있지만,
화면 너머의 대상은 감정을 지닌 사람이라는 사실을 결코 잊으면 안 된다.
구성원이 진정으로 공감할 수 있는 평가는 그럴듯한 제도들의 짜집기로는 만들 수 없다. 성과의 본질에 대한 명확한 합의 아래 합리적 제도의 기틀을 세우고, 상호 이익의 매커니즘과 기술의 문제를 고려하는 총체적인 접근법이 필요하다. 그리고 무엇보다 중요한 것은 구성원을 단순히 평가의 대상이 아닌, 주도적 참여자이자 사람으로서 긍정적인 감정을 이끌어낼 수 있는 HR의 섬세함이 필요하다.
by HCG Consulting BU 홍전표 상무(jphong@e-hcg.com)
- 이전글HR리브랜딩을 통해 알 수 있는 HR의 역할 변화 24.12.11
- 다음글시스템화되고 있는 직원경험 24.07.10