최종편집 : 2020.9.20 일 11:13
인기검색어 : 등록금 반환, 코로나19, 조교 문제
신문사소개 | 호수별 기사보기
> 뉴스 > 학술 서평 > 과학소묘
     
[과학소묘] 인공지능 의사결정의 편향 문제
데이터셋 편향의 문제, 어떻게 논쟁할 것인가?
[213호] 2020년 09월 21일 (월) 오요한 렌슬리어 공과대(RPI) 과학기술학과 박사과정
   
  △ 사진출처 : Pixabay  

   인공지능, 알고리즘, 그리고 자동화된 시스템이 내리는 의사결정의 결과는 중립적이고 불평 부당한가? 2010년대 중반 이후 여러 탐사보도 및 연구 결과들은 미국 등의 사법, 치안, 국토안보 사례에 기초하여 인공지능 의사결정 시스템의 차별적·편향적 결과들을 지적해왔다. 한 예로 MIT Media Lab의 조이 부오라뮈니(Joy Buolamwini)와 구글 윤리적 인공지능 팀의 공동 테크니컬 리드 팀닛 게브루(Timnit Gebru), 두 아프리카계 여성 연구자는 Microsoft, Face++, IBM 세 개의 얼굴인식 소프트웨어의 정확도를 조사했다 (“Gender Shade”, 2018). 아프리카 3개국, 유럽 3개국 사람들 1,270장의 얼굴 사진을 대상으로, 젠더(여/남) 그리고 피츠패트릭 피부 유형(6단계)에 따라 조사되었다. 종합 정확도는 회사에 따라 87.9-93.7% 수준이었지만, 여성 얼굴은 남성에 비해 정확도가 8.1-20.6% 가량 낮았고, 제6유형의 가장 어두운 피부 여성에 대해서는 53.2-75.0%의 가장 낮은 정확도를 보였다. 이후 IBM 등의 테크 회사 등은 다양성을 늘린 얼굴 인식 데이터셋 배포 등의 노력을 해오다가, 올 6월 초 IBM, 아마존, Microsoft 등 대표적인 테크 기업들이 얼굴인식 소프트웨어의 개발 혹은 경찰 판매를 중단하거나 일시정지하겠다고 잇따라 발표했다.

   인공지능의 차별·편향 문제의 해결책 중 하나로 인공지능 연구의 “재료”의 편향, 즉 기계학습(ML)에 사용되는 대량의 데이터셋이 이미 내포하고 있는 편향을 어떻게 최소화할지에 대한 연구가 주목받는다. 뉴욕대학교 컴퓨터과학자 조경현은 지난 8월 자신의 블로그에 올린 글 “Social impacts & bias of AI”에서 인공지능의 사회적 영향 및 편향에 대한 네 가지 주요 주제를 다음과 같이 간추려 제시했다. 기술에 반영된 사회의 특징이 기술을 통해 “증폭”된다, 인공지능/ML 시스템의 모델이 “이해 불투명”하다, 데이터가 수집되고 데이터셋이 구성되는 단계에서의 “선택 편향”이 생긴다, 학습모델이 인과 관계와 체계적 일반화가 아닌 “상관관계”를 도출하는 데에 머무른다.

   그렇다면 인공지능 연구자들이 데이터셋 편향에 어떻게, 어디까지 관여해야 할까? 이에는 연구자들 사이의 온도 차가 존재한다. 심층학습의 3대 거장 중 한 명인 얀 르쿤(Yann LeCun)이 지난 6월 21일 다른 사람의 트윗을 인용하며 의견을 덧붙였다. 르쿤은, 낮은 해상도의 오바마 대통령의 얼굴이 입력되어 업스케일링 알고리즘을 거치자 높은 해상도의 백인 남성의 얼굴이 출력된 이미지를 인용하며, “데이터가 편향될 때, ML 시스템이 편향된다. 이 얼굴 업스케일링 시스템은 모든 사람을 백인처럼 생기게 만든다. 왜냐하면 신경망을 사전훈련시킨 FlickFaceHQ에 주로 백인 사진들만 있기 때문이다. 정확히 똑같은 시스템을 세네갈 데이터셋으로 훈련시켜 보라, 그러면 모두 아프리카인으로 보일 것이다.”

   신경망의 훈련데이터에 대한 과적합(overfitting) 문제를 지적한 내용 자체로는 일견 문제 될 것이 없어 보인다. 하지만 게브루가 르쿤의 트윗을 인용하며 논쟁이 시작되었다. 게브루는 “이 프레이밍에 질렸다 … 많은 사람이 설명해왔다”면서, “당신은 ML이 일으킨 피해를 단지 데이터셋 편향으로 환원할 수 없다”고 트윗했다. 그는 뒤이어 “전 세계적으로 시위가 벌어지고 있는데도 불구하고(5월 25일 조지 플로이드가 경찰의 과잉진압 때문에 질식사한 뒤 벌어진 시위를 암시), 사람들은 우리의 목소리를 듣거나, 우리에게서 배우려고 하지 않는다. 그들은 자신들이 모든 것에 전문가라고 전제한다. … 루하 벤자민 같은 연구자들에게 배우라”라고 연이어 트윗했다. 요컨대 데이터셋의 편향에 책임을 전가하고 손을 씻을 것이 아니라, 그렇게 편향된 데이터셋이 이를 야기한 사회 구조적 차별이라는 보다 큰 문제의 부분이자 결과임을 인식하고, 차별받아온 이들의 시선에서 비롯된 문제제기 및 해결책들에 귀를 기울이라는 것이다. 일례로 게브루가 포함된 구글 및 토론토대학교 공동 연구진은 ML 모델의 훈련된 데이터의 상세 및 개발 의도를 모델과 함께 배포함으로써 맥락을 벗어난 오용을 줄일 수 있는 체계를 제안했다 (“Model Cards for Model Reporting”, 2019).

   이에 르쿤은 자신이 의도했던 바와 데이터셋의 편향을 탐지하고 최소화할 수 있는 몇 가지 연구 결과를 17개의 트윗에 걸쳐 설명했다. 그중 마지막 두 트윗에서 르쿤은 우리 같은 과학자들은 비감정적이고 이성적인 방식으로 이런 질문들의 핵심을 논의하려 노력해야 한다고 덧붙이는 것을 잊지 않았다. 어떤 이는 르쿤을, 다른 이는 게브루를 비판했다. 논란이 일단락 된 것은 6월 25일 르쿤이 트윗을 올려, 자신은 게브루의 인공지능 윤리·공정성 연구를 존경한다고 밝히며, 자신이 커뮤니케이션한 방식이 트위터에서 화젯거리가 된 것에 대해 사과한 때였다. 공교롭게도 이들의 설전이 진행 중이던 6월 24일, 얼굴인식 소프트웨어의 부정확한 성능과 미국 디트로이트 시 경찰 당국의 수사 절차 미준수로 인해 무고한 시민이 범죄자로 오인되어 체포된 최초의 사례가 뉴욕타임스를 통해 보도됐다.

   소위 ‘데이터 3법’ 개정으로 인해 한국 기업들은 통계 목적, 과학적 연구, 공익적 기록 보존 등을 위해 정보 주체의 동의 없이 개인정보를 처리 및 결합할 수 있게 되었다. “과학적 연구”라는 목적이 빅데이터/ML 연구자들에게 동의 절차라는 ‘규제’에 대한 면벌부가 될 수 있을까? 앞서 살펴본 논쟁들은 빅데이터/ML 연구자들의 책임을 면제할 것이 아니라, 그들에게 더 많은 책임을 요구해야 함을 시사한다. 소위 ‘과학적 연구’라 불리는 것에서 편향 및 차별의 중립지대란 없기 때문이다.    

ⓒ 동국대학원신문(http://www.dgugspress.com) 무단전재 및 재배포금지 | 저작권문의  

     
전체기사의견(0)  
 
   * 200자까지 쓰실 수 있습니다. (현재 0 byte/최대 400byte)
   * 욕설등 인신공격성 글은 삭제 합니다. [운영원칙]
전체기사의견(0)
페이스북 방문해 주세요!
더 많은 이야기들이 기다리고 있습니다
교육방송국 동국대학원신문 동대신문 동국포스트
동국대홈동국미디어컨텐츠 센터동대신문교육방송국동국포스트개인정보처리방침청소년보호정책이메일무단수집거부
04620 서울특별시 중구 필동로 1길 30 동국대학교 학술관 3층 대학원신문 | 전화 : 02-2260-8762 | 팩스 : 02-2260-8762
발행인 : 윤성이 | 편집인 : 이경식 | 편집장 : 김태환 | 발행처 : 동국대학교 대학미디어센터 | 청소년보호책임자 : 이경식
Copyright DGUGSPRESS. All rights reserved. mail to dgupress@dongguk.edu