스탠포드 HAI AI 인덱스 2021 2) Technical Performance

스탠포드 대학교 HAI(Human-centered Artificial Intelligence)에서 2017년 부터 매년 AI의 기술개발 진행상황과 AI가 사회 전반적인 부분에 미치는 영향에 대해서 분석하는 방대한 내용의 보고서를 발간하고 있습니다. 2021년에는 3월에 발표하였으며 오늘은 보고서 두 번째 챕터의 내용인 “Technical Performance”에 대한 내용을 요약해봅니다.

Key Takeaways 

  • 데이타셋은 커지고, 알고리즘과 하드웨어는 꾸준히 발전하면서 image classification의 accuracy는 증가하고 training time은 단축되고 있음. 
  • 생성된 이미지(image generation)는 실제 이미지와 매우 비슷해졌고 이러한 기술로 영상을 만들어서 악용하는 경우까지 생겨서 이를 감지하는 기술(deepfake detection)이 등장함
  • Natural language processing이 괄목하게 발전하여서 Google 검색엔진 같이 대규모 프로젝트에도 사용이 되고 있음
  • 도메인을 넘어서 protein folding같은 헬스케어 분야의 문제에도 AI가 사용되면서 structural biology의 오랜 난제를 해결함 

1. Computer Vision - Image

1.1 Image Classification

2010년 대에 들어서 image recognition / classification 분야는 전통적인 AI 방식에서 머신러닝, 특히 딥러닝에 기반을 두기 시작하였음. 비싸고 도메인에 특화된 기술이었던 image recognition은 알고리즘, 컴퓨터 하드웨어, 더 큰 데이터셋 등의 활용 등의 기반기술의 발전으로 더 저렴해지고 다양한 영역에서 활용가능해지기 시작함. 

2009년에 스탠포드 대학교와 프린스턴 대학교의 컴퓨터 과학자들이 ImageNet을 만들었음. ImageNet은 연구자들이 AI 알고리즘을 훈련시킬 수 있게 도와주는  데이터베이스이며 ImageNet을 통한 연구자들의 경쟁을 통해서 보편적으로 사용되는 딥러닝 기술들이 등장하였음. ImageNet의 image classification task의 경우 사진에 찍힌 주된 물체를 기준으로 라벨링 함.

ImageNet의 Top-1 Accuracy Test의 경우,  AI system의 single most probable prediction이 taget label과 얼마나 정확하게 일치하는지 확인함(Top-5 accuracy의 경우 correct label이 classifier의 top 5 prediction에 포함되는지 아닌지만을 확인함). 그동안 연구자들은 인스타그램과 같은 SNS에서 추가적인 training data들을 확보하고 자신들의 시스템을 pre-training 시켜서 ImageNet Performance를 향상시켰음. 위 Figure 2.1.1(Google Brain team)를 보면 2013년 초에 60%를 살짝 상회하던 성공률이 2021년 초에는 90%을 넘었음.

MLCommons organization이 주최하는 ImageNet traning competition인 MLPerf에서 발표한 결과에 따르면 해가 지나면서 가장 결과가 좋았던 그룹(frontier system)의 ImageNet Training Time이 많이 단축된 것을 확인할 수 있음. Figure 2.1.3을 보면 2012년 12월에 6.2분이 걸렸지만 2020년 8월에는 47초로 단축되었음. 반대로 동기간 시스템에 사용되는 accelerator chip의 수는 크게 늘어났으며 사용하는 chip의 종류도 2018년에는 GPU를 썼던 반면 2019년과 2020년에는 구글의 TPU로 바뀐 것을 확인함.

MLPeRF가 발표한 또 다른 결과(Figure 2.1.4)를 보면 선두 그룹 시스템 뿐만 아니라 해가 지나면서 모든 시스템들의 training time과 distribution도 많이 줄어들었음을 확인함.

위 Figure 2.1.5를 보면 2017년 10월 $1,100이 필요했던 training 비용이 현재는2020년에는 $7.43으로 많이 줄어들었음. 이는 algorithm design의 개선과 클라우딩 컴퓨팅 자원에 필요한 비용이 줄어들었기 때문으로 분석함.

1.2 Image Generation

Image generation은 실제 사진(real image)과 구분이 어려운 사진을 만드는 것이며 특정 사진에 대한 검색을 쉽게 하기 위해 비슷한 여러 사진을 생성하거나 특정 목적을 위한 컨텐츠 제작 등의 다양한 목적으로 활용할 수 있음. 최근에는 딥러닝 기반 알고리즘과 연산능력의 지속적인 개선 그리고 더 커진 데이타셋으로 인하여 image generation 분야가 더 발전하고 있음. 

Image generation 결과물에 대한 벤치마크로 Fréchet Inception Distance(FID)라는 방법을 사용하며 실제 사진은 0점, 실제 사진과 유사하게 생성된 사진은 0점에 가깝도록 채점함. 위 Figure 2.1.7을 보면 지난 2년간 STL-10 데이타셋을 이용한 image generation이 실제 사진과 얼마나 가까워졌는지 보여줌.

위 Figure 2.1.7은 각 연도에 생성된 최고의 image generation 결과물들을 보여줌.

1.3 Deepfake Detection

Image generation기술이 발전하면서 deepfake와 같은 기술의 부작용도 등장하기 시작했고 이를 막기 위해 연구자들은 deepfake detection 기술을 개발하고 있음.

2019년에 페이스북이 만든 Deepfake Detection Challenge(DFDC)라는 대회를 개최하여서 딥페이크 감지 기술의 발전 상황을 확인함. DFDC는 먼저 참가자에게 공개된 100,000개의 클립을 이용해서 모델을 만들게 하고 접수된 모델은 확률에 기반한 classification metric인 Log Loss로 채점함. Log Loss 값이 작을 수록 더 정확하게 deepfake를 감지하였음을 의미함.(위 Figure 2.1.8)

1.4 Human Pose Estimation

Human pose estimation은 한 사진으로부터 사람의 신체 부위나 관절(손목, 팔꿈치 등) 들의 위치를 추정하는 것이며 패션 산업에서의 증강현실기술 적용, 특정행동을 하는 사람 감시 등 다양한 용도로 사용될 수 있음.

Common Object in Context(COCO)는 object detection, segmentation 등을 위한 데이터셋이며 COCO Keypoint Detection Challenge는 시스템이 사물 혹은 사람과 그들의 body keypoints를 동시에 감지할 수 있는지 평가함. 시스템 알고리즘을 평가할 때 average precision(AP)이라는 object detector accuracy metric을 사용함. 위 Figure 2.1.9를 보면 지난 4년간 알고리즘의 accuracy가 대략 33% 정도 개선되었음을 확인함.

DensePose의 겨우 2D 사진에서 3D mesh model을 추출하는 작업을 의미하며 CoCo DensePose Challenge의 경우 1) 사람을 감지하고 2) 그들의 신체를 segment하며 3) 신체의 이미지 픽셀과 template 3D model과 얼마나 일치하는지 테스트함. Accuracy는 geodesic point similarity(GPS)라는 metric을 사용하며 위 Figure 2.1.10을 보면 2018년 56%에서 2019년 72%로 증가한 것을 확인할 수 있음.

1.5 Semantic Segmentation

Semantic segmentation은 이미지의 픽셀을 사람, 고양이 등으로 label하는 classification task임. Image classification은 전체 사진을 label하지만 semantic segmentation은 특정 사진에서 각각의 객체를 구분하여서 더 정확한 식별이 가능함. Semantic segmentation은 자율주행, 의료 분야 등에 사용함.

1.6 Embodied Vision

1.1~1.5에서 소개된 시스템들의 performance는 최근 몇 년간 많이 발전하였지만 이들은 주변 환경과 interact하지 못하는 카메라 시스템이 촬영한 사진이나 영상에만 작동할 수 있는 passive(disembodied)성격의 시스템들임. 

최근에는 연구자들이 좀 더 interactive(embodied)한 AI 시스템들을 개발하고 있으며 1) 새로운 빌딩에 들어가서 주위를 살피며 이동할 수 있거나 2) 시청자료 학습을 통해 부품을 조립하는 로봇들이 이에 해당함.

2. Computer Vision - Video

2.1 Activity Recognition

Activity recognition은 영상에서 다양한 활동들을 인식하며 감시카메라나 자율주행 로봇 분야에 활용할 수 있음. ActivityNet은 대규모 비디오 벤치마크이며 알고리즘이 얼마나 영상에서 사람들의 행동을 라벨링하고 구분짓는지 평가함.

ActivityNet의 Temporal Action Localization은 시스템이 1) 편집되지 않은 600 시간 분량 영상의 time segment를 잘 감지하는지, 2) 영상 내 포함되어 있는 인간의 활동 두2~3가지를 정확한 카테고리(던지기, 등산하기 등)에 분류하는지 등을 평가함. 위 Figure 2.2.1.을 보면 Mean Average Precision에 대한 값이 계속 오르고 있음을 확인함.

위 Figure 2.2.2에서는 인간의 활동들을 temporal action localization이 구분하였을 때 각 행동을 분류한 결과값의 정확성을 보여주는데 2020년에는 “커피 마시기”가 가장 accuracy가 낮은 것으로 확인되었으며 “가위바위보”는 accuracy가 모든 활동 중에서 1년 간 가장 높아졌음.

2.2 Object Detection

Object detection은 사진에서 특정한 사물을 식별하는 것이며 image classification과 image dection이 혼합된 시스템을 사용함.

You Only Look Once(YOLO)는 object detection에서 광범위하게 사용되는 오픈소스 시스템이며 그 동안 performance와 inference latency, 이 2가지 기술적 제약(위 Figure 2.2.3)을 고려하여 최적화 되었음. 이로 인하여 YOLO의 performance는 최고 수준이 아닐 수 있지만 비디오 스트림의 low-latency inference와 같은 용도로 사용하고 있음

2.3 Face Detection and Recognition

Face detection / recognition 기술은 큰 상업적 시장을 가진 AI 사용 사례이며 세계 각국의 정부와 군대가 많은 관심을 가지고 있음.

The Face Recognition Vendor Test(FRVT)는 다양한 목적으로 사용되는 안면인식 기술에 대한 벤치마크이며 False Non-Match rate(FNMR)이 낮을수록 좋음. 위 Figure 2.2.4를 보면 지난 4년간 범인식별용 얼굴 사진과 비자 사진에서 안면인식을 활용하는 기술들이 가장 발전한 것일 확인함.

3. Language

3.1 English Language Understanding Benchmarks

최근에 Natural Language Processing(NLP)기술이 발전하면서 수 십억 명이 액세스 할 수 있는 대규모 시스템에 변화가 생기기 시작하였음. Google이나 Microsoft가 자신들의 검색엔진에 적용한 BERT 알고리즘과 같은 예가 있음.

2019년에 개발된 SuperGLUE는 single-metric 벤치마크이며 특정한 모델이 실행하는 일련의 언어 이해 작업들을 평가함. SuperGLUE는 평가한 작업들의 결과 값들의 평균을 계산하며 현재 Microsoft의 DeBERTa 모델이 가장 우수한 것으로 나타남.

3.2 Commercial Machine Translation (MT)

Machine Translation(MT)은 소프트웨어를 이용해서 한 언어의 활자나 음을 다른 언어로 번역하는 것을 의미하며 머신러닝의 발전하면서 MT 분야 또한 발전함

상업적인 용도의 MT 시스템이 많이 늘어났음(2017년 8개 → 2020년 28개) 

3.3 GPT-3

2020년 7월에 OpenAI가 가장 큰 dense language model인 GPT-3를 공개하였으며 GPT-3는 1,750억개의 매개변수를 가지고 있고 570 GB 용량의 텍스트로 트레이닝함. 이전 버전인 GPT-2(매개변수 15억개)에 비하여 스케일이 100배 이상 커지면서 GPT-3는 놀랍게도 트레이닝이 없거나(zero-shot learning) 적은 트레이닝(few-shot learning)만으로도 성능을 발휘할 수 있음.

위 Figure 2.3.4는 GPT-3 model 매개변수의 갯수가 task 정확성에 미치는 영향을 보여줌. 모든 경우에 모델이 늘어나면서 task accuracy가 늘어났고 그 중에서도 few-shot learning의 task accuracy는 가장 가파르게 증가하였음.

반면 GPT-3의 다음과 같이 우려할 만한 요소들이 있음 1) 인종/성차별적인 텍스트를 만들거나 예측불가능하고 사실이 아닌 텍스트를 만들 수 있으며 2) 트레이닝을 시키는 것이 매우 비싸고 3) 챗봇이나 컴퓨터 코드 생성, 서치 등의 목적에 제한되지 않은 다양한 방법으로 사용될 수 있어서 사회에 미칠 수 있는 영향의 범위를 예측하기 어려운 점이 있음

4. Language Reasoning Skills

4.1 Vision and Language Reasoning

Vision / Language Reasoning은 시스템이 시각과 텍스트 자료들을 바탕으로 얼마나 추론을 잘하는지를 다루는 연구 영역임. 

2015년에 개발된 Visual Question Answering(VQA) challenge는 1) 주어진 이미지와 2) public dataset에서 가져온 이미지에 대해서 만들어진 natural language 질문에 3) 시스템이 얼마나 정확한 natural language 답변을 주는지 평가함. 위 Figure 2.4.1을 보면 2020년도에 기록된 accuracy는 human baseline에 근접함. 

5. Speech

5.1 Speech Recognition

Speech recognition은 시스템이 음성을 텍스트로 전환하게 해주는 프로세스이며 현재 Amazon의 Alexa, Google의 Home, Apple의 Siri로 발전함.

Transcribe speech : LibriSpeech는 오디오북에서 가져온 1,000시간 분량의 연설로 구성되어 있으며 speech recognition 기술의 개발과 테스팅에 널리 사용되고 있음. 최근신경망 기반 AI 시스템들은 LIbriSpeech에서 2%의 word error rate performance를 보여줌.

Speaker recognition : VoxCeleb dataset은 2017년에 개발되고 6,000의 각기 다른 화자들이 말한 수 백만개의 짧은 발언들을 가지고 있으며 VoxCeleb 점수가 낮을 수록(equal error rate) 발언과 화자를 정확하게 매칭한다는 의미임.

6. Reasoning

이 섹션은 추정에서 결론을 도출하는 과정인 symbolic / logical reasoning의 AI 분야 내 진행 상황을 다루며 본 보고서에서는 Boolean Satisfiability(SAT)와 Automated Theorem Proving(ATP)를 다루었음

6.1 Boolean Satisfiability Problem (SAT)

활용 방법 : Circuit design, automated theorem proving, scheduling

6.2 Automated Theorem Proving (ATP)

활용 방법 : Software verification

7. Healthcare and Biology

7.1 Molecular Synthesis

머신러닝은 과학자들이 1) 화학합성물질의 대규모 스크리닝을 하고 2) 가장 효과적인 합성방법을 결정할 수 있도록 도와줌. 머신러닝을 이용해서 화학합성을 기획할 때 화학 반응을 텍스트 형태로 표현한 후 이를 machine translation 문제 방식으로 접근하는 방법을 선택할 수 있음. 2018년에는 대용량의 단일 단계 반응 데이터셋으로 트레이닝한 transformer architecture를 사용하였고 2020년에는 forward prediction과 retrosynthesis 방식으로 문제에 접근하였음.

위 Figure 2.7.1은 쉽게 구할 수 있는 100만개의 반응 데이터 셋으로 벤치마크한 모델들의 Top-1 accuracy를 보여줌. 지난 3년 간 화학 합성 기획이 꾸준히 발전되어 왔고 accuracy가 15.6% 상승한 것을 확인함.

7.2 COVID-19 and Drug Discovery

500명이 넘는 과학자들이 COVID Moonshot 크라우드소싱을 통해 COVID-19 항바이러스제를 개발하고 있음.  1) 과학자들이  molecular design을 Moonshot에 제출하고 2) PostEra 라는 AI 스타트업은 머신러닝과 컴퓨터 툴을 이용하여 compound 합성 난이도를 평가한 후 합성 방법을 생성함. 첫 주 이후에 Moonshot은 2,000 건이 넘는 design을 접수받았고 PostEra는 합성 방법을 48시간 안에 설계하였음.

7.3 AlphaFold and Protein Folding

Protein folding은 1차원 아미노산 서열에서 3차원 단백질 구조를 결정하는 매우 중요한 structural biology에서의 과제이며 이를 해결할 경우 drug discovery 가속화, 질병의 치료, 산업 목적의 새로운(de-novo)  단백질의 엔지니어링 등 다양한 방법으로 활용할 수 있음.

최근에 이를 머신러닝 방법으로 접근하는 시도가 성과를 내고 있으며 가장 유명한 사례로 2018년 부터 Critical Assessment of Protein Structure(CASP)에 AlphFold로 참여하기 시작한 DeepMind가 있음. CASP에 출전하면 팀들은 아미노산 서열을 제공받고 이들의 3차원 단백질 구조를 예측함. 단백질 3차원 구조는 nuclear magnetic resonance spectroscopy, X-ray crystallography, cryo-electron microscopy 등 시간과 노력이 많이 드는 방법으로 확인함. CASP에서의 성적은 Global Distance Test(GDT)라는 metric으로 평가하며 점수는 0에서 100점이고 100점에 가까울수록 좋음.

위 Figure 2.7.3은 지난 14년간 CASP에 참여해서 최고의 성적을 낸 팀의 median GDT결과를 보여주고 있음. 2018년 전 까지 최고의 팀들은 physics based model에 기반한 알고리즘을 이용하였는데 2018년 이후 부터는 딥러닝을 알고리즘에 활용한 DeepMind의 AlphaFold와 AlphFold2가 최고의 성적을 기록했음.