스탠포드 HAI AI 인덱스 2021 1) R&D

스탠포드 대학교 HAI(Human-centered Artificial Intelligence)에서 2017년 부터 매년 AI의 기술개발 진행상황과 AI가 사회 전반적인 부분에 미치는 영향에 대해서 분석하는 방대한 내용의 보고서를 발간하고 있습니다. 2021년에는 3월에 발표하였으며 오늘은 보고서 첫 번째 챕터의 내용인 “Research and Development”에 대한 내용을 요약해봅니다.

Key Takeaways 

  • AI publication, Conference, AI software libraries 등 거의 모든 R&D 항목의 지표에서 우상향 트렌드 확인
  • 중국의 성장이 눈에 띄며 AI journal의 citation share(%)의 경우 미국을 능가하였음
  • 산업 특유의 pre-peer review publication (arXiV)를 통한 정보발견과 확산의 선순환 가속화

1. Publications

1.1 Peer-Reviewed AI Publications

2019년의 publication 수는 2000년에 비해 거의 12배 가량으로 늘었으며(위 Figure 1.1.1a) 전체 peer-reviewed publication에서 AI 분야가 차지하는 비중은 0.82%에서 3.8%로 늘었음.

지역적으로 보면 중국은 전체 peer-reviewed AI publication share(위 Figure 1.1.3)에서 2006년에 미국을 따라잡았고 2017년에는 EU를 제쳤음. 2019년 기준 publication share는 중국, EU, 미국 순임

중국, 미국, EU 모두 academic field 에 속한 기관에서 publish 된 peer-reviewed AI publication 횟수가 가장 많았음

Academic field를 제외한 소속기관에서 publish된 횟수를 살펴보면 중국(위 Figure 1.1.4a)과 EU는 publication 수가 Government, Corporate, Medical 순으로 많았고 미국은 Corporate, Government, Medical 순(위 Figure 1.1.4c)이었음.

산학협력으로 publish 된 경우 선두인 미국과 EU/중국 그룹과는 꽤 차이가 있음을 확인함(위 Figure 1.1.5)

각 나라의 산학협력이 자국 AI publication의 FWCI(Field-Weighted Citation Impact)에 미치는 영향력을 확인하기 위해 위 Figure 1.1.6을 참조함.

FWCI : 특정 publication이 받은 citation 수와 비슷한 다른 publication들(same year, discipline, format)이 받은 citation 수의 평균들을 비교하며 계산함. FWCI 값 1.0은 세계 평균이며 FWCI값  0.75는 세계 평균 대비 25% 더 적은 수의 citation을 받은 것을 의미함.

미국의 경우 산학협력을 통한 publication 수도 많았고 EU/중국에 비해 FWCI도 높았음을 확인함.

1.2 AI Journal Publications

2000년에는 AI journal publication 횟수가 20,000건에 못미쳤는데 2020년에는 80,000건 가까이 늘어났으며 전체 journal publication에서 AI분야가 차지하는 비중(위 Figure 1.1.7b)은 1.0%에서 2.2%로 늘었음.

지역적으로 보면 AI journal publication share는  중국(18.0%), 미국(12.3%), EU(8.6%) 순이었으며 Citation share(위 Figure 1.1.10)에서도 중국, 미국, EU 순이었음

1.3 AI Conference Publications

2019년에는 publication이 2000년 대비 4배 가량 늘어났으며 전체 conference publication에서 AI conference publication이 차지하는 비중은 15%에서 20.2%로 늘었음.

2020년 AI conference publication의 share를 지역적으로 분석(위 Figure 1.1.13)해보면 미국(19.4%), 중국(15.2%), EU(12.8%) 순임을 확인하였음.

Citation share(위 Figure 1.1.14)에서도 미국(40.1%), 중국(11.8%), EU(10.9%) 순이었음.

1.4 AI Patents

지난 20년간 AI patents는 2000년에 21,806건, 2019년에 101,876건으로 거의 4.5배 수준으로 증가하였음

같은 기간 동안에 AI patent publication이 전체 patent publication에서 차지하는 비중(Figure 1.1.15b)을 보면 2%에서 2.9%로 증가함.

1.5 arXiv Publications

상기와 같은 전통적인 academic paper publication 방법 이외에 AI 연구자 들은 online repository 인 arXiv에 pre-peer review상태로 publish하는 방법을 활용하고 있으며 이러한 방법은 정보의 발견과 확산을 가속화 시킴.

2015년 5,478건에서 2020년 34,736건으로 늘었으며arXiv AI 관련 publication 건수와 share는 미국(11,280 / 32.5%), EU(6,505 / 18.7%), 중국(5,440 / 15.7%) 순으로 확인하였음.

연구분야별 publication 건수와 share(위 Figure 1.1.19)는 Machine learning in computer science(11,098 / 32.0%)와 computer vision (11,001 / 31.7%)분야가 수위를 기록하였음. 

2. Conferences

2020년에 2월에 열린 Association for the Advancement of Artificial Intelligence(AAAI)를 제외한 대부분의 AI conference가 virtual format 형태로 개최되었으며 주최 측은 정확한 참석자 수는 확인할 수 없지만 virtual format을 통해서 더 높은 attendance를 확인하였다 함.

the International Conference on Intelligent Robots and systems(IROS)의 경우(위 Figure 1.2.1) 2019년 참석자 수가 5,000명 미만이었는데 2000년도에 virtual format으로 석 달 연장하여서 25,719명이 참석한 것을 확인함.

3. AI Open-Source Software Libraries

GitHub Stars

AI 연구자와 개발자들은 GitHub을 이용해서 소프트웨어를 업/다운로드를 하고 코멘트를 작성함. AI 연구자/개발자들은 트위터와 같은 SNS의 like 기능처럼 GitHub에서도 “star”버튼을 누르고 프로젝트를 자신들의 리스트에 저장하면서 해당 프로젝트에 대한 관심을 표할 수 있음. 이러한 star 기능을 통해서 어느 AI library들이 인기있는지 확인할 수 있음. 

2017년에 구글에서 출시한 TensorFlow가 가장 인기있는 library인 것을 확인하였으며 TensorFlow 2.0을 기반으로 만들어진 Keras(Google)와  PyTorch(Facebook)가 뒤를 이었음