- 새로운 뉴스를 올려주세요.
A long-standing goal of artificial intelligence is an algorithm that learns, tabula rasa, superhuman proficiency in challenging domains. Recently, AlphaGo became the first program to defeat a world champion in the game of Go. The tree search in AlphaGo evaluated positions and selected moves using de... 더 보기
A long-standing goal of artificial intelligence is an algorithm that learns, tabula rasa, superhuman proficiency in challenging domains. Recently, AlphaGo became the first program to defeat a world champion in the game of Go. The tree search in AlphaGo evaluated positions and selected moves using deep neural networks. These neural networks were trained by supervised learning from human expert moves, and by reinforcement learning from self-play. Here we introduce an algorithm based solely on reinforcement learning, without human data, guidance or domain knowledge beyond game rules. AlphaGo becomes its own teacher: a neural network is trained to predict AlphaGo’s own move selections and also the winner of AlphaGo’s games. This neural network improves the strength of the tree search, resulting in higher quality move selection and stronger self-play in the next iteration. Starting tabula rasa, our new program AlphaGo Zero achieved superhuman performance, winning 100–0 against the previously published, champion-defeating AlphaGo.
(인공 지능이 오랫동안 설정했던 목표는, 백지 상태(tabula rasa)로부터 시작하여 여러 도전적인 영역에서 초인간적인 숙련을 학습하는 알고리즘이었다. 근래에 들어 알파고는 바둑 세계 챔피언을 이긴 최초의 프로그램이 되었다. 알파고가 내장한 트리 검색(tree search)은 심층신경망(deep neural network)를 이용하여 형세를 판단하고, 다음 수를 선택한다. 이러한 신경망은 인간 '고수'의 수에 기반을 둔 지도 학습(supervised learning)과, 스스로 게임을 수행하며 얻는 강화 학습(reinforcement learning)을 통해 훈련되었다. 이 논문에서 우리는 오직 강화 학습에 기반을 둔 알고리즘을 도입했다. 게임의 규칙을 넘어서는, 기보(human data)나 지도(guidance) 혹은 주요 지식(domain knowledge)은 이용하지 않았다. 알파고는 그 자신의 교사가 되었다: 신경망은 알파고 자신의 수와 자신이 수행하는 게임의 승자를 예측하도록 설정(is trained to; 훈련?)되었다. 이 신경망은 트리 검색의 힘을 개선하고, 그 결과 다음 반복 때는 더 강화된 자기 대국(self-play)과, 더 고차원적인 수 판단을 실행한다. 백지에서부터 시작하여, 우리의 새로운 프로그램인 알파고 제로(AlphaGo Zero)는 초인적인 성과를 달성했다. 바둑 챔피언을 이긴 기존 알파고와의 대국에서는 100:0으로 승리했다)
초록만 봐서는 영 아리까리 하네요. 오늘 목표로 한 공부량을 끝내면 본문도 찾아봐야겠어요. 기사에서 논문을 소개하는 것은 영 믿을 수가 없더라고요ㅠ
(인공 지능이 오랫동안 설정했던 목표는, 백지 상태(tabula rasa)로부터 시작하여 여러 도전적인 영역에서 초인간적인 숙련을 학습하는 알고리즘이었다. 근래에 들어 알파고는 바둑 세계 챔피언을 이긴 최초의 프로그램이 되었다. 알파고가 내장한 트리 검색(tree search)은 심층신경망(deep neural network)를 이용하여 형세를 판단하고, 다음 수를 선택한다. 이러한 신경망은 인간 '고수'의 수에 기반을 둔 지도 학습(supervised learning)과, 스스로 게임을 수행하며 얻는 강화 학습(reinforcement learning)을 통해 훈련되었다. 이 논문에서 우리는 오직 강화 학습에 기반을 둔 알고리즘을 도입했다. 게임의 규칙을 넘어서는, 기보(human data)나 지도(guidance) 혹은 주요 지식(domain knowledge)은 이용하지 않았다. 알파고는 그 자신의 교사가 되었다: 신경망은 알파고 자신의 수와 자신이 수행하는 게임의 승자를 예측하도록 설정(is trained to; 훈련?)되었다. 이 신경망은 트리 검색의 힘을 개선하고, 그 결과 다음 반복 때는 더 강화된 자기 대국(self-play)과, 더 고차원적인 수 판단을 실행한다. 백지에서부터 시작하여, 우리의 새로운 프로그램인 알파고 제로(AlphaGo Zero)는 초인적인 성과를 달성했다. 바둑 챔피언을 이긴 기존 알파고와의 대국에서는 100:0으로 승리했다)
초록만 봐서는 영 아리까리 하네요. 오늘 목표로 한 공부량을 끝내면 본문도 찾아봐야겠어요. 기사에서 논문을 소개하는 것은 영 믿을 수가 없더라고요ㅠ
현재까지 한글로 된 기사/논평은 이게 제일 좋아 보입니다. 읽고 괜찮으심 본문에 추가해주시길
https://brunch.co.kr/@madlymissyou/18
지난번 알파고마스터 버전 50개 기보가 그렇게 충격이었다는데.. 이 제로버전 기보는 거의 규화보전 급이겠습니다 ㅎㅎ. 바둑계가 몸달 듯.
찾아보니 이미 신버전도 기보 공개를 했군요.. 해석을 못하는 분위기
https://brunch.co.kr/@madlymissyou/18
지난번 알파고마스터 버전 50개 기보가 그렇게 충격이었다는데.. 이 제로버전 기보는 거의 규화보전 급이겠습니다 ㅎㅎ. 바둑계가 몸달 듯.
찾아보니 이미 신버전도 기보 공개를 했군요.. 해석을 못하는 분위기
AI가 발전하면 인간은 그 AI의 뜻을 해석하는게 주 업이라는 이야길 옆동네 소설평에서 들은거 같은데.. 이게 사실 커제전 이후 프로바둑계가 몸으로 보여준게 아닌가 해서 말이죠. 이해는 못하는데 알파고 스타일로 따라하면 승률은 높아진다라는 이야길 들은 적이 있어요.
이렇게 단일한 알고리즘이 있고, 승패 (True or false)가 명확해서 바로 피드백을 줄 수 있는 영역에서는 강화학습이 진짜 길이란게 일단 증명되었네요. 데이터를 무한정으로 생산 가능하다는 전제가 있어야 하겠지만. 상대적으로 데이터양이 한정되어 있는 영역이거나... 더 보기
이렇게 단일한 알고리즘이 있고, 승패 (True or false)가 명확해서 바로 피드백을 줄 수 있는 영역에서는 강화학습이 진짜 길이란게 일단 증명되었네요. 데이터를 무한정으로 생산 가능하다는 전제가 있어야 하겠지만. 상대적으로 데이터양이 한정되어 있는 영역이거나... 더 보기
AI가 발전하면 인간은 그 AI의 뜻을 해석하는게 주 업이라는 이야길 옆동네 소설평에서 들은거 같은데.. 이게 사실 커제전 이후 프로바둑계가 몸으로 보여준게 아닌가 해서 말이죠. 이해는 못하는데 알파고 스타일로 따라하면 승률은 높아진다라는 이야길 들은 적이 있어요.
이렇게 단일한 알고리즘이 있고, 승패 (True or false)가 명확해서 바로 피드백을 줄 수 있는 영역에서는 강화학습이 진짜 길이란게 일단 증명되었네요. 데이터를 무한정으로 생산 가능하다는 전제가 있어야 하겠지만. 상대적으로 데이터양이 한정되어 있는 영역이거나, 승패가 명확하지 않은 영역에선 그나마 좀 버틸 수 있는데, 이쪽도 augmented CNN같은 데이터 뻥튀기라던지, 승패 마저도 다른 AI가 계산해줄 수 있다면 정말 디스토피아는 눈앞일지도 모르겠습니다. 빨리 블레이드러너를 보러가야 하는데.
이렇게 단일한 알고리즘이 있고, 승패 (True or false)가 명확해서 바로 피드백을 줄 수 있는 영역에서는 강화학습이 진짜 길이란게 일단 증명되었네요. 데이터를 무한정으로 생산 가능하다는 전제가 있어야 하겠지만. 상대적으로 데이터양이 한정되어 있는 영역이거나, 승패가 명확하지 않은 영역에선 그나마 좀 버틸 수 있는데, 이쪽도 augmented CNN같은 데이터 뻥튀기라던지, 승패 마저도 다른 AI가 계산해줄 수 있다면 정말 디스토피아는 눈앞일지도 모르겠습니다. 빨리 블레이드러너를 보러가야 하는데.
알파고 기보는 http://www.alphago-games.com/
제가 7급 수준의 초보라 이해도는 떨어지지만, 알파고 마스터 버전보다 더 물샐틈이 없어 보입니다.
Unsupervised learning인 것은 진심 확실하네요
http://www.alphago-games.com/view/eve... 더 보기
제가 7급 수준의 초보라 이해도는 떨어지지만, 알파고 마스터 버전보다 더 물샐틈이 없어 보입니다.
Unsupervised learning인 것은 진심 확실하네요
http://www.alphago-games.com/view/eve... 더 보기
알파고 기보는 http://www.alphago-games.com/
제가 7급 수준의 초보라 이해도는 떨어지지만, 알파고 마스터 버전보다 더 물샐틈이 없어 보입니다.
Unsupervised learning인 것은 진심 확실하네요
http://www.alphago-games.com/view/event/1/game/0/move/50
최양락이 알까기 하는 기보에서 서서히 신선놀음이 되어 갑니다.
그래도.... 우리에겐 마지막 영광의 순간이 있지요.
http://www.alphago-games.com/view/event/13/game/3/move/78
미국에서 밤새면서 봤던 기억이 아직도 생생하네요.
제가 7급 수준의 초보라 이해도는 떨어지지만, 알파고 마스터 버전보다 더 물샐틈이 없어 보입니다.
Unsupervised learning인 것은 진심 확실하네요
http://www.alphago-games.com/view/event/1/game/0/move/50
최양락이 알까기 하는 기보에서 서서히 신선놀음이 되어 갑니다.
그래도.... 우리에겐 마지막 영광의 순간이 있지요.
http://www.alphago-games.com/view/event/13/game/3/move/78
미국에서 밤새면서 봤던 기억이 아직도 생생하네요.
목록 |
|