
일론 머스크는 단순히 자동차 제조업체가 되길 원치 않습니다. 그는 테슬라가 자율 주행 자동차를 운행하는 방법을 찾은 AI 기업이 되길 원합니다.
이 임무에 있어서 핵심적인 것은 도조인데, 테슬라의 맞춤형 초고속 컴퓨터로 Full Self-Driving (FSD) 신경망을 교육하는 것이 목적입니다. FSD는 실제로 완전히 자율 주행이 아닙니다. 일부 자동 운전 작업을 수행할 수 있지만 여전히 반드시 주행하는 인간이 필요합니다. 그러나 테슬라는 더 많은 데이터, 더 많은 컴퓨팅 파워 및 더 많은 교육으로 거의 자율 주행에서 완전한 자율 주행으로 넘어갈 수 있다고 생각합니다.
그리고 그것이 도조가 필요한 곳입니다.
머스크는 도조를 지금까지 약간 언급해 왔지만 이 일련의 슈퍼컴퓨터에 대한 토론을 2024년 내내 가속화 시키고 있습니다. 도조는 테슬라에게 존립상의 중요성을 지닐 수 있습니다. EV 판매량이 감소함에 따라 투자자들은 테슬라가 자율 주행을 실현할 수 있는지에 대한 보장을 바랍니다. 아래는 도조 언급과 약속에 관한 타임라인입니다.
2019년
도조에 대한 첫 언급
4월 22일 - 테슬라의 Autonomy Day에서 자동차 기업은 AI 팀이 무대에서 올라와 자율 주행 및 Full Self-Driving, 그리고 그들을 구동하는 AI에 대해 이야기했습니다. 회사는 특히 신경망과 자율 주행 자동차를 위해 특별히 설계된 테슬라의 맞춤형 칩에 관한 정보를 공유했습니다.
이 행사에서 머스크는 도조를 언급하며 이것이 AI를 교육하는 슈퍼컴퓨터임을 밝힌다.
그는 또한 당시 제조되는 모든 테슬라 차량이 전부 완전 자율 주행에 필요한 모든 하드웨어를 갖추고 있고 소프트웨어 업데이트만 필요하다고 언급합니다.
2020년
도조 로드쇼 시작
2월 2일 - 머스크는 테슬라가 곧 전 세계적으로 연결된 센서와 컴퓨팅을 갖춘 백만 대 이상의 차량을 가질 것이라고 말하면서 도조의 능력을 강조합니다.
“도조는 우리의 교육 슈퍼컴퓨터로 방대한 양의 비디오 교육 데이터를 처리하고 대량의 매개변수로 초고속 배열을 효율적으로 실행하고 매우 많은 메모리와 코어 간의 초고 대역폭을 가질 것입니다. 나중에 자세히 설명하겠다.”
8월 14일 - 머스크는 테슬라의 신경망 훈련용 컴퓨터인 도조를 개발하기로 한 계획을 재확인하며 이를 “야수”라고 부릅니다. 그는 또한 첫 번째 버전의 도조가 “약 1년 후”에 나올 것이라고 말하며 발표일은 약 2021년 8월로 예상됩니다.
12월 31일 - 엘론은 도조가 필요하지는 않지만 자율 주행을 더 좋게 만들 것이라고 말합니다. “인간 운전자보다 안전하다고 해서 충분하지 않습니다. Autopilot은 궁극적으로 인간 운전자보다 10 배 이상 더 안전해야 합니다.”
2021년
테슬라가 도조를 공식화
8월 19일 - 자동차 회사가 테슬라의 첫 번째 AI Day에서 도조를 공식적으로 발표하며 테슬라의 AI 팀에 엔지니어를 유치하는 행사입니다. 테슬라는 또한 D1 칩을 소개하며 이를 통해 Dojo 슈퍼컴퓨터를 구동할 것이라고 밝혔습니다. 테슬라는 AI 클러스터에 3,000개의 D1 칩을 탑재할 계획입니다.
10월 12일 - 테슬라는 도조 기술 화이트페이퍼인 “테슬라의 구성 가능한 부동 소수점 포맷 및 산술”을 발표합니다. 이 화이트페이퍼는 딥러닝 신경망에서 사용되는 새로운 유형의 이진 부동 소수점 산술에 대한 기술 표준을 개요화하며 이것은 소프트웨어에서 전적으로 실행되거나, 하드웨어에서 전적으로 실행되거나 또는 소프트웨어 및 하드웨어의 어떤 조합으로도 구현될 수 있습니다.
2022년
테슬라가 도조 진행상황을 공개
8월 12일 - 머스크는 테슬라가 “도조를 점차 도입할 예정입니다. 내년 추가적인 GPU를 많이 구매할 필요가 없을 것입니다.”
9월 30일 - 테슬라는 두 번째 AI Day에서 첫 번째 도조 캐비닛을 설치한 것을 공개하며 2.2 메가와트의 부하 테스트를 진행했습니다. 테슬라는 하루에 한 번씩 25개의 D1 칩으로 구성된 타일을 설치하고 있었습니다. 테슬라는 무대에서 도조를 데모하여 “마스에 있는 ‘사이버트럭’의 AI 생성 이미지를 만들었습니다.
중요한 것은 회사가 2023년 제1분기까지 완전한 Exapod 클러스터를 완료할 목표일을 설정했으며 Palo Alto에 총 7개의 Exapod를 설치할 계획이라고 밝혔습니다.
2023년
‘장기적인 성공을 위한 베팅’
4월 19일 - 머스크는 테슬라의 제1분기 실적 발표 시 투자자들에게 도조가 “훈련 비용을 10배 개선할 잠재적 적성을 보이며,” 또한 “아마존 웹 서비스가 웹 서비스를 제공하는 것과 같은 방식으로 다른 회사에 제공할 수 있는 판매 서비스가 될 수 있습니다.”라고 말합니다.
머스크는 동일한 날 Dojo가 이미 온라인이며 테슬라 데이터 센터에서 작업을 수행하고 있다고 밝힙니다.
회사는 또한 테슬라의 컴퓨팅이 2024년 2월 경 전 세계 5대로 오를 것으로 예측하며 (이는 성공적인지 여부는 알려지지 않았습니다) 테슬라가 2024년 10월까지 100 엑사플롭에 도달 할 것으로 예상하고 있습니다.
7월 19일 - 테슬라는 분기별 실적 보고서에서 Dojo의 생산을 시작했다고 밝히며 머스크는 테슬라가 2024년까지 Dojo에 10억 달러 이상을 투자할 계획이라고 말합니다.
9월 6일 - 머스크는 테슬라가 AI 교육 컴퓨팅으로 한정되어 있지만, Nvidia와 Dojo가 이것을 해결할 것이라고 밝힙니다. 그는 하루에 대략 1600억 프레임의 비디오를 받는 테슬라의 자동차로부터 데이터를 관리하는 것이 매우 어렵다고 말합니다.
2024년
규모를 확대하기 위한 계획
1월 24일 - 테슬라의 4/1분기 및 전체년도 실적 발표 중, 머스크는 다시 한번 Dojo가 고위험 고수익 프로젝트라고 인정하며, 테슬라는 “Nvidia와 Dojo의 이중 경로를 추구하고 있으며, Dojo가 작동 중이며 교육 작업을 수행 중이며 Dojo 1.5, Dojo 2, Dojo 3 등의 계획이 있다.”고 말합니다.
1월 26일 - 테슬라는 버퍼로 Dojo 슈퍼컴퓨터를 건설하기 위해 5억 달러를 투자할 계획을 발표했습니다. 이후 머스크는 X에서 해당 투자를 어느 정도 경시하며 “5억 달러가 상당한 금액이지만 단지 10k H100 시스템에 해당하는 금액일 뿐입니다. 올해 테슬라는 NVidia 하드웨어에 더 많은 돈을 쓸 것입니다. AI에서 경쟁력을 갖추기 위한 최소한의 필요 조건은 현재 몇 십억 달러 이상임을 의미합니다.”이라고 게시합니다.
4월 30일 - TSMC의 북미 기술 심포지엄에서 회사는 현재 생산 중인 도조의 차세대 훈련 타일인 D2를 발표했습니다. 이는 1개의 실리콘 웨이퍼에 도조 타일 전체를 놓는 것으로, 25개의 칩을 연결하여 1개의 타일을 만드는 것과는 달리 도조 타일을 생성합니다.
5월 20일 - 머스크는 Giga Texas 공장 확장 부분의 후면이 “물에 잠길 정도로 밀도 높은, 물냉각 슈퍼컴퓨터 클러스터”를 포함한다고 언급합니다.
6월 4일 - CNBC 보도에 따르면 머스크가 테슬라에 예약된 수천 개의 Nvidia 칩을 X와 xAI로 돌려 보냈다는 것이 밝혀졌습니다. 이에 초기에 보도가 사실이 아니라고 말하던 머스크는 테슬라가 미국 텍사스의 남쪽 부분에 계속적인 건설로 인해 Nvidia 칩을 보낼 장소가 없다고 게시하며, “그래서 그것들은 창고에 그냥 놓인 채로 있었을 것입니다.”라고 언급합니다. 그는 곧 확장 부분이 “FSD 훈련을 위해 50k H100를 수용할 것”이라고 강조합니다.
그는 또한 게시합니다: “올해 테슬라가 AI 관련 지출액으로 약 100억 달러 중 약 반은 내부에, 주로 테슬라 디자인 AI 추론 컴퓨터와 모든 차량에 장착된 센서, 그리고 Dojo에 소요될 것입니다. AI 훈련 슈퍼클러스터를 구축하기 위한 NVidia 하드웨어 비용은 전체 비용의 2/3 정도이며, 테슬라에 의한 NVidia 구매에 대한 내 현재 최선의 추정은 올해 30억 달러에서 40억 달러 일 것입니다.”
7월 1일 - 머스크는 현재의 테슬라 차량에는 회사의 차세대 AI 모델에 맞는 적합한 하드웨어가 없을 수도 있다고 X에서 밝혔습니다. 그는 다음 세대 AI로의 매개변수 증가로 약 5배를 달성하는 것은 차량 추론 컴퓨터를 업그레이드하지 않고는 매우 어렵다고 말했다.
Nvidia 공급에 대한 도전
7월 23일 - 테슬라의 제2분기 수익 발표 통화 중, 머스크는 Nvidia 하드웨어에 대한 수요가 “너무 높아 때로는 GPU를 얻기가 어렵다”고 말합니다. 그는 “따라서 우리가 필요한 훈련 능력을 보장하기 위해 Dojo에 더 많은 노력을 기울여야 할 것으로 판단됩니다. 우리는 Dojo를 통해