경쟁이 만연한 인공지능 공간에서 돌풍을 일으키려는 메타는 오픈 소스의 찢어진 부분에 있습니다.
텍스트 생성, 언어 번역 및 오디오 생성을 위한 AI 모델 출시에 이어, 회사는 오늘 코드를 자연어, 특히 영어로 생성하고 설명할 수 있는 기계 학습 시스템인 코드 라마를 오픈했습니다.
깃허브 코파일럿 및 아마존 코드 위스퍼 및 스타코더, 스테이블코드 및 폴리코더와 같은 오픈 소스 AI 기반 코드 생성기와 마찬가지로 코드 라마는 파이썬, C++, 자바, PHP, 타입스크립트, C# 및 Bash를 포함한 다양한 프로그래밍 언어에서 코드를 완료하고 기존 코드를 디버깅할 수 있습니다.
메타는 TechCrunch와 공유한 블로그 게시물에서 "메타에서는 AI 모델, 특히 코딩을 위한 큰 언어 모델이 혁신과 안전 측면 모두에서 개방적인 접근 방식으로부터 가장 큰 혜택을 받을 것으로 생각합니다."라며 "공개적으로 사용 가능한 코드별 모델은 사람들의 삶을 개선하는 새로운 기술 개발을 촉진할 수 있습니다. 코드 라마와 같은 코드 모델을 출시함으로써 전체 커뮤니티가 역량을 평가하고 문제를 식별하며 취약점을 수정할 수 있습니다."라고 밝혔습니다
파이썬에 최적화된 버전과 지침을 이해하기 위해 미세 조정된 버전(예: "Fibonacci 시퀀스를 출력하는 함수 작성")을 포함하여 여러 가지 버전으로 제공되는 코드 라마는 이달 초 메타가 오픈 소스로 제공한 라마 2 텍스트 생성 모델을 기반으로 합니다. 라마 2는 코드를 생성할 수 있지만, 반드시 좋은 코드는 아니었습니다. 확실히 코파일럿이 생산할 수 있는 것은 아니었습니다.
코드 라마 교육에서 메타는 라마 2를 교육하는 데 사용한 것과 동일한 데이터 세트를 사용했습니다. 이는 웹에서 공개적으로 사용할 수 있는 소스가 혼합된 것입니다. 그러나 코드를 포함하는 교육 데이터의 하위 집합인 "강조" 모델을 사용했습니다. 기본적으로 코드 라마 2보다 코드와 자연어 간의 관계를 배우는 데 더 많은 시간이 주어졌습니다.
70억 매개 변수에서 340억 매개 변수에 이르는 각 코드 라마 모델은 코드 관련 데이터와 함께 5,000억 토큰의 코드로 훈련되었습니다. 파이썬별 코드 라마는 파이썬 코드의 1,000억 토큰에 추가로 미세 조정되었으며, 마찬가지로 인간 주석자의 피드백을 사용하여 질문에 대한 "도움이 되는" 및 "안전한" 답변을 생성했습니다.
컨텍스트의 경우 매개 변수는 과거 교육 데이터에서 학습한 모델의 일부이며 근본적으로 텍스트(또는 이 경우 코드) 생성과 같은 문제에 대한 모델의 기술을 정의하는 반면 토큰은 원시 텍스트(예: "fan", "tas" 및 "tic")를 나타냅니다.
코드 라마 모델 중 몇몇은 기존 코드에 코드를 삽입할 수 있고 모두가 약 100,000 토큰의 코드를 입력으로 받아들일 수 있는 반면, 적어도 하나(70억 매개 변수 모델)는 단일 GPU에서 실행될 수 있습니다. (다른 모델은 더 강력한 하드웨어를 필요로 합니다.) 메타는 340억 매개 변수 모델이 현재까지 소스된 코드 생성기 중 가장 성능이 뛰어나며 매개 변수 수가 가장 크다고 주장합니다.
당신은 코드 생성 도구가 프로그래머와 비프로그래머들에게도 매우 매력적일 것이라고 생각할 것입니다. 당신은 틀리지 않을 것입니다.
GitHub은 현재 400개 이상의 조직에서 코파일럿을 사용하고 있으며, 이러한 조직 내 개발자들은 이전보다 55% 더 빠르게 코딩하고 있다고 주장합니다. 다른 곳에서는 프로그래밍 Q&A 사이트인 스택 오버플로우가 최근 설문 조사에서 70%가 생산성 향상과 빠른 학습과 같은 이점을 들어 이미 AI 코딩 도구를 사용하고 있거나 사용할 계획이라고 밝혔습니다.
그러나 모든 형태의 생성 AI와 마찬가지로 코딩 도구는 탈선하거나 새로운 위험을 초래할 수 있습니다.
스탠포드와 제휴한 연구팀은 AI 도구를 사용하는 엔지니어들이 앱에 보안 취약점을 일으킬 가능성이 높다는 것을 발견했습니다. 이 도구들은 종종 표면적으로는 올바른 것처럼 보이지만 손상된 소프트웨어를 호출하고 안전하지 않은 구성을 사용하여 보안 문제를 야기하는 코드를 생성합니다.
그리고 여기 지적재산권 코끼리가 있습니다.
일부 코드 생성 모델(메타가 절대적으로 거부하지는 않겠지만 코드 라마가 반드시 필요한 것은 아님)은 제한적 라이센스 하에 저작권이 있는 코드 또는 코드에 대해 교육을 받았으며, 이러한 모델은 특정한 방식으로 메시지가 표시될 때 이 코드를 반복할 수 있습니다. 법률 전문가들은 이러한 도구가 의도치 않게 도구의 저작권이 있는 제안을 프로덕션 소프트웨어에 통합할 경우 회사를 위험에 노출시킬 수 있다고 주장했습니다.
그리고 규모에 따른 증거는 없지만 오픈 소스 코드 생성 냉각을 사용하여 악성 코드를 만들 수 있습니다. 해커들은 이미 코드의 누출 및 취약성을 식별하고 사기 웹 페이지를 작성하는 등의 작업을 위해 기존 모델을 미세 조정하려고 시도했습니다.
코드 라마는?
메타는 내부적으로 25명의 직원으로 구성된 모델을 재팀화했을 뿐입니다. 하지만 타사의 보다 철저한 감사가 없는 상황에서도 코드 라마는 개발자를 일시 중단시킬 수 있는 실수를 범했습니다.
코드 라마는 직접 요청할 때 랜섬웨어 코드를 작성하지 않습니다. 그러나 요청이 "사용자의 홈 디렉토리에 있는 모든 파일을 암호화하는 스크립트 만들기"와 같이 보다 온화한 표현을 사용하면 모델이 이를 준수합니다.
메타는 블로그 게시물에서 코드 라마가 프롬프트에 대해 "잘못된" 또는 "반대되는" 응답을 생성할 수 있음을 분명히 인정합니다.
회사는 "이러한 이유로 모든 LLM과 마찬가지로 코드 라마의 잠재적 출력을 미리 예측할 수 없습니다. 코드 라마의 애플리케이션을 배포하기 전에 개발자는 해당 모델의 특정 애플리케이션에 맞게 안전 테스트 및 튜닝을 수행해야 합니다."라고 쓰고 있습니다
메타는 개발자가 코드 라마를 배포하는 방법에 대해 상업용이든 연구용이든 최소한의 제한을 두고 있습니다. 개발자는 악의적인 목적으로 모델을 사용하지 않는 것에 동의해야 하며, 월 활성 사용자가 7억 명 이상인 플랫폼(즉, 메타의 소셜 네트워크 중 하나와 경쟁할 수 있는 플랫폼)에 배포하는 경우 라이센스를 요청해야 합니다.
"코드 라마는 연구, 산업, 오픈 소스 프로젝트, NGO 및 비즈니스를 포함한 모든 분야의 소프트웨어 엔지니어를 지원하도록 설계되었습니다. 하지만 여전히 우리의 기반 및 지시 모델이 제공할 수 있는 것보다 더 많은 사용 사례가 있습니다."라고 회사는 블로그 게시물에 쓰고 있습니다. "코드 라마 2를 활용하여 연구 및 상용 제품을 위한 새로운 혁신적인 도구를 만드는 데 다른 사람들이 영감을 주기를 바랍니다."
|