UC Berkeley 연구원들이 Gorilla를 소개합니다: 미세 조정된 LLaMA

블로그

홈페이지홈페이지 / 블로그 / UC Berkeley 연구원들이 Gorilla를 소개합니다: 미세 조정된 LLaMA

Jul 08, 2023

UC Berkeley 연구원들이 Gorilla를 소개합니다: 미세 조정된 LLaMA

최근 인공지능 분야의 획기적인 발전은

인공 지능 분야의 최근 획기적인 발전은 LLM(Large Language Models)의 도입입니다. 이러한 모델을 통해 우리는 언어를 보다 간결하게 이해할 수 있으므로 자연어 처리(NLP) 및 자연어 이해(NLU)를 최대한 활용할 수 있습니다. 이러한 모델은 텍스트 요약, 질문 답변, 콘텐츠 생성, 언어 번역 등을 포함한 다른 모든 작업에서 좋은 성능을 발휘합니다. 복잡한 텍스트 프롬프트, 심지어 추론과 논리가 있는 텍스트도 이해하고 해당 데이터 간의 패턴과 관계를 식별합니다.

언어 모델은 놀라운 성능을 보여주고 최근 다양한 작업에 대한 역량을 입증하여 눈에 띄게 발전했지만, API 호출을 통해 도구를 효율적으로 사용하는 것은 여전히 ​​어려운 일입니다. GPT-4와 같은 유명한 LLM조차도 정확한 입력 인수를 생성하는 데 어려움을 겪고 부적절한 API 호출을 권장하는 경우가 많습니다. 이 문제를 해결하기 위해 Berkeley와 Microsoft Research 연구진은 API 호출 생성 측면에서 GPT-4를 능가하는 미세 조정된 LLaMA 기반 모델인 Gorilla를 제안했습니다. Gorilla는 적절한 API를 선택하는 데 도움을 주어 특정 활동을 수행하기 위해 외부 도구를 사용하는 LLM의 역량을 향상시킵니다.

연구진은 또한 기능이 겹치는 상당한 규모의 API 모음으로 구성된 APIBench 데이터 세트를 만들었습니다. 데이터 세트는 ML API용 TorchHub, TensorHub 및 HuggingFace와 같은 공개 모델 허브를 수집하여 생성되었습니다. TorchHub 및 TensorHub의 모든 API 요청은 각 API에 포함되며 각 작업 범주에 대해 HuggingFace의 상위 20개 모델이 선택됩니다. 또한 자체 지시 방법을 사용하여 각 API에 대해 10개의 가상 사용자 쿼리 프롬프트를 생성합니다.

연구원들은 이 APIBench 데이터 세트와 문서 검색을 사용하여 Gorilla를 미세 조정했습니다. 70억 개의 매개변수 모델인 Gorilla는 API 기능의 정확성 측면에서 GPT-4를 능가하고 환각 오류를 낮춥니다. 문서 검색기와 Gorilla의 효과적인 통합은 LLM이 도구를 보다 정확하게 사용할 수 있는 가능성을 보여줍니다. Gorilla의 향상된 API 호출 생성 기능과 필요에 따라 문서를 수정하는 기능은 모델 결과의 적용성과 신뢰성을 향상시킵니다. 이러한 개발은 LLM이 정기적으로 업데이트되는 문서를 따라잡아 사용자에게 보다 정확하고 최신 정보를 제공할 수 있기 때문에 중요합니다.

연구원들이 공유한 예 중 하나는 Gorilla가 작업을 올바르게 인식하고 완전한 API 결과를 제공하는 방법을 보여줍니다. 모델에 의해 생성된 API 호출은 GPT-4가 가상 모델에 대한 API 요청을 생성하는 것으로 나타났으며, 이는 작업에 대한 이해가 부족함을 보여줍니다. Claude는 잘못된 라이브러리를 선택하여 올바른 리소스를 인식하는 능력이 부족함을 보여줍니다. 대조적으로 고릴라는 작업을 정확하게 인식했습니다. 따라서 Gorilla는 API 호출 생성이 정확하여 향상된 성능과 작업 이해력을 모두 입증한다는 점에서 GPT-4 및 Claude와 다릅니다.

결론적으로 Gorilla는 API 호출 작성 문제까지 해결하므로 언어 ​​모델 목록에 추가된 주요 제품입니다. 그 기능을 통해 환각 및 신뢰성과 관련된 문제를 줄일 수 있습니다.

확인해 보세요종이, Github 링크, 그리고프로젝트 페이지.잊지 말고 꼭 가입하세요22,000개가 넘는 ML SubReddit,디스코드 채널, 그리고이메일 뉴스레터 에서는 최신 AI 연구 뉴스, 멋진 AI 프로젝트 등을 공유합니다. 위 기사와 관련하여 질문이 있거나 누락된 내용이 있는 경우 언제든지 이메일을 보내주세요.[email protected]

🚀 AI 도구 클럽에서 100가지 AI 도구를 확인하세요

Tanya Malhotra는 Dehradun의 석유 및 에너지 연구 대학에서 인공 지능 및 기계 학습을 전문으로 하는 컴퓨터 과학 공학 BTech를 추구하는 학부 마지막 학년입니다. 새로운 기술을 습득하고, 그룹을 이끌고, 조직적인 방식으로 업무를 관리하는 데 열렬한 관심을 갖고 있습니다.