자체 생성한 코드 및 테스트 데이터만으로 대규모 언어 모델의 코드 생성 능력을 향상시키는 DSTC(Direct Preference Learning with Only Self-Generated Tests and Code) 방법론을 제시한다.
대규모 코드 생성 시 발생하는 토큰 제한, 의존성 관리, 반복적인 코드 개선 문제를 해결하기 위해 메인 코드와 의존성 파일 생성을 번갈아 수행하는 시소 생성 메커니즘을 제안하고, 실험을 통해 효율성 및 확장성을 검증했습니다.
본 설문 조사에서는 자연어에서 소스 코드를 생성하는 코드 생성 작업을 위해 특별히 설계된 코드 LLM의 최신 발전 사항을 다룹니다. 데이터 큐레이션, 최신 기술 발전, 성능 평가, 윤리적 의미, 환경적 영향 및 실제 애플리케이션과 같은 측면을 다룹니다.
CodeLutra는 적은 데이터만으로도 자체 생성한 성공 및 실패 코드 쌍을 비교 학습하여 LLM의 코드 생성 성능을 GPT-4 수준으로 향상시키는 프레임워크입니다.
본 논문에서는 LLM을 활용한 코드 생성에서 기존의 검색 방법들이 가진 다양성 부족 문제를 지적하고, 코드 생성을 코드 공간 내 블랙박스 최적화 문제로 정의하여 탐색 및 활용의 균형을 통한 효율적인 탐색 기법을 제시합니다.
대규모 언어 모델(LLM)을 기반으로 코드 생성 성능을 향상시키기 위해 트리 기반 검색 프레임워크인 코드트리를 제안하며, 이는 다양한 코딩 전략 탐색, 솔루션 생성 및 개선을 위한 에이전트 기반 접근 방식을 사용합니다.
KinetiX는 CPU 및 GPU 아키텍처에서 모두 높은 계산 효율성을 제공하도록 설계된 화학 반응 속도, 열역학 및 혼합 평균 전달 특성 계산 루틴을 생성하는 소프트웨어 툴킷입니다.
복잡한 코드 생성 작업의 효율성을 높이기 위해 분할 정복 전략과 함수적 합의 메커니즘을 결합한 새로운 코드 생성 프레임워크인 FUNCODER를 소개합니다.
본 논문에서는 언어 모델(LM)이 의사 코드 생성 및 에뮬레이션을 통해 알고리즘적 작업뿐만 아니라 상식 추론이나 사회적 추론과 같은 "소프트" 추론 작업까지 해결할 수 있는 COGEX라는 새로운 추론 패러다임을 제시합니다.
자연어 처리에서 코드 생성 성능을 향상시키기 위해 작업별 특징을 학습하는 잠재 개념 학습을 활용하여 관련 데모를 선택하는 DemoCraft 프레임워크를 제안한다.