자체 생성한 코드 및 테스트 데이터만으로 대규모 언어 모델의 코드 생성 능력을 향상시키는 DSTC(Direct Preference Learning with Only Self-Generated Tests and Code) 방법론을 제시한다.
대규모 언어 모델(LLM)의 코드 생성 능력을 향상시키기 위해 몬테카를로 트리 탐색(MCTS) 기반 자기 주도적 추론 증강 방식인 SRA-MCTS를 제안하며, 이는 다양한 중간 추론 경로를 생성하여 모델의 자율적인 사고를 촉진하고, 특히 소규모 모델의 성능을 크게 향상시킵니다.
대규모 코드 생성 시 발생하는 토큰 제한, 의존성 관리, 반복적인 코드 개선 문제를 해결하기 위해 메인 코드와 의존성 파일 생성을 번갈아 수행하는 시소 생성 메커니즘을 제안하고, 실험을 통해 효율성 및 확장성을 검증했습니다.
본 설문 조사에서는 자연어에서 소스 코드를 생성하는 코드 생성 작업을 위해 특별히 설계된 코드 LLM의 최신 발전 사항을 다룹니다. 데이터 큐레이션, 최신 기술 발전, 성능 평가, 윤리적 의미, 환경적 영향 및 실제 애플리케이션과 같은 측면을 다룹니다.
대규모 언어 모델(LLM)의 코드 생성 성능을 향상시키기 위해 백트래킹 메커니즘과 프로그램 분석을 통합한 ROCODE라는 새로운 접근 방식을 제안합니다.
대규모 언어 모델(LLM)을 사용한 검색 증강 코드 생성(RaCG)에서 사용자 쿼리에 대한 응답 가능성을 평가하는 것은 생성된 코드의 정확성을 높이는 데 중요하며, 이를 위한 벤치마크 데이터셋(RaCGEval) 구축과 평가 모델 성능 향상을 위한 연구가 필요하다.
CodeLutra는 적은 데이터만으로도 자체 생성한 성공 및 실패 코드 쌍을 비교 학습하여 LLM의 코드 생성 성능을 GPT-4 수준으로 향상시키는 프레임워크입니다.
본 논문에서는 LLM을 활용한 코드 생성에서 기존의 검색 방법들이 가진 다양성 부족 문제를 지적하고, 코드 생성을 코드 공간 내 블랙박스 최적화 문제로 정의하여 탐색 및 활용의 균형을 통한 효율적인 탐색 기법을 제시합니다.
대규모 언어 모델(LLM)을 기반으로 코드 생성 성능을 향상시키기 위해 트리 기반 검색 프레임워크인 코드트리를 제안하며, 이는 다양한 코딩 전략 탐색, 솔루션 생성 및 개선을 위한 에이전트 기반 접근 방식을 사용합니다.
DeTikZify는 스케치나 기존 그림을 입력으로 받아 TikZ 그래픽 프로그램을 자동으로 생성하는 multimodal language model로, 과학 그림 제작을 위한 새로운 접근 방식을 제시합니다.