AutoCodeBench: Large Language Models are Automatic Code Benchmark Generators

Jason Chou^*, Ao Liu^*, Yuchi Deng, Zhiying Zeng, Tao Zhang, Haotian Zhu, Jianwei Cai,

Yue Mao, Chenchen Zhang, Lingyun Tan, Ziyan Xu, Bohui Zhai, Hengyi Liu, Speed Zhu,

Wiggin Zhou^† Fengzong Lian^†

jasonchou9877@gmail.com; {nickaliu,wigginzhou,faxonlian}@tencent.com

Hunyuan Team, Tencent

^*Equal Contributions ^†Corresponding Authors

Paper Code Data Home

AutoCodeBench-v2 Leaderboard

HumanEval Overfitting

HumanEval Overfitting