{"benchmark_id":"bfcl-v2","name":"BFCL v2","parent_benchmark":null,"categories":["reasoning","general","tool_calling"],"modality":"text","multilingual":true,"max_score":1.0,"language":"en","description":"Berkeley Function Calling Leaderboard (BFCL) v2 is a comprehensive benchmark for evaluating large language models' function calling capabilities. It features 2,251 question-function-answer pairs with enterprise and OSS-contributed functions, addressing data contamination and bias through live, user-contributed scenarios. The benchmark evaluates AST accuracy, executable accuracy, irrelevance detection, and relevance detection across multiple programming languages (Python, Java, JavaScript) and includes complex real-world function calling scenarios with multi-lingual prompts.","paper_link":"https://arxiv.org/abs/2305.15334","implementation_link":null,"verified":false,"created_at":"2026-05-07T16:53:21.884850+00:00","updated_at":"2026-07-05T18:27:43.920799+00:00","statistics":{"total_models":5,"average_score":0.7114,"min_score":0.636,"max_score":0.773,"score_stddev":0.056403014103857924,"verified_count":0,"self_reported_count":5},"child_benchmarks":[],"linked_dataset":null,"models":[{"rank":1,"model_id":"llama-3.3-70b-instruct","model_name":"Llama 3.3 70B Instruct","organization_id":"meta","organization_name":"Meta","organization_country":"US","score":0.773,"normalized_score":0.773,"verified":false,"self_reported":true,"self_reported_source":"https://github.com/meta-llama/llama-models/blob/main/models/llama3_3/MODEL_CARD.md","analysis_method":"-","verification_date":null,"provider_id":null,"input_cost_per_million":null,"output_cost_per_million":null,"context_window":null,"announcement_date":"2024-12-06","param_count":70000000000,"is_open_source":true,"is_new":false,"best_latency":null,"latency_provider":null,"best_throughput":null,"throughput_provider":null,"context_provider":null},{"rank":2,"model_id":"llama-3.1-nemotron-ultra-253b-v1","model_name":"Llama 3.1 Nemotron Ultra 253B v1","organization_id":"nvidia","organization_name":"NVIDIA","organization_country":"US","score":0.741,"normalized_score":0.741,"verified":false,"self_reported":true,"self_reported_source":"https://build.nvidia.com/nvidia/llama-3_1-nemotron-ultra-253b-v1/modelcard","analysis_method":"Score, Reasoning","verification_date":null,"provider_id":null,"input_cost_per_million":null,"output_cost_per_million":null,"context_window":null,"announcement_date":"2025-04-07","param_count":253000000000,"is_open_source":true,"is_new":false,"best_latency":null,"latency_provider":null,"best_throughput":null,"throughput_provider":null,"context_provider":null},{"rank":3,"model_id":"llama-3.3-nemotron-super-49b-v1","model_name":"Llama-3.3 Nemotron Super 49B v1","organization_id":"nvidia","organization_name":"NVIDIA","organization_country":"US","score":0.737,"normalized_score":0.737,"verified":false,"self_reported":true,"self_reported_source":"https://build.nvidia.com/nvidia/llama-3_3-nemotron-super-49b-v1/modelcard","analysis_method":"Score, Reasoning On","verification_date":null,"provider_id":null,"input_cost_per_million":null,"output_cost_per_million":null,"context_window":null,"announcement_date":"2025-03-18","param_count":49900000000,"is_open_source":true,"is_new":false,"best_latency":null,"latency_provider":null,"best_throughput":null,"throughput_provider":null,"context_provider":null},{"rank":4,"model_id":"llama-3.2-3b-instruct","model_name":"Llama 3.2 3B Instruct","organization_id":"meta","organization_name":"Meta","organization_country":"US","score":0.67,"normalized_score":0.67,"verified":false,"self_reported":true,"self_reported_source":"https://huggingface.co/meta-llama/Llama-3.2-3B-Instruct","analysis_method":"0-shot, acc","verification_date":null,"provider_id":null,"input_cost_per_million":null,"output_cost_per_million":null,"context_window":null,"announcement_date":"2024-09-25","param_count":3210000000,"is_open_source":true,"is_new":false,"best_latency":null,"latency_provider":null,"best_throughput":null,"throughput_provider":null,"context_provider":null},{"rank":5,"model_id":"llama-3.1-nemotron-nano-8b-v1","model_name":"Llama 3.1 Nemotron Nano 8B V1","organization_id":"nvidia","organization_name":"NVIDIA","organization_country":"US","score":0.636,"normalized_score":0.636,"verified":false,"self_reported":true,"self_reported_source":"https://build.nvidia.com/nvidia/llama-3_1-nemotron-nano-8b-v1/modelcard","analysis_method":"Score, Reasoning","verification_date":null,"provider_id":null,"input_cost_per_million":null,"output_cost_per_million":null,"context_window":null,"announcement_date":"2025-03-18","param_count":8000000000,"is_open_source":true,"is_new":false,"best_latency":null,"latency_provider":null,"best_throughput":null,"throughput_provider":null,"context_provider":null}]}