AI Evaluations | Lawrence Chan

AI Evaluations | Lawrence Chanhttps://chanlawrence.me/tag/ai-evaluations/AI EvaluationsWowchemy (https://wowchemy.com)en-usWed, 19 Mar 2025 00:00:00 +0000https://chanlawrence.me/media/sharing.jpegAI Evaluationshttps://chanlawrence.me/tag/ai-evaluations/Measuring AI Ability to Complete Long Software Taskshttps://chanlawrence.me/publication/kwa-2025-measuring/Wed, 19 Mar 2025 00:00:00 +0000https://chanlawrence.me/publication/kwa-2025-measuring/HCAST: Human-Calibrated Autonomy Software Taskshttps://chanlawrence.me/publication/rein-2025-hcast/Tue, 18 Mar 2025 00:00:00 +0000https://chanlawrence.me/publication/rein-2025-hcast/