Very exciting!<br><br><div class="gmail_quote">On Thu, Jan 19, 2012 at 3:20 PM, Ryosuke Niwa <span dir="ltr"><<a href="mailto:rniwa@webkit.org">rniwa@webkit.org</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

<div><div>I didn't merge it into <font face="'courier new', monospace">run-webkit-tests</font> because performance tests don't pass/fail but instead give us some values that fluctuate over time. While Chromium takes an approach to hard-code the rage of acceptable values, such an approach has a high maintenance cost and prone to problems such as having to increase the range periodically as the score slowly degrades over time. Also, as you can see on <a href="http://build.chromium.org/p/chromium.perf/console" target="_blank">Chromium perf bots</a>, the test results tend to fluctuate a lot so hard-coding a tight range of acceptable value is tricky.</div>

</div></blockquote><div><br></div><div>While this isn't perfect, I still think it's worth doing. Turning the bot red when a performance test fails badly is helpful for finding and reverting regressions quickly, which in turn helps identify smaller regressions more easily (large regressions mask smaller ones). This doesn't help with small regressions as much because they're often in the range of acceptable values.</div>

<div><br></div><div>In either case, we have to get the bots running the tests and work on getting reliable data first. </div></div>