Статистическая погрешность — это та неопределенность в оценке истинного значения измеряемой величины, которая возникает из-за того, что несколько повторных измерений тем же самым инструментом дали различающиеся результаты. Возникает она, как правило, из-за того, что результаты измерения в микромире не фиксированы, а вероятностны. Она тесно связана с объемом статистики: обычно чем больше данных, тем меньше статистическая погрешность и тем точнее результат измерения. Среди всех типов погрешностей она, пожалуй, самая безобидная: понятно, как ее считать, и понятно, как с ней бороться.
Статистическая погрешность: чуть подробнее
Предположим, что ваш детектор может очень точно измерить какую-то величину в каждом конкретном столкновении. Это может быть энергия или импульс какой-то родившейся частицы, или дискретная величина (например, сколько мюонов родилось в событии), или вообще элементарный ответ «да» или «нет» на какой-то вопрос (например, родилась ли в этом событии хоть одна частица с импульсом больше 100 ГэВ).
Это конкретное число, полученное в одном столкновении, почти бессмысленно. Скажем, взяли вы одно событие и выяснили, что в нём хиггсовский бозон не родился. Никакой научной пользы от такого единичного факта нет. Законы микромира вероятностны, и если вы организуете абсолютно такое же столкновение протонов, то картина рождения частиц вовсе не обязана повторяться, она может оказаться совсем другой. Если бозон не родился сейчас, не родился в следующем столкновении, то это еще ничего не говорит о том, может ли он родиться вообще и как это соотносится с теоретическими предсказаниями. Для того, чтобы получить какое-то осмысленное число в экспериментах с элементарными частицами, надо повторить эксперимент много раз и набрать статистику одинаковых столкновений. Всё свое рабочее время коллайдеры именно этим и занимаются, они накапливают статистику, которую потом будут обрабатывать экспериментаторы.
В каждом конкретном столкновении результат измерения может быть разный. Наберем статистику столкновений и усредним по ней результат. Этот средний результат, конечно, тоже не фиксирован, он может меняться в зависимости от статистики, но он будет намного стабильнее, он не будет так сильно прыгать от одной статистической выборки к другой. У него тоже есть некая неопределенность (в статистическом анализе она так и называется: «неопределенность среднего»), но она обычно небольшая. Вот эта величина и называется статистической погрешностью измерения.
Итак, когда экспериментаторы предъявляют измерение какой-то величины, то они сообщают результат усреднения этой величины по всей набранной статистике столкновений и сопровождают его статистической погрешностью. Именно такие средние значения имеют физический смысл, только их может предсказывать теория.
Есть, конечно, и иной источник статистической погрешности: недостаточный контроль условий эксперимента при повторном измерении. Если в физике частиц этот источник можно попытаться устранить, по крайней мере, в принципе, то в других разделах естественных наук он выходит на первый план; например, в медицинских исследованиях каждый человек отличается от другого по большому числу параметров.
Как считать статистическую погрешность?
Существует теория расчета статистической погрешности, в которую мы, конечно, вдаваться не будем. Но есть одно очень простое правило, которое легко запомнить и которое срабатывает почти всегда. Пусть у вас есть статистическая выборка из N столкновений и в ней присутствует n событий какого-то определенного типа. Тогда в другой статистической выборке из N событий, набранной в тех же условиях, можно ожидать примерно n ± √n таких событий. Поделив это на N, мы получим среднюю вероятность встретить такое событие и погрешность среднего: n/N ± √n/N. Оценка истинного значения вероятности такого типа события примерно соответствует этому выражению.
Сразу же, впрочем, подчеркнем, что эта простая оценка начинает сильно «врать», когда количество событий очень мало. В науке обсчета маленькой статистики есть много дополнительных тонкостей.
Более серьезное (но умеренно краткое) введение в методы статистической обработки данных в применении к экспериментам на LHC см. в лекциях arXiv.1307.2487.
Пример 1
Предположим, вы хотите измерить вероятность какого-то очень редкого распада определенного мезона. Вы набрали статистику в миллион событий рождения и распада этого мезона, и среди них обнаружилось 20 событий нужного вам типа распада. Тогда по приведенным выше формулам вы получаете результат: измеренная в эксперименте вероятность распада равна (2 ± 0,45)·10–5. Вы определили эту величину с точностью примерно 25%.
Объем статистики имеет значение!
Продолжим этот пример. Предположим, вам такая точность показалась недостаточной, вам хочется уменьшить статистическую погрешность. В ситуации, когда и детектор, и методика отбора уже работают идеально, это можно сделать только одним способом — накопить побольше статистики.
Для этого вы решили подождать существенно больше времени и в конце концов накопили аж 25 миллионов событий рождения и распада этого мезона. Обработка данных выявила, скажем, 440 событий нужного типа. Значит, по уточненным данным вероятность распада равна (1,76 ± 0,08)·10–5. В пределах статистических погрешностей старое и новое измерение согласуются друг с другом. Но второе измерение намного точнее. Скажем, если теория предсказывает вероятность 1,4·10–5, то старое измерение ему, в общем-то, не противоречит (отличие чуть больше, чем на одно стандартное отклонение, что совершенно в норме), а вот новое измерение от него сильно отличается, на 4,5 стандартных отклонений. Это уже серьезный повод заговорить о несовпадении теории с экспериментом.
Именно поэтому эксперименты в физике элементарных частиц стараются оптимизировать не только по энергии, но и по светимости. Ведь чем больше светимость, тем больше столкновений будет произведено — значит, тем больше будет статистическая выборка. И уже это позволит сделать измерения более точными — даже без каких-либо улучшений в эксперименте. Примерная зависимость тут такая: если вы увеличите статистику в k раз, то относительные статистические погрешности уменьшатся примерно в √k раз.
Пример 2
Если речь идет не просто о подсчетах событий, а об измерении непрерывной величины, то там статистическая погрешность тоже присутствует, но вычисляется она чуть сложнее.
Предположим, вы хотите измерить массу какой-то новой, только что открытой частицы. Частица эта рождается редко, и у вас из всей статистики набралось лишь четыре события рождения этой частицы. В каждом событии вы измерили ее массу, и у вас получилось четыре результата (мы здесь намеренно опускаем возможные систематические погрешности): 755 МэВ, 805 МэВ, 770 МэВ, 730 МэВ. Теперь можно взять область масс от 700 до 850 МэВ и поставить на ней эти четыре точки (рис. 1). Поскольку каждая точка отвечает одному событию с данной массой, мы каждой точке присваиваем погрешность ±1 событие. То, что массы разные, — совершенно нормально, поскольку у нестабильных частиц есть некая «размазка» по массе. Поэтому, согласно теории, ожидается некая плавная кривая, и когда физики говорят про массу нестабильной частицы, они имеют в виду положение максимума этой кривой. Она тоже показана на рис. 1, но только положение и ширина этой кривой заранее неизвестны, они определяются по наилучшему соответствию с данными.
Рис. 1. Данные из примера в виде «экспериментального» графика. Каждая точка отвечает одному событию при данной массе. Пунктирная кривая показывает типичное теоретическое ожидание для распределения «экспериментальных» точек
Из-за того что данных очень мало, мы можем провести эту кривую так, как показано на рисунке, а можем и немножко сместить ее в стороны — и так, и эдак будет осмысленное совпадение. Вычислив среднее значение массы, можно получить положение пика этой кривой, а также его неопределенность: 765 ± 15 МэВ. Эта неопределенность целиком и полностью обязана разным результатам измерений, она и является статистической погрешностью измерения.
Рис. 2. То же, что на рис. 1, но уже на статистике в 60 «экспериментальных» точек
Если мы наберем побольше событий рождения и распада этой частицы, мы сможем увеличить статистику. На рис. 2 показано, как мог бы выглядеть тот же график, если бы у нас уже было 60 событий. Распределение событий по массе начинает приобретать какую-то форму, которая действительно отдаленно напоминает широкий пик, спадающий по краям.
Этот пример — некая симуляция того, как могло бы происходить измерение массы ρ-мезона свыше полувека назад, на заре адронной физики, если бы он был вначале обнаружен в процессе e+e– → π+π–. А теперь перенесемся в наше время.
Рис. 3. Сечение процесса e+e– → π+π– в области энергий от 700 до 850 МэВ, в которой четко проступают ρ-мезон и ω-мезон. Здесь собраны данные восьми экспериментов, изучавших этот процесс. Статистические погрешности измерений детектора BaBar едва заметны глазом. Изображение из статьи arXiv:1010.4180
Сейчас этот процесс изучен вдоль и поперек, статистика набрана огромная (миллионы событий), а значит, и масса ρ-мезона сейчас определена несравнимо точнее. На рис. 3 показано современное состояние дел в этой области масс. Если ранние эксперименты еще имели какие-то существенные погрешности, то сейчас они практически неразличимы глазом. Огромная статистика позволила не только измерить массу (примерно равна 775 МэВ с точностью в десятые доли МэВ), но и заметить очень странную форму этого пика. Такая форма получается потому, что практически в том же месте на шкале масс находится и другой мезон, ω(782), который «вмешивается» в процесс и искажает форму ρ-мезонного пика.
Другой, гораздо более реальный пример влияния статистики на процесс поиска и изучения хиггсовского бозона обсуждался в новости Анимации показывают, как в данных LHC зарождался хиггсовский сигнал.