29 марта 2024, пятница, 10:04
TelegramVK.comTwitterYouTubeЯндекс.ДзенОдноклассники

НОВОСТИ

СТАТЬИ

PRO SCIENCE

МЕДЛЕННОЕ ЧТЕНИЕ

ЛЕКЦИИ

АВТОРЫ

04 ноября 2022, 18:00

Голая статистика

Издательство «Манн, Иванов и Фербер» представляет книгу Чарльза Уилана «Голая статистика. Самая интересная книга о самой скучной науке» (перевод Ивана Веригина).

Статистика помогает принимать важные решения, находить скрытые взаимосвязи между явлениями, лучше понимать ситуацию в бизнесе и на рынке. Автор книги профессор Чарльз Уилан с юмором и блестящими наглядными примерами рассказывает о том, как это происходит. Эта книга будет полезной для студентов, которые не любят и не понимают статистику, но хотят в ней разобраться, для маркетологов, менеджеров и аналитиков, которые хотят понимать статистические показатели и анализировать данные, а также для всех, кому интересно, как устроена статистика

Предлагаем прочитать фрагмент книги.

 

Регрессионный анализ

Волшебный эликсир

Может ли стресс на работе стать причиной вашей смерти? Да, вполне. Существуют убедительные доказательства того, что суровые условия на работе могут привести к преждевременной смерти, особенно в результате развития сердечно-сосудистых заболеваний. Однако это не тот вид стресса, о котором вы, наверное, подумали. Главы компаний, которым буквально каждый день приходится принимать чрезвычайно сложные и ответственные решения, определяющие дальнейшую судьбу их бизнеса, рискуют значительно меньше, чем их секретарши, бесконечно отвечающие на телефонные звонки, параллельно выполняя множество других задач, предусмотренных должностной инструкцией. Как такое может быть? Оказывается, самый опасный вид стресса на работе обусловлен невозможностью человека в достаточной степени контролировать способы и условия выполнения поставленных задач. Ряд исследований, проводившихся (по заказу правительства) в отношении тысяч британских мелких чиновников, показал, что от них практически не зависит, чем именно им предстоит заниматься и как именно это выполнять, что и является причиной их высокой смертности по сравнению с чиновниками более высоких рангов, ответственных за принятие важных решений. Согласно результатам исследования, человека убивает не стресс, связанный с повышенной ответственностью, а стресс, вызванный необходимостью делать работу, не имея возможности решать, как и когда.

Но не пугайтесь, эта глава не о стрессе на работе, сердечно-сосудистых заболеваниях или государственных служащих Британии. Нас прежде всего интересует, как ученые приходят к подобным выводам. Очевидно, что это не результат рандомизированного эксперимента. Мы не можем произвольно поручать людям некую работу, заставляя их долгие годы ею заниматься, а затем выяснять, кто из них раньше умер. (Случайным образом поручая людям выполнение тех или иных задач, мы рискуем нанести огромный вред государственной службе Британии, не говоря уже об этической стороне дела.) Вместо этого исследователи собирали о тысячах государственных служащих Британии подробные повторные данные, анализ которых позволяет выявить определенные связи, например между невозможностью человека в достаточной степени контролировать способы и условия выполнения своей работы и развитием сердечно-сосудистых заболеваний.

Но такой связи мало для того, чтобы сделать вывод о вреде тех или иных видов работ для здоровья человека. Если мы просто замечаем, что мелкие государственные служащие в иерархии британской государственной службы страдают сердечно-сосудистыми заболеваниями чаще других, то полученные нами результаты будут искажаться действием ряда других факторов.

Например, можно было бы ожидать, что уровень образования мелких чиновников окажется ниже, чем у чиновников более высоких рангов. Может также выясниться, что среди мелких государственных служащих больше курящих (не исключено, что это объясняется их неудовлетворенностью работой). Вполне вероятно, что у этих людей было трудное детство, и это сузило перспективы их будущего карьерного роста. Или их невысокий уровень доходов не позволяет им уделять должное внимание своему здоровью. И так далее. Дело в том, что любое сравнительное исследование — изменение состояния здоровья у большой группы британских работников или какой-то другой крупной группы населения — не позволяет нам сделать далеко идущие выводы. Возможно, что другие источники изменения полученных нами данных внесут искажения в интересующую нас связь. Можем ли мы быть уверены в том, что именно невозможность человека в достаточной степени контролировать содержание, способы и условия выполнения своей работы является подлинной причиной развития у него сердечно-сосудистых заболеваний? Или истинная причина — в сочетании действия ряда факторов, которые оказались общими для данной категории людей?

Статистический инструмент под названием регрессионный анализ помогает решить данную проблему. А если конкретнее, то регрессионный анализ позволяет нам измерить величину зависимости между какой-то переменной и интересующим нас исходом, зафиксировав действие всех прочих факторов. Другими словами, мы можем вычленить влияние одной переменной (например, занятие определенным родом деятельности), сохраняя на постоянном уровне действие других переменных. Регрессионный анализ использовался при проведении упоминавшегося нами исследования, которое проводилось по заказу британского правительства и имело своей целью оценить, как невозможность человека в достаточной степени контролировать содержание, способы и условия выполнения своей работы сказывается на состоянии здоровья людей, схожих во всех остальных отношениях, например курильщиков. (Рядовые работники действительно курят больше своих начальников; это объясняет относительно малую величину разброса в сердечно-сосудистых заболеваниях во всей иерархии британской государственной службы.)

Большинство исследований, о которых вам приходилось читать в прессе, основываются на регрессионном анализе. Когда ученые приходят к выводу, что у детей, посещавших детсад, чаще возникают проблемы с успеваемостью в начальной школе, чем у детей, которые воспитывались дома, это вовсе не означает, что они случайным образом сформировали выборку из нескольких тысяч детей, одну половину которых отправили в детсады, а другую оставили на попечении родителей. Это также не означает, что исследователи просто сравнили успеваемость в начальной школе детей, посещавших детсад, и детей, находившихся дома, не отдавая себе отчета в том, что эти две группы детей фундаментально разнятся между собой по ряду других показателей. В разных семьях принимаются разные решения относительно воспитания детей именно потому, что эти семьи — разные. В одних семьях детей воспитывают оба родителя, в других — только один. Есть семьи, где работают оба родителя, а есть — где только один. Какие-то семьи более состоятельны, образованны, какие-то менее. Все эти факторы так или иначе сказываются на принятии решений относительно воспитания детей и не могут не влиять на их успеваемость во время учебы в начальной школе. В случае надлежащего выполнения регрессионный анализ помогает оценить влияние воспитания, исключив из рассмотрения другие факторы воздействия на детей: семейный доход, структуру семьи, образование родителей и т. п.

В приведенном выше предложении есть два ключевых словосочетания. Первое: «в случае надлежащего выполнения». Сегодня при наличии соответствующих данных и доступа к персональному компьютеру даже шестилетний ребенок может воспользоваться какой-либо статистической программой для получения результатов регрессионного анализа, поскольку это не потребует практически никаких умственных усилий. Проблема не в выполнении регрессионного анализа как такового, главная трудность — определить, какие именно переменные следует рассматривать в этом анализе и как это лучше всего сделать. Регрессионный анализ подобен многим современным универсальным электромеханическим инструментам: им относительно легко пользоваться, но трудно это делать эффективно, не говоря уже о том, что при ненадлежащем использовании, то есть неумелом обращении, он оказывается потенциально опасен.

Второе важное словосочетание: «помогает оценить». Наше исследование воспитания детей не дает нам «правильного» ответа относительно зависимости между способом воспитания ребенка (в детсаду или дома) и его успеваемостью в начальной школе. Вместо этого оно оценивает величину этой связи у конкретной группы детей на определенном отрезке времени. Можем ли мы сделать выводы, применимые к более широкой совокупности? Да, но при этом нам придется иметь дело с такими же ограничениями и условиями, с какими мы сталкиваемся, делая любой другой статистический вывод. Во-первых, используемая нами выборка должна быть репрезентативной, то есть представлять всю интересующую нас совокупность. Исследование 2000 детей в Швеции не позволит нам прийти к сколь-нибудь значимым выводам относительно оптимальных методов дошкольного образования детей в сельскохозяйственных районах Мексики. И во-вторых, не следует забывать о существовании разброса между выборками. Если мы выполняем ряд исследований, касающихся детей и их воспитания, то их результаты будут несколько отличаться между собой, даже если используемые при этом методологии будут одинаковы и совершенно надежны.

Регрессионный анализ подобен проведению опросов общественного мнения. Обнадеживает то, что при применении крупной репрезентативной выборки и правильной методологии наблюдаемая взаимосвязь между данными выборки не должна существенно отличаться от истинной взаимосвязи для совокупности в целом. Если у 10 000 человек, занимающихся спортом не менее трех раз в неделю, уровень заболеваемости сердечно-сосудистой системы значительно ниже, чем у 10 000 человек, не занимающихся спортом (но не отличающихся от первых 10 000 человек во всех остальных отношениях), то весьма высока вероятность того, что мы будем наблюдать аналогичную связь между регулярными занятиями спортом и уровнем заболеваемости сердечно-сосудистой системы для более широкой совокупности. Именно поэтому мы выполняем исследования такого рода. (Задача ученых вовсе не в том, чтобы по завершении исследования упрекнуть тех, кто не занимается спортом и имеет проблемы с сердцем, что в свое время им не следовало игнорировать эти занятия.)

Плохо, однако, то, что мы не можем с полной уверенностью утверждать, что занятия спортом предотвращают возникновение сердечно-сосудистых заболеваний. Вместо этого мы отвергаем нулевую гипотезу о том, что занятия спортом никак не связаны с болезнями сердца. Отвергнуть ее нам позволяет достижение определенного статистического порога, выбранного еще до начала выполнения исследования. Если конкретнее, то авторы данного исследования должны были бы указать, что в случае, если занятия спортом никак не связаны с сердечно-сосудистыми заболеваниями, вероятность наблюдения столь заметной разницы в уровне заболеваемости сердечно-сосудистой системы между теми, кто регулярно занимается спортом, и теми, кто им не занимается, в этой крупной выборке должна быть менее 0,05 или ниже какого-то другого порога статистической значимости.

Давайте остановимся на мгновение и помашем нашим первым гигантским желтым флагом*. Допустим, что в этом конкретном исследовании сравнивалась большая группа людей, регулярно играющих в сквош, с людьми из такой же по величине группы, которые вообще не занимаются спортом. Игра в сквош обеспечивает неплохую нагрузку на сердечно-сосудистую систему. Однако нам также известно, что игроки в сквош — достаточно состоятельные люди, чтобы быть членами клубов, располагающих хорошими сквош-кортами. Богатые люди могут себе позволить уделять должное внимание здоровью, что также способствует снижению заболеваемости их сердечно-сосудистой системы. Если выполненный нами анализ страдает небрежностями, то хорошее состояние здоровья можно объяснить игрой в сквош, хотя на самом деле оно объясняется высокими доходами, которые дают человеку возможность играть в сквош (в таком случае даже увлечение игрой в поло можно при желании связать с хорошим состоянием здоровья, если, конечно, закрыть глаза на то, что во время игры в поло бóльшая часть физической работы выполняется лошадью).

Ничто не мешает нам также предположить, что причинно-следственные связи имеют противоположную направленность. Может быть, здоровое сердце является «причиной» того, что человек занимается спортом? Почему бы и нет! Те, кто не блещет здоровьем, — особенно люди с врожденными заболеваниями сердца, — не могут полноценно заниматься спортом, что вполне понятно. Вряд ли они в состоянии регулярно играть в сквош. Опять-таки, если выполненный нами анализ сделан небрежно или чрезмерно упрощен, утверждение о том, что занятия спортом способствуют улучшению здоровья, может лишь отражать то обстоятельство, что тем, кто им не блещет, бывает очень нелегко заниматься спортом. В этом случае игра в сквош никоим образом не улучшает состояние здоровья — а лишь отделяет здоровых от больных.

Существует так много потенциальных «регрессионных ловушек», что я решил посвятить их рассмотрению всю следующую главу. Пока же будем считать, что на нашем пути ни одна из них не встретится. Регрессионный анализ обладает замечательным свойством вычленять в каждом отдельном случае статистическую связь, которая представляет для нас интерес, например связь между невозможностью человека в достаточной степени контролировать содержание, способы и условия выполнения своей работы и развитием сердечно-сосудистых заболеваний, учитывая при этом другие факторы, которые могут внести в нее искажения.

Как действует данный механизм? Если нам известно, что мелкие государственные служащие Британии курят чаще, чем их начальники, то как нам определить, в какой мере плохое состояние их сердечно-сосудистой системы обусловлено спецификой работы, а в какой — этой пагубной привычкой? Оба фактора кажутся неразрывно связанными между собой.

Регрессионный анализ (выполненный надлежащим образом!) позволяет разделить эти факторы. Чтобы объяснить процесс на интуитивном уровне, мне придется начать с базовой идеи, лежащей в основе всех форм регрессионного анализа, от простейших статистических связей до сложных моделей, разработанных лауреатами Нобелевской премии. По своей сути регрессионный анализ стремится найти «наилучшее приближение» линейной зависимости между двумя переменными. Простой пример — зависимость между ростом и весом людей. Те, кто выше ростом, как правило, весят больше, хотя эта закономерность соблюдается не всегда. Если бы мы построили диаграмму разброса для роста и веса группы студентов-выпускников, то получили бы нечто наподобие того, что уже видели в главе 4.

Если бы вас попросили описать получившуюся картину, вы бы наверняка сказали что-то вроде: «Вес, по-видимому, увеличивается пропорционально росту». Такую догадку вряд ли можно назвать озарением. Регрессионный анализ позволяет нам пойти дальше и «провести линию», которая точнее всего отражает линейную зависимость между этими двумя переменными.

 

Можно провести множество линий, которые будут отражать соотношение между ростом и весом. Но как знать, какая из них это делает точнее всего? К тому же посредством какого критерия мы определяем эту линию? Регрессионный анализ обычно использует методологию под названием стандартный метод наименьших квадратов, МНК. Если читателя интересуют его технические подробности и он хочет узнать, почему МНК обеспечивает «наилучшее приближение», ему придется обратиться к более солидным учебникам по статистике. Ключевыми словами в названии МНК являются «наименьшие квадраты»: МНК определяет линию, минимизирующую сумму квадратов разностей. Это не настолько сложно, как может показаться на первый взгляд. Каждое наблюдение в нашей совокупности данных «рост/вес» характеризуется разностью, которая представляет собой его расстояние по вертикали от линии регрессии; это не относится к наблюдениям, расположенным непосредственно на линии: для них разность равняется нулю. (На представленной ниже диаграмме разброса разность отмечена для некоего гипотетического лица A.) На интуитивном уровне должно быть понятно, что чем больше сумма разностей в целом, тем худшее приближение обеспечивает данная линия. Единственное, что может быть непонятно в МНК на интуитивном уровне, это то, что в соответствующей формуле суммируются квадраты каждой разности (тем самым увеличивается весовой коэффициент, назначаемый наблюдениям, которые расположены особенно далеко от линии регрессии, то есть «отщепенцам»).

Обычный метод наименьших квадратов позволяет определить линию, которая минимизирует сумму квадратов разностей, как показано ниже.

 

Если технические подробности вызывают у вас головную боль, можете не обращать на них внимания. Важно запомнить главное: стандартный метод наименьших квадратов позволяет получить наилучшее описание линейной зависимости между двумя переменными. В результате мы получаем не только линию как таковую, но и — как вы, наверное, помните из курса геометрии в средней школе — уравнение, описывающее ее. Оно известно как уравнение регрессии и имеет следующий вид: y = a + bx, где y — вес в фунтах, a — отрезок, отсекаемый этой линией на оси Y (то есть значение y, когда x = 0), b — коэффициент наклона линии, а x — рост в дюймах. Коэффициент наклона b найденной нами линии описывает «наилучшую» линейную зависимость между ростом и весом для соответствующей выборки, как определяется стандартным методом наименьших квадратов.

Линия регрессии, конечно, не описывает идеальным образом каждое наблюдение в соответствующей совокупности данных. Но как бы то ни было, это лучшее из возможных описаний зависимости между весом и ростом человека. Это также означает, что каждое наблюдение можно объяснить как Вес = a + b(Рост) + e, где e — «разность», представляющая собой отклонение веса для каждого человека, которое не объясняется его ростом. Наконец, это означает, что наше оптимальное предположение относительно веса какого-либо человека в рассматриваемой совокупности даных будет иметь такой вид: a + b(Рост). Несмотря на то что большинство наблюдений не лежат непосредственно на линии регрессии, ожидаемая величина разности все же равняется нулю, поскольку вероятность того, что вес любого человека в выборке окажется больше, чем прогнозирует уравнение регрессии, равна вероятности того, что его вес окажется меньше, чем прогнозирует уравнение регрессии.

Впрочем, довольно теоретического жаргона! Давайте посмотрим на реальные данные роста и веса из исследования Americans’ Changing Lives. Правда, вначале мне придется прояснить кое-какую базовую терминологию. Переменная, которая подлежит объяснению, — в нашем случае это вес — называется зависимой переменной, так как она зависит от других факторов. Переменные, используемые для объяснения зависимой переменной, называются объясняющими переменными, поскольку они объясняют интересующий нас результат. (Чтобы еще больше запутать мозги, объясняющие переменные иногда называют независимыми или управляющими переменными.) Начнем с использования роста, чтобы объяснить вес участников исследования Americans’ Changing Lives, а впоследствии добавим другие потенциальные объясняющие факторы**. В исследовании Americans’ Changing Lives участвуют 3537 взрослых. В нашем случае это количество наблюдений, или n. (Иногда в научных статьях это обозначается так: n = 3537.) Когда мы выполняем простую регрессию по отношению к данным Americans’ Changing Lives, где вес — зависимая переменная, а рост — единственная объясняющая переменная, то получаем следующие результаты:

Вес = –135 + 4,5 × Рост в дюймах

a = –135. Это не что иное, как отрезок, отсекаемый линией регрессии на оси Y; никакого специального объяснения у этой величины нет. (Если интерпретировать ее буквально, то получается, что человек с нулевым ростом весил бы –135 фунтов [отрицательная величина]; очевидно, что это нонсенс с любой точки зрения.) Эту величину также называют константой, поскольку она является отправной точкой для вычисления веса всех наблюдений в исследовании.

b = 4,5. Наша оценка для b (4,5) называется коэффициентом регрессии или, на статистическом жаргоне, «коэффициентом по росту», поскольку такой коэффициент служит наилучшей оценкой зависимости между ростом и весом участников исследования Americans’ Changing Lives. У коэффициента регрессии имеется удобная интерпретация: увеличение на одну единицу независимой переменной (рост) ассоциируется с увеличением на 4,5 единицы зависимой переменной (вес). Для нашей выборки данных это означает, что увеличение роста на один дюйм сопряжено с увеличением веса на 4,5 фунта. Таким образом, если бы мы не располагали никакой другой информацией, то нашим оптимальным предположением относительно веса участника исследования Americans’ Changing Lives, рост которого составляет 5 футов и 10 дюймов (то есть 70 дюймов), было бы –135 + 4,5 × 70 = 180 фунтов.

Это наша победа, поскольку нам удалось получить численное выражение наилучшего приближения линейной зависимости между ростом и весом участников исследования Americans’ Changing Lives. Те же самые базовые инструменты можно использовать для исследования более сложных зависимостей и получения ответов на более социально значимые вопросы. При любом коэффициенте регрессии вас, по сути, будут интересовать три вещи: знак, величина и значимость.

Знак. Знак (положительный или отрицательный) при коэффициенте для независимой переменной указывает направление его связи с зависимой переменной (исход, который мы пытаемся объяснить). В рассматриваемом нами случае коэффициент по росту является положительным. Более высокие люди, как правило, имеют больший вес. Некоторые зависимости действуют в противоположном направлении. Скажем, можно ожидать, что связь между занятиями спортом и весом будет отрицательной. Если бы в исследовании Americans’ Changing Lives фигурировали, например, данные о «количестве миль, пробегаемых участником за один месяц», то я бы нисколько не сомневался, что коэффициент по «количеству пробегаемых миль» будет отрицательным: чем большее количество миль вы ежемесячно пробегаете, тем меньше ваш вес.

Величина. Насколько велика наблюдаемая нами зависимость между независимой и зависимой переменными? Можно ли считать ее величину существенной для нас? В рассматриваемом нами случае увеличение роста человека на дюйм ассоциируется с прибавкой веса на 4,5 фунта; в процентном выражении это значительная доля массы тела типичного человека. В объяснении того, почему одни люди весят больше, чем другие, рост, несомненно, является важным фактором. В других исследованиях мы можем обнаружить объясняющую переменную, которая оказывает статистически значимое влияние на интересующий нас исход (это означает, что наблюдаемый эффект вряд ли объясняется чистой случайностью), но оно порой бывает настолько малым, что может считаться несущественным, или незначимым. Например, допустим, что мы исследуем определяющие факторы дохода. Объясняющими переменными здесь могут быть образование, стаж работы и т. п. При использовании достаточно крупного набора данных ученые также могут прийти к выводу, что люди с более белыми зубами зарабатывают на 86 долларов в год больше, чем остальные работники, ceteris paribus. (Ceteris paribus по-латыни означает «при прочих равных условиях».) Положительный и статистически значимый коэффициент по переменной «белые зубы» предполагает, что те, кого мы сравниваем, в остальном (по уровню образования, рабочему стажу и т. п.) не различаются между собой. (Ниже я объясню, каким образом мы можем выполнить это условие.) Наш статистический анализ продемонстрировал, что более белые зубы ассоциируются с 86-долларовой прибавкой к годовому доходу и что этот эффект вряд ли объясняется чистой случайностью. Это означает, что 1) мы с достаточно высокой степенью уверенности отвергли основную (нулевую) гипотезу, гласящую, что наличие у человека белых зубов никак не связано с уровнем его годового дохода; и 2) если мы проанализируем другие выборки данных, то наверняка обнаружим аналогичную связь между хорошо выглядящими зубами и повышенным уровнем дохода.

Что же из этого следует? Мы выявили статистически значимый результат, хотя для нас он практически бесполезен. Начнем с того, что прибавка в 86 долларов к годовому доходу вряд ли существенно изменит уровень жизни человека. С экономической точки зрения она вряд ли оправдывает регулярное выполнение процедур по отбеливанию зубов, поскольку такие процедуры наверняка обойдутся гораздо дороже, поэтому нам не имеет смысла рекомендовать подобные инвестиции молодым работникам. И, несколько забегая вперед, я озаботился бы также рядом серьезных методологических проблем. Например, идеальный вид зубов может ассоциироваться с другими чертами характера человека, обусловливающими более высокий уровень его доходов: то есть дело не в зубах как таковых, а в том, что люди с высоким уровнем доходов, как правило, заботятся об их состоянии. Пока же для нас важно обратить внимание на степень (величину) наблюдаемой нами связи между объясняющей переменной и интересующим нас исходом.

Значимость. Является ли наблюдаемый нами результат заблуждением, обусловленным нерепрезентативной выборкой данных, или он отражает реально существующую связь, которая, скорее всего, будет присуща всей соответствующей совокупности? Это тот же самый фундаментальный вопрос, на который мы пытаемся ответить на протяжении нескольких последних глав. Можно ли ожидать в контексте роста и веса, что мы будем наблюдать аналогичную положительную ассоциацию в других выборках, которые являются репрезентативными по отношению к данной совокупности? Чтобы ответить на этот вопрос, используем уже знакомые вам базовые инструменты статистического вывода. Наш коэффициент регрессии основывается на наблюдаемой зависимости между ростом и весом для определенной выборки данных. Если бы мы тестировали более крупную выборку, то почти наверняка выявили бы несколько иную зависимость между ростом и весом и, следовательно, другой коэффициент регрессии. Зависимость между ростом и весом, наблюдаемая в данных, полученных британским правительством (напоминаю, что они касаются государственных служащих Британии), безусловно, будет отличаться от зависимости между ростом и весом для участников исследования Americans’ Changing Lives. Однако из центральной предельной теоремы следует, что среднее значение для большой, надлежащим образом сформированной выборки, как правило, не будет существенно отклоняться от среднего значения для генеральной совокупности. Аналогично мы можем предположить, что наблюдаемая зависимость между переменными, такими как рост и вес, тоже не будет значительно разниться от выборки к выборке, если, конечно, эти выборки будут достаточно крупными и надлежащим образом сформированными из одной и той же совокупности.

Вы должны понимать это на интуитивном уровне. Весьма маловероятно (хотя в принципе возможно), что, обнаружив зависимость между каждым дополнительным дюймом роста и дополнительными 4,5 фунта веса участников исследования Americans’ Changing Lives, мы в то же время не выявили бы никакой зависимости между ростом и весом в какой-то другой репрезентативной выборке, состоящей из 3000 взрослых американцев.

 

* Согласно Международному своду сигналов, поднятый желтый флаг означает карантин. Таким образом автор предостерегает читателя об «опасности» дальнейшего текста, где описывает возможные «ловушки» регрессионного анализа. — Прим. ред.

** Это упражнение следует рассматривать как «игру с данными», а вовсе не как заслуживающее доверия исследование каких-либо зависимостей, описанных в последующих уравнениях регрессии. Наша цель — предоставить читателям интуитивно понятный пример того, как «работает» регрессионный анализ, а не выполнить строго научное исследование, касающееся веса американцев.

Редакция

Электронная почта: polit@polit.ru
VK.com Twitter Telegram YouTube Яндекс.Дзен Одноклассники
Свидетельство о регистрации средства массовой информации
Эл. № 77-8425 от 1 декабря 2003 года. Выдано министерством
Российской Федерации по делам печати, телерадиовещания и
средств массовой информации. Выходит с 21 февраля 1998 года.
При любом использовании материалов веб-сайта ссылка на Полит.ру обязательна.
При перепечатке в Интернете обязательна гиперссылка polit.ru.
Все права защищены и охраняются законом.
© Полит.ру, 1998–2024.