?

Log in

No account? Create an account
Пост про статистику и язык - Добрая фея с топором

> Recent Entries
> Archive
> Friends
> Profile
> My Website

January 16th, 2015


Previous Entry Share Next Entry
06:53 pm - Пост про статистику и язык
1. Про язык, сегодня
- Аким, сорри, тут небольшой messed up с твоим плейсметом, я после еды их все соберу и в лаундри кину
- Таня, ты можешь все это сказать по русски?
- Хм.. Сейчас попробую. Аким, извини, тут небольшой срач на твоем.. на твоем подтарелочном коврике? на твоем настольном матрасике? на твоей тарелочной тряпочке. Я потом их все соберу и постираю, вот. :)
Если бы мой английский улучшался с той скоростью, с которой я делаю англосуржик из своего русского..
--------------------
2. А по поводу редактирования статьи - спасибо за участие. Конец истории: я была добра, написала авторам minor revision с требованием перепослать новую версию на очередной раунд ревью. В тексте я просто указала, что авторы исправили большинство проблем, но к сожалению проблема со статистикой осталась. И что я рекомендую им почитать про multiple comparison (http://en.wikipedia.org/wiki/Multiple_comparisons_problem) и/или посоветоваться со статистиком. Параллельно я написала комментарий эдитору журнала, что возможно авторы нуждаются в оценке их действий со стороны профессионального статистика, но с моей точки зрения такая статистика неприемлема и статья с ней не должна быть пропущена в печать. Отвечаю на недоумение тех, кто был удивлен что мол ревьювер с авторами напрямую общается, а эдитор (редактор) не в курсе. Это не так, конечно. Ревьюверы анонимны, их в данном журнале три. Авторам мы пишем комментарии в специальном окошке на вебсайте журнала. Там же есть второе окошко - для переписки с эдитором, которая не показывается авторам. Затем эдитор (редактор) собирает в одно большое письмо все, что написали ревьюверы авторам, читает что ревьюверы написали лично ему, принимает решение что делать со статьей и пересылает свое решение вместе с комментариями ревьюверов авторам статьи. И поскольку подобная проблема со статистикой была столь явной, я очень сильно удивилась что вторую версию статьи не завернули в тот же день на уровне прямо редактора, а вместо этого переслали нам, ревьюверам. Из этого я заключила что редактору под Новый Год и вокруг оного было очень уж лениво читать всю эту переписку, и он просто скопировал все это вместе да и отослал, а вторую версию статьи, не открывая даже, тоже переслал всем и ага. Я не знаю, чем кончится дело. Этот журнал не посылает итоговое решение ревьюверам.
По поводу вопросов "А что со статистикой там было не так, поясни мне пожалуйста, только по русски". Вот гугль, в него я вбила фразу, которая ведет аккурат к тому месту учебника по статистике для медиков-биологов, которое все и поясняет. Открывайте любую ссыль, там выдают пдф-ки или онлайн текст учебника, и по ключевой фразе найдите это место с пояснением. Там доходчиво и ничего мудреного, обещаю. На пальцах - если вы сравниваете один раз две группы (контроль+ препарат А) с вероятностью ошибки 5%, то это значит что в 5 случаях из 100 вы найдете разницу там, где ее нет, чисто случайно. Это ОК. Но далее, вы сравниваете контроль+препарат В тоже с вероятностью ошибки 5%. Теперь вероятность того, что вы нашли разницу где ее не было, стала 5*2, то есть 10%. Далее, вы сравнили препарат А и препарат В с вероятностью ошибки 5%. Теперь вероятность того, что вы ошиблись становится 15%. И таким образом, чем больше попарных сравнений вы сделаете внутри одного и того же экспериментального массива данных, тем с бОльшей вероятностью вы найдете разницу (то есть получите p<0.05 Т-тестом) там, где этой разницы нет. В этом и проблема. Авторы сравнивали контоль с А, контроль с В и А против В. Получали каждый раз p<0.05 (они не дали реальные цифры) и думали, что от увеличения количества сравнений вероятность ошибки как была 5%, так и останется 5%. На три сравнения они должны были бы (грубо так) поставить степень доверия не p<0.05, а p<0.0167, и если б все три сравнения были бы меньше этой цифры, то вероятность ошибки по всему массиву их данных в этом случае была бы меньше 0.05. А вообще лучше почитайте учебник, я не статистик, просто прочитала и запомнила некоторые нужные и важные вещи, и возможно плохо и не точно объясняю.
Зы: мои объяснения не слушать, я тут не так насчитала. Вот правильно
http://tanchik.livejournal.com/551739.html?thread=25571131#t25571131
Теория та же

(61 comments | Leave a comment)

Comments:


[User Picture]
From:dragon_ru
Date:January 17th, 2015 12:01 am (UTC)
(Link)
Вроде как, если все три сравнения дали p<0.05 - это более сильный критерий, чем multiple comparison. Если бы авторы нашли одно различие и делали выводы из этого - тогда была бы фигня. А в их случае вероятность ошибки скорее (0.05)^3. Точнее говоря, чуть побольше из-за зависимости экспериментов, но все равно заведомо меньше, чем 0.05
[User Picture]
From:tanchik
Date:January 17th, 2015 12:10 am (UTC)
(Link)
Я лишь пересказала то, что говорят профессионалы. У меня нет достаточно знаний по теме чтоб спорить. Поэтому я верю в то, что пишут люди, которые точно разбираются в теме (люди что печатают учебники по статистике) :)
From:(Anonymous)
Date:January 17th, 2015 02:39 am (UTC)
(Link)
Я обычно студиозусам объясняю на примере тыкания пальцем. Каждое стат. сравнение это тычок пальцем в небо. Соответственно чем больше сравнений тем большим количеством пальцев ты тычешь в небо - рано или поздо дотыкаешься и попадёшь куда не следует :)

Особо "одарённым" талантам советую в этом мысленном эксперименте заменить небо на задницу и представить неудачный исход в виде удачного попадания пальцем туда, где он совершенно неуместен.

Ну да, пошлЮ немного, зато когда мысленно представляешь очередного "учёного" антигмошника, яростно натыкивающего чью-то задницу в поисках заветного p < 0.05... всё лучше, чем сожалеть об упадке образования в целом и отечественного в частности.
[User Picture]
From:dibr
Date:January 17th, 2015 09:42 am (UTC)
(Link)
Ну вот почему безграмотность так часто идёт в комплекте со скатологическим юмором? Почему сразу в задницу? И ГМО сюда же приплели...

Поясняю вашу логику на вашем языке. Тыкаете вы наугад пальцем, и попадаете в задницу. Ок, "может быть это ошибка". Тыкаете ещё раз - и опять попадаете в задницу. По вашей логике - "ну, это-то точно ошибка!". А если тыкнуть десять раз подряд, и все десять раз попасть в задницу - то у вас получается что это совершенно точно ошибка.

На самом деле всё наоборот. Если вы попали в задницу всего один раз из десяти - тогда да, это наверняка ошибка, и именно об этом и пишут в "Multiple comparisons problem". Но если вы попали пальцем туда все десять раз подряд - гипотеза из "подтверждённой" становится "достоверной", а не как вы тут пишете.
(no subject) - (Anonymous) - Expand
(no subject) - (Anonymous) - Expand
[User Picture]
From:trinadzatij
Date:January 17th, 2015 05:38 am (UTC)
(Link)
У меня жена татарка, она с мамой по телефону когда говорит, у меня уши ломаются: я по-татарски знаю сэлэм, рэхмет и рэхим итэгэз, и всё было бы нормально, если бы у них некоторые слова, которых в татарском нет, не заменялись автоматом на русские.

Типа, шаламбаламшаламбалам телевизор шаламбалам едрён батон шаламбаламшаламбалам.

В результате слух за русские слова зацепляется, чисто механически начинаешь прислушиваться, а ничего не понимаешь, и мозг крючит :)
[User Picture]
From:tanchik
Date:January 17th, 2015 04:23 pm (UTC)
(Link)
Китайцы таким же макаром общаются на работе! Блабла иммуноблот, бла-бла.
[User Picture]
From:dibr
Date:January 17th, 2015 09:31 am (UTC)
(Link)
> Далее, вы сравнили препарат А и препарат В с вероятностью ошибки 5%. Теперь вероятность того, что вы ошиблись становится 15%. И таким образом, чем больше попарных сравнений вы сделаете внутри одного и того же экспериментального массива данных, тем с бОльшей вероятностью вы найдете разницу (то есть получите p<0.05 Т-тестом) там, где этой разницы нет. В этом и проблема. Авторы сравнивали контоль с А, контроль с В и А против В

Не понимаю.
Если считать эффект подтверждённым в случае, когда ЛЮБОЕ из сравнений удовлетворило критерию - всё верно, чем больше сравнений, тем жёстче должен быть критерий. Но в статье, как я понял, ситуация обратная - критерию удовлетворяют ОБА сравнения (то есть там не ANY, а ALL, другой обобщающий квантор), а тут ситуация противоположная - вероятность что ошибочно сработают ВСЕ критерии очевидным образом меньше вероятности ошибочного срабатывания любого из них, а значит авторы правы, а степень доверия можно даже увеличить.

Сами посудите. Вычеркните из статьи второе сравнение, и прочитайте её ещё раз. С одним сравнением статья претензий не вызывает, нет? Ок, теперь вычеркните первое, перечитайте. Опять не вызывает? А теперь у вас есть две статьи, каждая из них не вызывает претензий, но несмотря на то, что обе они подтверждают одно и то же утверждение - когда вы читаете обе эти статьи одновременно - внезапно оказывается, что вместо усиления подтверждённости получается ослабление. Про здравый смысл вспоминать не буду, но сами-то вы как статьи читаете - неужели по принципу "чем больше статей утверждают одно и то же, тем больше подозрений, что все они ошибаются?"
[User Picture]
From:anabu
Date:January 17th, 2015 08:01 pm (UTC)
(Link)
>>Про здравый смысл вспоминать не буду

здравый смысл подсказывает, что люди, выводящие формулы, доказывающие формулы, пишущие учебники, по которым потом учат других людей, были давно оценены теми, кто им равен по интеллекту и образованию. На что никак не могут претендовать ни авторы некого биологического исследования, ни вы, ни я.

Я вот ни экономист ни разу, пару дней назад не могла понять, от чего такая паника из-за того что франк укрепился, это же очевидно нелогично :) Когда наша валюта обесценивается - экономике плохеет. Это понятно. А у них крепнет - должно хорошеть, это здравый смысл подсказывает. :) Но потом полезла вникать, оказалось все намного сложнее, чем "очевидно" при малых знаниях.

Edited at 2015-01-17 08:02 pm (UTC)
[User Picture]
From:spartanus
Date:January 17th, 2015 10:27 am (UTC)
(Link)
О господи... Сейчас вам начнуть массово постить люди, не согласные со статистикой... :)
[User Picture]
From:tanchik
Date:January 17th, 2015 04:21 pm (UTC)
(Link)
уже
[User Picture]
From:_slw
Date:January 17th, 2015 10:52 am (UTC)
(Link)
прости, я не понял, ты проценты складываешь?
[User Picture]
From:tanchik
Date:January 17th, 2015 04:22 pm (UTC)
(Link)
умножаю, кажется. На количество сравнений. Ошиблась?
[User Picture]
From:spartanus
Date:January 17th, 2015 11:02 am (UTC)
(Link)
Кстати, вы немного неверно пишите. :)

Как и написано по ссылке ( http://en.wikipedia.org/wiki/Multiple_comparisons_problem#What_can_be_done ), при k независимых сравнениях a_f (family-wise error rate) получается из p по формуле

a_f = 1 - (1-p)^k.

Потому что a_f (т.е. вероятность допустить хотя бы одну ошибку) = 1 - вероятность не допустить ни одной ошибки в k независимых сравнениях = 1 - (1-p)^k. Для p=0.05 имеем a_f = 1 - 0.95^k. А не a_f = k*0.05 !..

То есть при двух независимых сравнениях a_f не равно 2*p = 2*0.05 = 0.1, а равно

1 - (1-p)^2 = 2*p-p^2 = 0.0975,

при трёх независимых сравнениях a_f не равно 3*p = 3*0.05 = 0.15, а равно 0.142625.

Иначе при, допустим, 30 сравнениях было бы a_f = 30*0.05 = 1.5 (а вероятность не бывает больше 1 :) ); фактически же при 30 сравнениях a_f = 0.785...
[User Picture]
From:tanchik
Date:January 17th, 2015 04:26 pm (UTC)
(Link)
Спасибо. У меня было чувство, что я где-то лажаю :)
[User Picture]
From:abuela_ama
Date:January 17th, 2015 02:57 pm (UTC)
(Link)
подтарелочный коврик обычно называют салфеткой ))
[User Picture]
From:tanchik
Date:January 17th, 2015 04:24 pm (UTC)
(Link)
Салфетка это ж та, что на колени кладут. Или там на шею вешают детям. Нет? Я вот про эту штуку
[User Picture]
From:seraph6
Date:January 19th, 2015 07:44 am (UTC)
(Link)
Вспоминается классическое: "Чилдренята шузы напутонили?" :)
[User Picture]
From:tanchik
Date:January 19th, 2015 10:23 am (UTC)
(Link)
Какая прелесть, я не слышала. :)
From:krege
Date:January 19th, 2015 10:42 am (UTC)
(Link)
> Я не знаю, чем кончится дело. Этот журнал не посылает итоговое решение ревьюверам.

Если *очень* интересно, то можно же погуглить название, где-нибудь через пару месяцев.
[User Picture]
From:tanchik
Date:January 19th, 2015 10:43 am (UTC)
(Link)
Да, если не забуду, так и узнаю. :)
[User Picture]
From:sperans
Date:January 19th, 2015 04:21 pm (UTC)
(Link)
Таня, у меня оффтопик-оффтопик.
Скажи мне, пожалуйста, правильно ли я понимаю, что западные компании не смотрят на наши "трудовые книжки"? К чему вопрос: у меня тут намечается "чисто техническое" изменение должности, которое выглядит нехреновым понижением, потому что в организации меняется структура. В резюме у меня останется абсолютно то же, что и было, круг обязанностей тот же, руководство, если что, подтвердит и напишет сопроводительное письмо. Но вот трудовая - это ужас. Я права, что она не нужна на самом деле?
[User Picture]
From:tanchik
Date:January 19th, 2015 04:26 pm (UTC)
(Link)
У меня ни разу не спросили трудовую на работе за все эти годы. Диплом и какие-то курсы даже однажды спрашивали, а трудовую - нет. Даже ФБР трудовой не интересовалось, я просто сама вписала последние места работы и должности в России, а они проверили. Так что я думаю если в компании никто не знает про российскую специфику в виде трудовых, то никто и не спросит. Оставлю шансы где риск есть на продвинутых HR, которые в курсе что в Китае есть документ еще страшней трудовой, а в России - трудовая книжка. Наверное это те компании, что с соотв. странами регулярно ведут бизнес
[User Picture]
From:kermit_
Date:April 9th, 2015 04:58 pm (UTC)
(Link)
ты через полторы недели сама будешь постер представлять?
я там токовать буду немножко, в тот же день (кажется), можно развиртуализоваться немножко
[User Picture]
From:tanchik
Date:April 10th, 2015 10:35 am (UTC)
(Link)
Супер. Вот это круто! Да, я буду сама. А как я тебя узнаю?
[User Picture]
From:mishast
Date:June 23rd, 2017 01:11 pm (UTC)
(Link)
А в чем доброта-то?
Если бы ты (ничего, что на ты? я так привык..) отклонила статью с major revision, ребятам от этого было бы хуже? Разве они не могли бы снова перепослать статью?
Или как можно было сделать не по-доброму?

> Go to Top
LiveJournal.com