?

Log in

No account? Create an account
Онлайн курс по биостатистике от Гарварда - Добрая фея с топором

> Recent Entries
> Archive
> Friends
> Profile
> My Website

January 19th, 2013


Previous Entry Share Next Entry
11:31 pm - Онлайн курс по биостатистике от Гарварда
Огромное, гигантское спасибище тебе, dok_zlo, за то что в одном из выпусков ссылок упомянул вот эту
HarvardX: PH207x Health in Numbers: Quantitative Methods in Clinical & Public Health Research
Я закончила в итоге этот курс по биостатистике. Думала, не выживу. ;)) Половина всех выходных с октября - только статистика. Но этот курс того стоил. Качество подачи материала и глубина просто выше всяких похвал. Иногда даже слишком глубоко для моего гуманитарного мозга, он вскипал и молил о пощаде. Хорошо что к 5-6 неделе от них с криками ужаса сбежало столько студентов, что они оперативно уменьшили глубину математической части и увеличили практическую - на что тыкать и почему, иначе не знаю, дотянула бы я. ;) Огромный дополнительный плюс - вся статистика заточена именно на медиков-биологов, все примеры и особенности только по теме.
Я к чему это - курс был первый, пробный. Но все материалы уже сделаны, а значит они точно будут его повторять, рано или поздно. Кому нужна биомедицинская статистика на приличном уровне для работы, кто готов тратить по 7-8 часов в неделю на нее в течение 13 недель, и у кого уровень английского позволяет это понимать, а там в основном есть субтитры, обязательно проверяйте эту ссылку и запишитесь на этот курс, когда появится повтор. Не пожалеете (если не бросите в панике в течение первых недель).

(25 comments | Leave a comment)

Comments:


[User Picture]
From:second_hour
Date:January 20th, 2013 04:50 am (UTC)
(Link)
Огромное спасибо!
[User Picture]
From:yenissey
Date:January 20th, 2013 05:01 am (UTC)
(Link)
я тоже его прошла. Для меня сама суть оказалась слишком проста, так что лекции я практически не слушала, а подача "положим тут 300 человек, 150 тут и 150 тут" так и просто невыносима (мне надо напрячься чтоб осознать что 150 это половина от 300). Зато открыла для себя Стату, и то дело. В Гарварде разочаровалась:) До этого я биостатистику слушала на физтехе, в NTU (два варианта) и в MIT, практически везде было лучше.
[User Picture]
From:tanchik
Date:January 20th, 2013 05:11 am (UTC)
(Link)
(Поперхнувшись): слишком проста?!
А это у тебя какой бекграунд слушания, в смысле онлайн/офлайн и сколько лет?
У меня биостастистики не было от слова совсем. Только самостоятельно прочитанные русские книжки "Введение в.." и "Руководства пользователя". И все вот это мне изрядно вскипятило мозг.
[User Picture]
From:yenissey
Date:January 20th, 2013 05:53 am (UTC)
(Link)
я с физтеха:) И работаю статистиком я уже 5 лет, а до этого биоинформатиком была. Этот гарвардский курс мне еще понравился потому что у меня не было формального тренинга в эпидемиологии, так что я путаюсь в этих case-control-cohort, а они более-менее четко исполнили че-куда (и всерно я ту часть финала только на 75% сделала). И
Что не было - очень плохо. Мне вообще удивительно что единственно нужную каждый день часть математики - статистику - не участ в средней школе. Самому по верхам системную картину не сложить, надо хотя бы вводную часть последовательно слушать (а они изложили именно ее, издевательски сказав про самое интересное "возьмите курс по моделированию", ага). Думаю студентам нашей группы предложить этот курс пройти, осталось уговорить их профессора:)
На Курсере много вводной статистики тоже, смотрела?
[User Picture]
From:tanchik
Date:January 20th, 2013 05:09 pm (UTC)
(Link)
Смотрела, там есть, но мне вводная после этого курса уже не нужна. Я и так знала, что круглое катить, а квадратное двигать, в смысле когда ttest, когда ANOVA а когда Манн-Уитни делать и на нормальность проверяла, и корреляции все-таки делала более менее пристойно. Мне регрессия нужна, разные виды, глубже и глубже. :) Хочу научиться организовывать данные, в которых дофига факторов мало того что друг с другом коррелируют, так еще и являются effect modifiers третьих и еще и confounders для исхода, и вот чтоб их всех контролировать правильно, а не через одно место. Пока что нахожусь на стадии "Да, я очень хорошо поняла что это плохо если они такие, но что делать-то?"
Спасибо что сказала про физтех. Иначе мое самолюбие сильно бы страдало. ;)))
По моим данным:
1) у меня есть набор variables, штук скажем 20-30, они представляют собой разные характеристики одной и той же популяции клеток, полученные разными путями: функциональными тестами, цитометрией, и тп. Почему их так много - потому что никто не знает, какие из них лучшие для характеристики этих клеток, и это по данным более-менее вменяемых статей и по моим собственным наблюдениям самые интересные, плюс еще и считать их можно по разному. Ессно что они все друг с другом так или иначе коррелируют, то есть засунуть их всех в одну модель неприемлемо, как я уже поняла и раньше. Ессно что в реальной ситуации на все 20-30 факторов эти клетки никто проверять не сможет, слишком долго, сложно и дорого.
2) и у меня есть гипотеза, что состояние этой популяции клеток в целом, то есть "сильные" vs "слабые" влияет на клинический исход заболевания. Опять же, не в одиночку, а с другими разумными факторами: возраст пациента и тп.
Если засовывать любой из 20-30 факторов из пункта 1 в модель клинического исхода, по одному, каждый раз чего-нибудь да вылезает, но каждый раз видно что одного фактора недостаточно. Все вместе их не засунешь так как см выше.
Ну и практический аспект: 1) выбрать как-то из всех факторов самые важные для "сильные" vs "слабые" клетки, и 2) проверить их в модели с реальными пациентами.
Вряд ли вводный курс статистики в этом поможет..
[User Picture]
From:yenissey
Date:January 21st, 2013 03:28 am (UTC)
(Link)
stepwise selection пробовала? В R и SAS есть готовые функции. У этого метода есть свои проблемы (много!), но вместе с хорошим сэмплом из которого можно создать приемлемый training, testing, validation он вполне работает. Если с сэмплом проблемы (образцов меньше чем параметров) то ничего сделать нельзя, будешь моделировать шум. Rule of thumb - десятикратно образцов на каждый параметр.
[User Picture]
From:tanchik
Date:January 21st, 2013 03:51 am (UTC)
(Link)
Спасибо. :)

>stepwise selection пробовала?
Ага. Было классическое поведение ковариант, которые сильно друг с другом коррелируют, по разному причем (и я знаю что они коррелируют, я ж их проверяла). Добавляешь вторую коварианту - оппа, а знак у предыдущей на обратный поменялся и p выросло. Ну в общем в точности как тут на курсе пугали. Или с двумя прокатило, суешь третью - так предыдущие попадали куда попало. Ну и так далее в разных сочетаниях. Столько неведомой хрени наблюдала, изумительно. ;))

>Если с сэмплом проблемы (образцов меньше чем параметров)
С сэмплом.. история интересная. И да, и нет. На некоторые параметры все 60-70 наблюдений, а на некоторые 40, но иногда и 20. Не на все параметры было возможно оценить клетки в каждом случае. Но закономерностей типа "на какую коварианту больше образов, та и круче вписывается" я не видела. Они там все буйно себя ведут из-за multiple collinearity, я так понимаю. И потом я еще наблюдений смогу добавить из другого но похожего study.
Но я до сих пор не очень уразумела, как стат пакет (STATISTICA) обращается с пропущенными значениями, целиком выкидывает наблюдения или только по параметру где их нет.
Зато теперь у меня появились идеи.
- Во-первых, часть данных трансформировать, чтоб даже если они тесты на нормальность и так проходят, но чтоб стали лучше смотреться данные
- Во-вторых, попробовать те, что друг с другом сильней всего коррелируют, разбить на группы "вместе нельзя" и в общее уравнение таскать наугад из разных групп по одной коварианте.
- В третьих, где это уместо, попробовать перевести данные в бинарные и тогда я так понимаю возможная корреляция ковариант друг с другом будет иметь меньшее значение.
Ну или забить пока.
[User Picture]
From:yenissey
Date:January 21st, 2013 04:42 am (UTC)
(Link)
Да, ты правильно поняла, сильные корреляты надо разносить, увеличивать некоррелированную часть. Либо таки да, оставлять один из них, тоже вариант. Если они у тебя прут в одном направлении все, то ты не можешь предположить что будет если ровно один не будет переть, у тебя просто нет информации про это.
Перевести в ordinal или binary тоже вариант, но у него больше минусов чем не минусов. Обычно это стоит делать если есть prior knowledge о том, что такое хорошо и что такое плохо про этот параметр, а иначе ты меняешь реальные данные на с потолка взятую классификацию.
А вообще, мало образцов и много параметров это зло, от которого практически нет спасения. Поэтому, в частности, я не верю никаким GWAS. Только безжалостная фильтровка руками всего потенциально ненужного спасет мир.
Да, обычно в многопараметрическим анализе выкидывается вся строка где нет хоть одного значения. Арифметики с пустым полем нет, а предполагать его нулем неправильно (за это я ненавижу Эксель). Иногда софт спрашивает что делать, может некий imputation замутить. Но это редко, я такое только в узкоспециализированном софте видела.
[User Picture]
From:tanchik
Date:January 21st, 2013 04:59 am (UTC)
(Link)
Спасибо! А учитывая твое последнее уточнение, это значит все мои попытки были завязаны не только на множественную корреляцию, но и на резко уменьшенное количество наблюдений в которых все-все всунутые одновременно коварианты имеют данные. Ага, это ценное знание. Значит, буду тщательно за этим тоже следить.
А как ты с точки зрения статистики прокомментируешь мою идею получить аналогичные данные на новой группе пациентов (все-все новое, даже госпиталь другой), но использовать их новые данные не как отдельный dataset для проверки модели предыдущего, а объединить эти данные с предыдущими, чтоб увеличить количество наблюдений?
[User Picture]
From:yenissey
Date:January 21st, 2013 05:21 am (UTC)
(Link)
Обычно софт пишет на основании скольки точек он посчитал вот это. Или сколько точек выкинул и по какой причине. Конкретно этого пакета я не знаю.
Это не сильно про статистику, это про дизайн. И увеличения training set и у создания независимого testing set есть свои очевидные плюсы. Если ты сама уже веришь в модель, то лучше ее тестить на независимом сете. Если никакой модели пока скорее нет чем есть, то мб новые данные добавят знания.
[User Picture]
From:whatevergospodi
Date:January 20th, 2013 06:54 pm (UTC)
(Link)
там было курса два, но все они - c R.
а он очень глюкавый, все жалуются, что через него очень сложно продраться.
я ниасилила именно в плане освоения R.
[User Picture]
From:yenissey
Date:January 21st, 2013 03:32 am (UTC)
(Link)
Вводный курс по R от Хопкинса там тоже есть, вполне позволяет начать писать на нем, сейчас как раз заканчивается. Я его прошла осенью и у меня есть большой опыт Матлаба но не было R совсем, а с этим курсом R сразу пошел хорошо. Завтра начинается Data Analysis с R, буду пробовать его как раз чтобы R получше изучить.
[User Picture]
From:dok_zlo
Date:January 20th, 2013 11:32 am (UTC)
(Link)
:)
[User Picture]
From:bret
Date:January 20th, 2013 11:55 am (UTC)
(Link)
скажите, а там весь курс строго на Stata заточен?
[User Picture]
From:tanchik
Date:January 20th, 2013 05:10 pm (UTC)
(Link)
Да. В приложениях рассматривают как адаптировать задачи для других пакетов, но я не думаю что это был бы легкий путь.
[User Picture]
From:whatevergospodi
Date:January 20th, 2013 06:53 pm (UTC)
(Link)
а, увидела.
жаль, не взяла этот курс, думаю, было бы полезнее и легче в плане бодания с софтом....
[User Picture]
From:julija
Date:January 20th, 2013 06:04 pm (UTC)
(Link)
:))) я тоже вот только что закончила.
пример с мышью посреди лаборатории сразил окончательно :)

только кажется мне, что они не будут его бесплатно повторять. протестировали - и ок. всё готово, можно давать студентам.
но буду рада ошибаться.

в феврале ещё один курс на edX начинаю.
[User Picture]
From:tanchik
Date:January 20th, 2013 06:48 pm (UTC)
(Link)
Да, мышь была прекрасна, я помню. ;)) Еще несколько раз они там тоже жгли напалмом. Например, мне понравился аргумент про ложь в опросах с примером врачей, которые занимались сексом со своими пациентами. ;)
Еще один курс - этот тот что у них там на EdX новый по статистике где обещают меньше грузить формулами? Или другой?
[User Picture]
From:julija
Date:January 20th, 2013 07:01 pm (UTC)
(Link)
хмм.. не припомню такого что-то :)
новый - вот этот: The Challenges of Global Poverty
[User Picture]
From:tanchik
Date:January 20th, 2013 07:22 pm (UTC)
(Link)
Это был модуль про опросы. Ложь в ответах как одна из проблем. Ложь возникает от того, что некоторые вопросы, скажем прямо, не мотивируют отвечать честно даже если интервьвер заверяет что анонимность гарантирована. И как пример привели опрос, когда докторов спрашивали про то, был ли у них секс с пациентами. Хороший пример. :)) А потом рассказали про способ борьбы в виде девайса с "часами", показывающими рандомно на Yes.
[User Picture]
From:julija
Date:January 20th, 2013 07:23 pm (UTC)
(Link)
а! теперь помню. хороший пример :)
[User Picture]
From:whatevergospodi
Date:January 20th, 2013 06:52 pm (UTC)
(Link)
А он был с R или с каким-то другим софтом?

я попыталась взять другой курс по статистике, он легкий, там начала статистики должны были быть. Но заткнулась на том, что в R я даже не могу данные импортировать. Муж успокоил, сказал, что с этой софтиной такое всегда, и иди ты лучше освой Матлаб. Время полезнее проведешь.
[User Picture]
From:taorminese
Date:January 20th, 2013 07:47 pm (UTC)
(Link)
а сертификат как на coursera дают?
[User Picture]
From:tanchik
Date:January 20th, 2013 07:48 pm (UTC)
(Link)
Ну по ссылке же все есть. :)
Обещали сертификат, да
[User Picture]
From:taorminese
Date:January 21st, 2013 07:55 am (UTC)
(Link)
аха,я не разглядела.

> Go to Top
LiveJournal.com