«Спрос на биоинформатиков в мире и в России не удовлетворен»
В Высшей школе экономики на факультете компьютерных наук открывается магистерская программа «Анализ данных в биологии и медицине». О программе рассказывает ее руководитель, заместитель директора Института проблем передачи информации РАН Михаил Гельфанд.
В чем особенность медико-биологического анализа данных
Современная молекулярная биология, связанная с анализом большого объема данных, в значительной степени мотивируется медицинскими задачами. Это не традиционный анализ медицинских данных, когда собираются истории болезни или производится анализ клинических испытаний, но что-то близкое.
Сейчас врачи используют геном человека как еще один вид анализа, который может дать довольно много всякой информации. Это то, что по-модному называется «персонализированной медициной». Генетический анализ может быть очень важен при постановке диагноза, например, если это рак.
Мое глубокое убеждение: не бывает анализа данных вообще, как нет науки микроскопии. Зато есть задачи, которые решаются с помощью определенных методов — экспериментальных или вычислительных. И для того, чтобы эти методы разумно применять, нужно хорошо знать предметную область. Я сам переучившийся математик и все это проходил, только я никаких курсов не слушал, но пять раз сдавал кандидатский минимум по молекулярной биологии — пока не выучил то, что надо.
Поскольку к нам на программу будут приходить люди, которые будут иметь опыт в компьютерных науках или математике, им нужны такие курсы, чтобы они понимали, чем будут заниматься. Чтобы решать поставленные задачи, им надо понимать биолога, который эти задачи формулирует, а это далеко не всегда тривиально. Поэтому и обучение на программе для них начнется с ликвидации биологической безграмотности.
Как математику и биологу понять друг друга
У меня есть очень хороший пример — пример Института проблем передачи информации, в котором я работаю. Когда его только создавали, в него перешло несколько лабораторий из Института высшей нервной деятельности. И это было мудро, потому что техническое зрение и физиология зрения — это вещи, которые всю жизнь делались не параллельно, а вместе. У нас есть и лингвистическая лаборатория, и это оказалось очень кстати: когда появился интернет, стало ясно, что лингвистика — это наука, богатая данными.
Моя любимая идея, которая никогда не осуществится, — взять биоинформатиков, высадить их на необитаемый остров без интернета, поставлять им еду и пиво, и чтобы они полгода только разговаривали и думали
Наша программа создается не на пустом месте. Есть Московская школа биоинформатики, которая начиналась как отделение Школы анализа данных Яндекса. Это довольно хороший опыт, потому что туда приходят и математики, и биологи, и самые интересные выпуски получаются, когда там есть и те, и другие. И я рассчитываю именно на такую интеграцию.
Мое личное наблюдение показывает, что среди успешных биоинформатиков примерно пополам математиков и биологов. Когда приходят математики и компьютерщики, для них это скорее новая область, в которую они хотят войти. Биологи приходят потому, что понимают, что без знания биоинформатики, без умения работать с современными методами они не могут дальше продвигаться в тех биологических областях, которыми они занимаются.
Почему нужно копать глубже
Биоинформатика — это область, в которой действительно есть шанс сделать что-то безумно интересное. Просто потому что прогресс в науке — и технологический, и в понимании — происходит с невероятной скоростью. Причем прогресс в понимании отстает от прогресса технологического. Мы очень сильно недорабатываем с данными, которые есть, не вынимаем оттуда все, что можно было бы использовать.
Моя любимая идея, которая никогда не осуществится, — взять биоинформатиков, высадить их на необитаемый остров без интернета, поставлять им еду и пиво, и чтобы они полгода только разговаривали и думали. Потому что сейчас ситуация такая: несколько разных лабораторий получают новые данные, и все хотят опубликоваться в Nature. При этом они понимают, что в Nature возьмут только одну статью на эту тему — значит, нужно опередить других. Поэтому люди очень спешат с публикациями и снимают только самый верхний слой с массива новых данных. Чтобы залезть глубже этого слоя, нужно больше думать, а на это нет времени. В этом опасность пребывания на передовом фронте исследований: часто это превращается в тараканьи бега. А вот если хорошо подумать, можно придумать совершенно замечательные вещи.
Биоинформатика хороша еще тем, что ей можно заниматься в России — в отличие от прочей биологии, которой заниматься в России достаточно тяжело».
Кого ждут на программе
Конечно, мы ждем абитуриентов с определенным уровнем математической подготовки. Но в то же время важно, чтобы у них не было математического снобизма. Еще одно мое наблюдение, возможно, неправильное: среди успешных биоинформатиков довольно мало физиков. В значительной степени потому, что физики, особенно теоретические, склонны полагать, что они одни придут и сами все сделают — а так не получится.
Я убежден, что биология не есть место для применения общих соображений, в ней много специфики конкретных задач, и нужно умение и желание в этой специфике разбираться. Понятно, что сразу это не получится, но именно поэтому у студента должны быть «открытые» мозги.
Само собой разумеющимся является владение английским языком. Если студенту дают статью, то предполагается, что он в состоянии ее прочитать и понять. Следующая стадия будет, когда преподаватель не будет задумываться, может ли студент написать статью по-английски. Но не хочу пугать: это случится не сразу.
Что можно успеть сделать в магистратуре
Двух лет, чтобы чему-то научиться, хватит — все-таки к нам придут подготовленные люди. Да и вообще биоинформатика эластична по усилиям. Можно добиться большого прогресса, просто много работая. Двух лет достаточно, чтобы почувствовать вкус к этой исследовательской области и чтобы сделать приличную работу. Если правильно поставлена задача (а почти все наши преподаватели — люди, активно работающие в современной биоинформатике), то хорошую работу можно сделать и за полгода и опубликовать ее в пристойном журнале из верхнего квартиля. Кстати, молекулярная биология и биоинформатика — одни из самых «цитатогенерирующих» областей».
Чем займутся выпускники программы
Спрос на биоинформатиков в мире и в России сильно недоудовлетворен. Можно сделать независимую биоинформатическую карьеру, можно работать в экспериментальной лаборатории. Можно пойти в компании, которые занимаются персональной медициной, или в фармацевтику. Мои коллеги поддерживают сайт, своеобразную биржу труда для биоинформатиков, где размещаются объявления о постоянных позициях и временных коллаборациях.
Еще раз скажу: данных в нашей области больше, чем людей, которые могут с ними работать. В нашем случае один секвенатор прочитает столько фрагментов ДНК, что работы с ними хватит многим и многим исследователям. Технология секвенирования лежит в глубине самых разных биологических задач. Вы можете смотреть геномы, можете смотреть интенсивность работы генов — в разных тканях, или на разных стадиях развития, или при разных условиях, можете смотреть, как белки связываются с ДНК и регулируют работу этих генов и прочее. Это все разные задачи содержательно и по способу обработки.
То, как данные будут обрабатываться, важно уже на стадии планирования эксперимента. Если вы биоинформатик, который работает с биологами, это не значит. что биологи все для вас сделают, принесут на блюдечке несколько сотен гигабайт, а вы с этим будете работать. Нет, вы должны вмешиваться в процесс еще на нулевых стадиях, стадиях планирования эксперимента. Потому что иначе случаются истории, когда очень тяжелые и дорогие эксперименты ушли в никуда, потому что в самом начале не были предусмотрены необходимые контроли (например, чтобы обеспечить достаточную статистическую значимость) — и все надо было делать заново. У нас вы поймете, как таких ошибок избегать.
Познакомиться с Михаилом Гельфандом и узнать больше о программе «Анализ данных в биологии и медицине» можно будет на зимней школе факультета компьютерных наук, которая пройдет в феврале в Подмосковье. Регистрация на нее открыта до 20 декабря.
Гельфанд Михаил Сергеевич
Руководитель магистерской программы «Анализ данных в биологии и медицине»
Вам также может быть интересно:
НИУ ВШЭ и ПСБ провели хакатон по ИИ для студентов ведущих вузов страны
В конце сентября онлайн-кампус НИУ ВШЭ и ПСБ организовали хакатон для студентов, которые увлекаются анализом данных, визуализацией и машинным обучением, а также студентов креативных индустрий. На хакатон зарегистрировалось 620 человек, приняло участие 428 человек из разных регионов РФ. За первое место боролись студенты лучших российских университетов, а также учащиеся из других государств. Победителями турнира стала команда из Вышки.
ВШЭ и Альфа-Банк запустили совместную HRTech магистратуру
Факультет компьютерных наук Высшей школы экономики и Альфа-Банк запустили новую очную программу магистратуры «Продуктовый подход и аналитика данных в HR-менеджменте». В процессе обучения будут разбираться подходы к цифровой трансформации HR и созданию клиентоцентричного HR-продукта, agile-методология, актуальные инструменты визуализации данных. Заявки принимаются с 19 июня по 25 июля.
ВШЭ и Индийский технологический институт Дели договорились о совместных исследовательских проектах
НИУ ВШЭ — Санкт Петербург и один из ведущих индийских вузов — Индийский технологический институт Дели (IIT Delhi) — договорились о запуске совместных исследовательских проектов в области социальных, политических и гуманитарных исследований и анализа данных для студентов магистратуры. С российской стороны работу будет координировать Санкт-Петербургская школа социальных наук НИУ ВШЭ.
Магистерская программа «Науки о данных» аккредитована Альянсом в сфере искусственного интеллекта
По итогам экспертизы ее сильными сторонами были признаны широкий набор образовательных дисциплин, глубокий уровень изучения теоретической части в областях машинного обучения, кадровый состав и вовлеченность работодателей. Это уже пятая образовательная программа факультета компьютерных наук НИУ ВШЭ, получившая столь престижную профессионально-общественную аккредитацию.
«Непростая задача — рассказать, как применяется Data Science в девелопменте»
В 2023 году факультет компьютерных наук ВШЭ и компания «Самолет» запустили магистерскую программу«Анализ данных в девелопменте». Это первая в России программа подготовки специалистов в области науки о данных, способных разрабатывать и применять вычислительные методы для решения задач девелопмента. В первый набор на программу было подано более 150 заявлений, на первый курс зачислены 35 человек, которые уже приступили к занятиям.
В НИУ ВШЭ в Нижнем Новгороде состоялся хакатон олимпиады по анализу данных DANO
В соревнованиях участвовали более 90 школьников 9–11 классов из Москвы, Нижнего Новгорода и области, Санкт-Петербурга, Самары, Чебоксар, Уфы — всего из 15 регионов России. «Все большую часть рынка занимают позиции, требующие работы с большими данными, поэтому еще в школе нужно учиться их обрабатывать, анализировать, получать правильные выводы», — отметил Дмитрий Покровский, сопредседатель методической комиссии Национальной олимпиады по анализу данных DANO.
В технопарке «Саров» сотрудники ФКН Вышки рассказали о применении ИИ для анализа данных в физике
Научно-учебная лаборатория методов анализа больших данных факультета компьютерных наук ВШЭ совместно с Всероссийским научно-исследовательским институтом экспериментальной физики (РФЯЦ-ВНИИЭФ, Саров) и Национальным центром физики и математики провели II Всероссийскую школу-семинар по физике высоких энергий и ускорительной технике.
ФКН проведет для старшеклассников летние школы по анализу данных и программной инженерии
Факультет компьютерных наук Высшей школы экономики организует летние школы для учащихся 8–11-х классов на бесплатной основе. Первая — по анализу данных — состоится с 26 по 30 июня. Вторая — по программной инженерии — пройдет с 3 по 14 июля. Для участия необходимо зарегистрироваться и пройти отбор.
ФКН, «Самолет», магистратура: как в Вышке будут готовить дата-аналитиков для сферы девелопмента
1 июня в 18:00 в онлайн-формате состоится день открытых дверей магистерской программы НИУ ВШЭ «Анализ данных в девелопменте», набор на которую впервые будет проведен в этом году. Программа реализуется факультетом компьютерных наук совместно с индустриальным партнером — одной из крупнейших российских девелоперских компаний «Самолет», которая профинансирует обучение 30 лучших студентов. Об особенностях программы рассказала ее академический руководитель Мария Горденко.
НИУ ВШЭ и «Самолет» подготовят специалистов анализа данных в девелопменте
Факультет компьютерных наук НИУ ВШЭ и одна из крупнейших российских девелоперских компаний «Самолет» открывают новую магистерскую программу «Анализ данных в девелопменте». «Самолет» профинансирует обучение 30 лучших абитуриентов, поступивших на программу.