Pre-Project Immunity Essentials: A Collection of Resources for Future Reference | 21 июня 2019 года, 11:55

По работе нужно разобраться в основах иммунологии, через неделю стартует проект в Англии, где эти знания мне будут нужны. Нашел интересные лекции и лучший на свете набор статей. Оставляю тут для себя на будущее и для всех, кому тема интересна. Если у кого-то есть другие полезные ссылки – кидайте в комментах.

Видео:

https://www.youtube.com/playlist?list=PLf8iQozIdvKhTOQ6_GP5sKdRwd3wZA5SV

Статьи:

https://biomolecula.ru/specials/metody

https://www.youtube.com/playlist?list=PLf8iQozIdvKhTOQ6_GP5sKdRwd3wZA5SV

Социум на ходу: от муравьев до языка | 15 июня 2019 года, 23:40

По дороге в Филадельфию хороша зашла лекция Жени Тимаковой «С чего начинается социум», куча интересного на примере проведения муравьев, термитов и обезьян. https://youtu.be/OUI2DXdY9Bw

На обратном пути – курс лингвиста Елены Шмелевой «Что ругательства, жаргон и слова-паразиты могут рассказать о языке?» (доступно только по платной подписке в приложении «Радио Arzamas»).

https://youtu.be/OUI2DXdY9Bw

Ценовая атака на мир антител | 13 июня 2019 года, 01:34

Готовлюсь к небольшому проекту из мира микробиологии, смотрю тематические сайты, слушаю лекции про антитела, и охреневаю от цен на реагенты, закупаемые лабораториями главным образом для исследований. Во-первых, типичный каталог состоит из десятков тысяч наименований, и каждое стоит сотни долларов. Среди них попадаются особенно дорогие, вот двадцать капель Anti-BRAF стоит почти 10 тысяч долларов. В сети очень много кто антителами торгует.. хм.. торговля антителом. Звучит, однако.. если серьезно, очень интересная область. Если чадо еще не определилось куда идти учиться, то биоинженерия, молекулярная биология, биохимия, микробиология, цитология, иммунология дико перспективные.

Curated Learning: A Treasure Trove of Lectures | 04 июня 2019 года, 18:59

Интересный ресурс с лекциями. Оставлю тут, чтобы потом не потерять. Там довольно неплохо организовано все, хоть и в стилистике 90-х. К примеру, http://videolectures.net/DLRLsummerschool2018_heller_machine_learning/

http://videolectures.net/

Всё о жизни: разгадка секретов эволюции | 25 мая 2019 года, 14:07

очень интересная лекция от Михаила Никитина про жизнь (Российский биолог, научный сотрудник отдела эволюционной биохимии НИИ физико-химической биологии им. А. Н. Белозерского)

https://www.youtube.com/watch?v=-B_Ej-FKXUM

https://www.youtube.com/watch?v=-B_Ej-FKXUM

Teslas AI Vision: A Glimpse into the Future of Image Recognition | 24 апреля 2019 года, 08:50

По крайней мере, в середине есть прикольные презентации про систему распознавания образов Tesla

https://www.youtube.com/watch?v=Ucp0TTmvqOE

Три новости на день космонавтики: | 12 апреля 2019 года, 10:19

Три новости на день космонавтики:

1. Самое важное в проекте возрождения отрасли – построить новый офис за 25 млрд.

https://meduza.io/news/2019/04/12/sozdanie-natsionalnogo-kosmicheskogo-tsentra-v-moskve-oboydetsya-v-25-milliardov-rubley-ego-predlozhili-postroit-v-forme-rakety

2. Успешный запуск Falcon heavy настой и спейс-иксом. Первая разгонная ступень и два ускорителя ракеты были посажены, в и.ч. на плавучую платформу в Атлантическом океане.

https://meduza.io/video/2019/04/12/spacex-vpervye-vernula-na-zemlyu-oba-uskoritelya-i-pervuyu-stupen-falcon-heavy-vot-kak-eto-bylo

https://meduza.io/news/2019/04/12/spacex-provela-pervyy-kommercheskiy-zapusk-rakety-falcon-heavy-na-orbitu-vyveden-saudovskiy-sputnik-svyazi

3. Получено изображение тени черной дыры. За счёт коллаборации учёных и телескопов

https://meduza.io/news/2019/04/12/sozdanie-natsionalnogo-kosmicheskogo-tsentra-v-moskve-oboydetsya-v-25-milliardov-rubley-ego-predlozhili-postroit-v-forme-rakety

CRISPR 101: How to Edit Your DNA Like a Superhero! | 30 марта 2019 года, 12:36

Отличная лекция в формате “Explain-Like-I’m-Five” от Анны Урум про CRISPR/CAS и редактирование генома. Анна – студентка кафедры генетики биофака МГУ, и сотрудник лаборатории клеточной биологии ФГБУ ФНКЦ ФХМ ФМБА России, но несмотря на небольшой опыт, очень большой молодец)

https://www.youtube.com/watch?v=opXriPhMEk0

https://www.youtube.com/watch?v=opXriPhMEk0

Машина учится: есть ли специалист по Machine Learning и AI? | 02 ноября 2018 года, 23:08

Есть спецы по Machine Learning и AI?

Как можно решить такую задачу: есть два комплекта HTML-файлов с почти одинаковым контентом, но разной версткой – назовем его training set, и один комплект в дизайне №1. Задача – получить для этого последнего комплекта набор файлов в дизайне №2 – назовем его for processing, используя знания, полученные из training set, в лучшем возможном виде.

В training set у каждой пары A и B есть фрагменты, которые можно назвать “шаблоном”, и фрагменты, которые можно назвать “данными”. Например, заголовок статьи – данные, а обертка вокруг него – шаблон. После обработки N файлов система должна определить где данные, а где – шаблон, причем как в дизайне №1, так и в дизайне №2, а также уметь распознавать данные в файлах в дизайне №1 из for processing, и вставлять их в соответствующие места шаблона дизайна №2 для каждого из файлов for processing.

Как это сделать?

Ниже рассуждения вслух, в фейсбуке сохраняю для себя. Если в теме – подключайтесь)

Первое, что приходит в голову, это переводить файлы в связанный список тегов и фрагментов текста как для дизайна№1, так и для его counterpart в дизайне №2. Затем искать одинаковые фрагменты максимальной длины во всех файлах дизайна №1 – эти фрагменты будут с большой вероятностью частью шаблона. Одинаковые фрагменты, стоящие рядом – объединять в один покрупнее, но при этом сохранять и составляющие кусочки. Получится такой набор деревьев, с вершинами, состоящими из тегов и букв, и корнями, состоящими из больших фрагментов, которые в обоих файлах одинаковые. Сделать это для всех оставшихся пар файлов, получить тучу подобных деревьев. Далее нужно обработать деревья и найти максимально крупные фрагменты, общие у большинства. Общие фрагменты в дизайне №1 будут предложены как шаблон, а различающиеся – как элементы данных.

Подобный анализ проводится и для дизайна №2.

Фрагменты, помеченные как данные, сопоставляются автоматически, так как по идее должно быть полное соответствие. Если в отдельных случаях нет полного соответствия, опираемся на большинство.

В итоге, для дизайна №1 и дизайна №2 у нас получаются две последовательности, состоящие из узлов “фрагмент шаблона” и “фрагмент данных”. Именуем последовательности, присваивая одинаковые имена фрагментам данных у последовательности для дизайна №1 и последовтаельности для дизайна №2. Шаблоны просто нумеруем.

Далее обрабатываем дизайн №1 у for processing, выделяя у него фрагменты, помеченные как шаблон у learning set. Если они идут в том же порядке, то между ними – данные. А они уже помечены, и собираем данные в порядке, заданном результатами обработки дизайна №2. Если какие-то фрагменты не находятся, то помечаем данные штуки для ручной обработки. Если какие-то данные не находятся – то просто забиваем.

Эти решения далее вручную корректируются аналитиком.

Но такой подход работать не будет, если learning set содержит списки переменной длины, такие как список товаров, например. Система не назовет дизайн №1 похожим для 10 товаров и для 20. Она получит последовательности “фрагмент шаблона” и “фрагмент данных” разной длины, и после обработки статистически получит какую-то одну последовательность. Теоретически, можно отдельным механизмом находить паттерны повторяющиеся, и как-то это помечать.

Вдруг кто-то знает готовые решения или подходы к решению задачи? Интересная тема ж.