Три новости на день космонавтики: | 12 апреля 2019 года, 10:19

Три новости на день космонавтики:

1. Самое важное в проекте возрождения отрасли – построить новый офис за 25 млрд.

https://meduza.io/news/2019/04/12/sozdanie-natsionalnogo-kosmicheskogo-tsentra-v-moskve-oboydetsya-v-25-milliardov-rubley-ego-predlozhili-postroit-v-forme-rakety

2. Успешный запуск Falcon heavy настой и спейс-иксом. Первая разгонная ступень и два ускорителя ракеты были посажены, в и.ч. на плавучую платформу в Атлантическом океане.

https://meduza.io/video/2019/04/12/spacex-vpervye-vernula-na-zemlyu-oba-uskoritelya-i-pervuyu-stupen-falcon-heavy-vot-kak-eto-bylo

https://meduza.io/news/2019/04/12/spacex-provela-pervyy-kommercheskiy-zapusk-rakety-falcon-heavy-na-orbitu-vyveden-saudovskiy-sputnik-svyazi

3. Получено изображение тени черной дыры. За счёт коллаборации учёных и телескопов

https://meduza.io/news/2019/04/12/sozdanie-natsionalnogo-kosmicheskogo-tsentra-v-moskve-oboydetsya-v-25-milliardov-rubley-ego-predlozhili-postroit-v-forme-rakety

CRISPR 101: How to Edit Your DNA Like a Superhero! | 30 марта 2019 года, 12:36

Отличная лекция в формате “Explain-Like-I’m-Five” от Анны Урум про CRISPR/CAS и редактирование генома. Анна – студентка кафедры генетики биофака МГУ, и сотрудник лаборатории клеточной биологии ФГБУ ФНКЦ ФХМ ФМБА России, но несмотря на небольшой опыт, очень большой молодец)

https://www.youtube.com/watch?v=opXriPhMEk0

https://www.youtube.com/watch?v=opXriPhMEk0

Машина учится: есть ли специалист по Machine Learning и AI? | 02 ноября 2018 года, 23:08

Есть спецы по Machine Learning и AI?

Как можно решить такую задачу: есть два комплекта HTML-файлов с почти одинаковым контентом, но разной версткой – назовем его training set, и один комплект в дизайне №1. Задача – получить для этого последнего комплекта набор файлов в дизайне №2 – назовем его for processing, используя знания, полученные из training set, в лучшем возможном виде.

В training set у каждой пары A и B есть фрагменты, которые можно назвать “шаблоном”, и фрагменты, которые можно назвать “данными”. Например, заголовок статьи – данные, а обертка вокруг него – шаблон. После обработки N файлов система должна определить где данные, а где – шаблон, причем как в дизайне №1, так и в дизайне №2, а также уметь распознавать данные в файлах в дизайне №1 из for processing, и вставлять их в соответствующие места шаблона дизайна №2 для каждого из файлов for processing.

Как это сделать?

Ниже рассуждения вслух, в фейсбуке сохраняю для себя. Если в теме – подключайтесь)

Первое, что приходит в голову, это переводить файлы в связанный список тегов и фрагментов текста как для дизайна№1, так и для его counterpart в дизайне №2. Затем искать одинаковые фрагменты максимальной длины во всех файлах дизайна №1 – эти фрагменты будут с большой вероятностью частью шаблона. Одинаковые фрагменты, стоящие рядом – объединять в один покрупнее, но при этом сохранять и составляющие кусочки. Получится такой набор деревьев, с вершинами, состоящими из тегов и букв, и корнями, состоящими из больших фрагментов, которые в обоих файлах одинаковые. Сделать это для всех оставшихся пар файлов, получить тучу подобных деревьев. Далее нужно обработать деревья и найти максимально крупные фрагменты, общие у большинства. Общие фрагменты в дизайне №1 будут предложены как шаблон, а различающиеся – как элементы данных.

Подобный анализ проводится и для дизайна №2.

Фрагменты, помеченные как данные, сопоставляются автоматически, так как по идее должно быть полное соответствие. Если в отдельных случаях нет полного соответствия, опираемся на большинство.

В итоге, для дизайна №1 и дизайна №2 у нас получаются две последовательности, состоящие из узлов “фрагмент шаблона” и “фрагмент данных”. Именуем последовательности, присваивая одинаковые имена фрагментам данных у последовательности для дизайна №1 и последовтаельности для дизайна №2. Шаблоны просто нумеруем.

Далее обрабатываем дизайн №1 у for processing, выделяя у него фрагменты, помеченные как шаблон у learning set. Если они идут в том же порядке, то между ними – данные. А они уже помечены, и собираем данные в порядке, заданном результатами обработки дизайна №2. Если какие-то фрагменты не находятся, то помечаем данные штуки для ручной обработки. Если какие-то данные не находятся – то просто забиваем.

Эти решения далее вручную корректируются аналитиком.

Но такой подход работать не будет, если learning set содержит списки переменной длины, такие как список товаров, например. Система не назовет дизайн №1 похожим для 10 товаров и для 20. Она получит последовательности “фрагмент шаблона” и “фрагмент данных” разной длины, и после обработки статистически получит какую-то одну последовательность. Теоретически, можно отдельным механизмом находить паттерны повторяющиеся, и как-то это помечать.

Вдруг кто-то знает готовые решения или подходы к решению задачи? Интересная тема ж.

ДНК и более: обзор лекций | 21 октября 2018 года, 10:47

Очень интересная лекция про ДНК, генетический код, клонирование от Александра Пачина https://www.youtube.com/watch?v=-nyZfH7G-9c

Еще я смотрел сегодня “Неоптическую астрономию”

– лекцию Сурдина (МГУ) про гравитационные волны. Там ничего нового не услышал, но если вдруг для кого эта тема вообще новая, то тоже рекомендую посмотреть, очень понятно и доступно, Сурдин это умеет. https://www.youtube.com/watch?v=KmNZ5505-DU

https://www.youtube.com/watch?v=-nyZfH7G-9c

Вселенная на троих: трёхчасовая лекция о звездах и Вселенной | 07 октября 2018 года, 23:57

Очень интресная лекция от астронома Владимира Сурдина. У него почти все интересное, но с этого видео не хочется слезать до конца, все интересно. Почти три часа идет, до двух ночи слушал)

https://www.youtube.com/watch?v=zgZdx8p4Ito

Россия в космосе: борьба за лидерство | 02 октября 2018 года, 10:02

Очень интересный разбор – https://thealphacentauri.net/rogozins-deep-hole/

(на изображении — количество выведенной полезной нагрузки по стране-заказчику)

Некоторые смелые заявления: https://goo.gl/WhNS3f

“Гендиректор Роскосмоса Дмитрий Рогозин обвинил главу американской компании SpaceX Илона Маска в демпинге на рынке запусков ракет в космос с целью выдавить с этого рынка Россию. (…) При этом, по словам Рогозина, Маск получает от Пентагона около 150 млн долларов за каждый пуск. “Ему доплачивают для того, чтобы он выходил на рынок с дешевым продуктом”, – отметил глава Роскосмоса. Он признал, что в таких условиях Россия не в состоянии конкурировать. Роскосмос не может требовать от Минобороны цену за пуск, которая будет в 3 – 5 раз дороже, отметил Рогозин, добавив, что такая игра будет несправедливой. Тем не менее, глава Роскосмоса пообещал, что в ближайшем будущем Россия снова станет лидировать на рынке запусков полезных нагрузок в космос ракетами-носителями. По его словам, в следующем году Россия проведет второй запуск тяжелой ракеты “Ангара”, а с 2021 года начнет их серийное производство. “Мы вернемся и станем снова первыми, я вам обещаю”, – заявил Рогозин.

https://thealphacentauri.net/rogozins-deep-hole/

Печально, что сказать.

Dmitry Akhmerov

Unleashing the Power of Video Processing: Insights from Berkeleys Top Researchers | 29 сентября 2018 года, 12:48

интересующимся исследованиями в области обработки видео – сюда https://people.eecs.berkeley.edu/~efros/ Очень много интересных видеоотчетов из лабораторий Беркли

https://people.eecs.berkeley.edu/~efros/

Maths Unwrapped: Mind-Bending Paradoxes and Mysterious Numbers | 24 сентября 2018 года, 20:42

Отличный канал про математику и отличный рассказчик (Matt Parker). В первом видео ниже он рассказывает о прикольном парадоксе с многомерными сферами (не пугайтесь, там все просто). Во втором – про загадочное число 10958 (+решение проблемы этого числа в отдельном видео)

https://www.youtube.com/watch?v=mceaM2_zQd8

https://www.youtube.com/watch?v=-ruC5A9EzzE

https://www.youtube.com/watch?v=mceaM2_zQd8