Лекция о природе человека | 26 сентября 2016 года, 15:37

Очень интересная лекция.

Уже больше 40 лет студенты Стэнфордского университета сами решают, кто из преподавателей накануне выпускного вечера прочитает им самую последнюю лекцию. В 2013 их выбор пал на профессора Роберта Сапольски — биолога, невролога и нейрохирурга. Приложенная ссылка – как раз оттуда.

Лекция про то, что делает нас похожими на животных, а что – отличает.

На ютьюбе выложены его лекции (на англ). Очень хочу послушать целиком.

первая лекция переведена на русский: https://www.youtube.com/watch?v=ik9t96SMtB0

английский: https://www.youtube.com/watch?v=NNnIGh9g6fA&list=PL150326949691B199

https://www.youtube.com/watch?v=5aFB5fDOucE

Образование без предсказуемости: Как государство может обеспечить доступное и честное образование? | 26 сентября 2016 года, 12:02

Интересно, а что мешает государству построить общее образование по такому принципу:

* Есть авторизованные тестовые центры, где можно сдать все предметы по принципу ЕГЭ в любой момент.

* Есть обычные школы, где готовят детей к сдаче экзаменов в тестовых центрах.

* Экзамены делятся на обязательные и по выбору. Без обязательных не окончишь школьный год / школу. По выбору нужны лишь для того, чтобы убедить университет или будущего работодателя, что ты умный.

* Первую сдачу обязательного экзамена и плановую подготовку в школе оплачивает государство, чем гарантирует бесплатное образование.

* Последующие – стоят денег (например, каждая следующая попытка вдвое дороже предыдущей). То есть, не сдал – не беда, плати и пробуй еще. Деньги идут государству на содержание и развитие тестовых центров.

* Сдача экзамена пишется на видео и архивируется. Чем гарантируется легкое разрешение ситуаций рода “купил диплом”. Если видео фиксирует списывание или подсказки – тестовый центр со скандалом закрывается, а руководителя – под суд. Если видео потеряно – аналогично.

* Вопросы по принципу ЕГЭ. Несколько вариантов ответа, нужно выбрать один или несколько правильных.

* Вопросы на каждом тесте разные. Есть некоторый большой пул вопросов, из которого случайно выбирается часть. Даже если предположить, что большой пул вопросов уйдет куда-то налево, то толку от этого будет мало: знание вопросов не поможет сдать экзамен, их слишком много.

* В электронный аттестат идет вся информация о результатах экзамена, включая процент правильных ответов и число попыток.

* Если студент считает, что его ответы правильные, а вопросы были неправильные, можно опротестовать результаты и какие-нибудь специальные люди проверят вопросы и ответы вручную.

* Университеты принимают школьников на основании электронных атестатов.

* В целом, университеты могут также организовать тестовые центры на тех же принципах, что позволит легче открывать филиалы (то есть, меньше заботиться о том, что “в филиале легче сдать экзамен”).

Ускорение импорта данных в HANA | 25 сентября 2016 года, 22:06

Обновление на блоге про Хайбрис. Я нашел способ ускорить импорт данных в хайбрис в два раза.

Вкратце, при импорте данных хайбрис делает три запроса (не в базу данных, а внутренних, в отсутствие кэша они преобразуются в три запроса к БД): найти элемент по к.-л. критериям, вытащить по нему всю информацию (модель), изменить элемент. Найти/вытащить кэшируются, что дает определенное ускорение, однако лучше от них избавиться, если такое возможно.

В моем решении двух первых запросов нет. Например, для обновления цен или остатков заглядывать в существующие данные бестолку – их надо переписать свежими. Тесты показывают разницу вдвое.

Самый быстрый способ – писать напрямую в базу, крайне не рекомендуется хайбрисом, причин много. Этот способ кошерный, т.к. используется механизм, официально презентованный хайбрисом (правда, недавно). Описанное на блоге не документировано SAP-ом, имеет также определенные недостатки и ограничения. Однако, для обновлений цен и остатков, например, подходит на 100%.

https://hybrismart.com/2016/09/23/data-import-3-5-times-faster-than-impex/

https://hybrismart.com/2016/09/23/data-import-3-5-times-faster-than-impex/

Friday Night Lights: A Score to Settle | 25 сентября 2016 года, 16:54

Это школьные соревнования по американскому футболу, играет лизина школа против south lakes. Лизина школа продула со счетом 8:75.

Обратите внимание, что каждая команда привезла с собой своих черлидерш. С гостями пришло немного зрителей, зато половина трибун на стороне хозяев турнира было заполнено школьниками в красных майках – это цвет Маклин хай скул. Тут же на трибуне школьный оркестр , который периодически чем-то звучит.

Rapid Adventure Down the Stream | 25 сентября 2016 года, 16:38

Небольшое путешествие на байдарках по потомаку. По пути довольно сильные пороги, особенно, когда на двойке гребешь один. Отличное место, еще и в 20 мин от дома

Третий в ряду титул! | 24 сентября 2016 года, 21:41

Третье подряд первое место на соревнованиях, в этом раз на Falling Leaves в Ричмонде! Жду победительницу. Щас приедет – обниматься будем!

Собеседование: три задачки для программистов | 22 сентября 2016 года, 14:48

С интересом читаю Гришу в ФБ. Вместо ответа комментарием на вопросы про алгоритмы сортировки (https://goo.gl/pPcJEd), напишу пост, так чуть удобнее, букв много. Речь в посте Гриши шла про то, нужно ли пытать кандидатов алгоритмами, которые давно уже никто не пишет на этих языках (и он верно объясняет почему).

В TEAMIDEA я выбрал три задачки, которые давал почти всем программистам на собеседовании. Иногда все собеседование состояло в обсуждении этих задачек (вообще пул задачек у меня был больше, но эти три вылезали чаще).

Первая задачка – про то, как искать по миллиону текстовых документов. Т.е. нужно написать свой поиск с нуля. Вводишь три слова – находишь три сотни документов, где эти три слова есть.

Мне ее интересно обсуждать, потому что я сам когда-то писал поиск и знаю связанные с этим сложности. Оцениваю задачу как легкую, но если кандидат с ней справляется – есть “продолжения”, вроде “а как быть, если слов несколько, вам же пересекать множества документов по каждому слову надо, а множества большие”, а также про постраничный просмотр и fuzzy search. Минимум кандидат должен был догадаться про пары WordId -> PageId, и даже это не выходило у 50% по резюме хороших специалистов.

Вторая задачка – про сокращатель урлов. Вводишь в форму урл – дает нечто короткое. Вводишь короткое – редиректит на длинный. Нужно продумать проект и найти технические риски, придумать архитектуру и алгоритмы. Оцениваю задачу как легкую.

В этой задачке полезно знать про биты и байты, кодировки. Решение на самом деле дико простое – надо сохранить урл в NoSQL, а индекс перевести в 65-ричную систему, он же и будет коротким урлом.

Эту задачу вообще в таком виде единицы решали. Что только не придумывал народ…

Третья задачка – про сжатие данных. Постановка ее открытая – есть текст на русском, нужно, чтобы он занимал меньше байт. Но при этом без потерь. Пойдут любые способы. Сложность аналогичная первой.

Многие пытаются заменять частые сочетания букв на айдишники, но правда, ломаются уже на том, сколько бит нужно на этот айдишник. До решения с плавающим числом бит на айдишник не додумывался никто. До алгоритма Хаффмана не додумывался никто. Лемпель-Зив процентов на 10 угадывали, но в целом тоже плохо. В лучшем случае сжимали текст, убирая лишние биты (раз текст на русском), что уже тоже неплохо.

Почему эти три? Теоретически к ним можно было заранее подготовиться, но, слава богу, ни разу компании, которые присылали программистов, не выясняли и не передавали детали следующим. Не знаю, плюс это для них или минус 🙂 Даже, если бы кто-то заранее прочел про поиск или сжатие, это, может, дало бы и плюсы, т.к. нельзя все знать, но сам факт подготовки к собеседованию добавляет очков.

Каждая задача не имеет одного правильного ответа. Можно придумать разные способы ее решения, и я оценивал насколько у человека работает техническая фантазия и насколько широк кругозор. Насколько он умеет рассуждать и насколько он умеет доказывать свою точку зрения.

Grigoriy Dobryakov, какой-то процент приходящих давал ответы в стиле “ну как, я возьму Solr и библиотеку сжатия данных”. Это лучше, чем ничего, особенно, если человек ЗНАЕТ или ИСПОЛЬЗОВАЛ это всё, но практически во всех этих случаях они не способен объяснить, как это работает внутри. Иногда – вообще.

За редкими исключениями эта система никогда не давала сбой:)

PredictionIO: Unlocking the Power of Machine Learning in E-commerce | 22 сентября 2016 года, 03:58

Крупное обновление на блоге про Хайбрис. Удалось разобраться с Apache PredictionIO. Интересное добавление к любому крупному интернет-магазину. Магазин может отправлять в эту систему логи, а система снабжать магазин подсказками, как больше заработать. Механизмы оформлены в шаблоны, которые просто работают. Можно разобраться еще глубже и править алгоритмы, но на ум быстро не приходит, когда такое может быть нужно: алгоритмы довольно универсальные для e-commerce.

Я там обработал некоторый массив данных от реального интернет-магазина, и получил рекомендации системы, основанные на истории покупок. В другом эксперименте я получал перечень товаров, которыми покупатель вероятно заинтересуется.

В общем, велкам, лайки и шары приветствуются)

https://hybrismart.com/2016/09/21/predictionio-machine-learning-in-e-commerce/

Дожили до эпохи 1Тб-карт? | 20 сентября 2016 года, 21:18

Дожили. SD-карта на 1Тб. Пока только рабочий прототип. У нас в костко у кассы продаются 256Гб флэшки за 15 баксов. У меня тридцать лет назад компьютер был на 8 килобайт памяти. Это в сто тридцать четыре миллиона раз меньше, чем вот эта флэшка. Таких флэшек можно полный карман набрать. Далее будут ускорять ввод-вывод. В интересное время живем, товарищи 🙂

http://www.theverge.com/circuitbreaker/2016/9/20/12986234/biggest-sd-card-1-terabyte-sandisk