30 марта 2018 года, 16:55

Читаю первого Гарри Поттера, обратил внимание на любовь Роулинг к “as though”.

В книге это словосочетание повторяется 51 раз, в то время как в первых двух книгах Нарнии, например, – ни разу. По таким параметрам можно, наверное, автоматически угадывать кто автор книги даже по фрагменту без имен собственных, если натренировать на словосочетаниях и грамматических паттернах)

Быстрый просвет: если if… | 23 октября 2017 года, 18:30

Только что пришла из школы бумажка, на которой я нашел интересную грамматическую конструкцию “if school _will_ close early, the announcement _will_ be made…”. Нас всегда учли, что после if будущего времени быть не может. Я знаю про три исключения:

1) если if употребляется в значении “ли” (“Doctor, can you tell me if my hamster will have babies?”)

2) если will употребляется в значении willingness (“I think I will warm some water for tea if you will excuse me.”)

3) если часть в if идёт по времени после части then (легче на примере показать: “If aspirin will ease my headache, I will take a couple tonight instead of this horrible medicine.”)

P.S. Спасибо, что-то я проглядел, тут и правда третий случай. Сначала анонс, потом закрытие школы. Я что-то подумал, что наоборот, не вдумался в смысл) В общем, хорошая иллюстрация третьего пункта

15 октября 2017 года, 21:08

Третья и четвертая части моего выступления в SAP Moscow. В прошлый раз было про поисковую аналитику, в этот – про фразовые синонимы и автоматическое определение фасетов по поисковому запросу. Пара видео по 10 минут каждое,

Велкам всем интересующимся.

Видео на русском и английском. Английская версия – voiceover + subtitles.

https://hybrismart.com/2017/10/15/sap-hybris-thinking-outside-the-box-part-3-and-4-video-russian-english-multi-word-synonyms-and-automatic-facet-discovery/

https://hybrismart.com/2017/10/15/sap-hybris-thinking-outside-the-box-part-3-and-4-video-russian-english-multi-word-synonyms-and-automatic-facet-discovery/

Тайные законы текста: что я узнал с Лавренко в свободное время | 12 октября 2017 года, 13:03

(TIL) В свободное время от работы смотрю лекции Лавренко. Сегодня с утра слушал лекцию “Законы текста”.

Например, вы знали, что есть такой закон Ципфа, говорящий, что частота n-го слова в списке самых частых слов любого языка окажется приблизительно обратно пропорциональной его порядковому номеру n?

Или вот есть эмпирический закон Бенфорда: в таблицах чисел, основанных на данных источников из реальной жизни (что угодно – от электрических счетов до номеров домов в городах) цифра 1 на первом месте встречается гораздо чаще, чем все остальные (приблизительно в 30% случаях), цифра 2 больше, чем, например, 8 и.д.. Простым языком Закон Бенфорда можно описать так: маленьких вещей в мире всегда больше, чем больших. Объяснение закона Бенфорда заключается в том, что величинам этого мира свойственен экспоненциальный рост, а не линейный. Очень интересно.

Или вот закон Хипа. Количество уникальных слов в любом тексте с числом слов N подчиняется закономерности f(N) = k*N^b, где b в большинстве случаев равно 1/2.

Эти законы позволяют, например, проверять данные или текст на “естественность”.

Или вот еще. Для любого очень редкого слова вероятность того, что он встретится в тексте очень низкая, и это понятно. Но если это слово все-таки встречается в тексте, то вероятность того, что оно встретится снова, очень высока.

https://www.youtube.com/playlist?list=PLBv09BD7ez_64T7_6df4362YRhYblYxPv

05 октября 2017 года, 16:32

Всем известно, что i18n – это internationalization, l10n – это localization, gr8 – это great, a 1ce – это once.

Вам загадка: А что означает этот нумероним? Только что передо мной ехал. Чтобы не палить ответы, давайте договоримся, что в комментах только русский перевод, чтобы я понял, что вы разгадали.

Названия в переводе: как имя может стать именем | 01 сентября 2017 года, 17:02

Работая с международными заказчиками и командами, столкнулся с интересным опытом, о котором не задумывался раньше: имена людей,с которыми вам работать, могут быть вообще любым произносимым (иногда и не очень) набором букв. Или ваше имя может оказаться таковым для них. Поэтому тут приезжие китайцы-корейцы переименовались в английские имена.

Интересная статья: http://www.slate.com/articles/arts/culturebox/2009/04/the_names_du_xiao_hua_but_call_me_steve.html

http://www.slate.com/articles/arts/culturebox/2009/04/the_names_du_xiao_hua_but_call_me_steve.html

10 августа 2017 года, 16:56

Сейчас работаю над одним большим проектом, там поиск, SOLR, grocery, и один из языков – французский. И во французском есть проблема с многозначностью слов: cerise переводится как “вишня”, но tomate cerise – как маленькие помидорчики, поэтому правильный поиск по cerise должен выдавать вперед вишню. Другой пример: fraise – это клубника, а fromage frais – это творог (frais в этом случае свежий), ну и по fraise должна клубника вперед идти, а не творог. Или вот, например, pomme de terre (картошка). Pomme – это яблоко. Поэтому картошку по pomme показывать не надо.

И вот нигде, ну нигде о таких проблемах и что с ними делать в сети не написано. Хотя понятно, конечно, что делать. Но сколько их таких? Каждый случай по-своему надо обрабатывать.

09 августа 2017 года, 12:50

Новая статья на моем hybris-блоге: поисковые синонимы и улучшенный поиск по фразам. Есть известная проблема в SOLR (и это не только с хайбрисом), что многословные синонимы работают очень криво. С однословными еще кое-как работает, но тоже со своими сложностями. На блоге описано решение, позволяющее обойти эти проблемы и сделать поиск умнее.

https://hybrismart.com/2017/08/09/enhanced-multi-word-synonyms-and-phrase-search/

https://hybrismart.com/2017/08/09/enhanced-multi-word-synonyms-and-phrase-search/

31 июля 2017 года, 18:19

Забавно. Только что наткнулся: в SAP hybris в конфиге можно указывать не только TRUE, “1”, ON или YES, но и JAWOLL, что на немецком означает “да” на военном сленге (типа “так точно!”, “есть, командир!” и всё такое)