Взгляд в японский и китайский поиск: исследования и находки | 19 августа 2019 года, 00:27

Я опубликовал большое (45 страниц) исследование по теме “Поиск на китайском и японском языке”, велком. Соавтором в части про японский язык выступал @[100001772111225:2048:Тимофей Клюбин], огромное ему спасибо. Здесь собрано все, что касается особенностей поиска на японском и китайском языках, включая особенности пользовательского интерфейса и обзора существующих решений.

У меня завтра стартует проект, где будет большая часть про китайский поиск, так что я затеял это все не зря.

Намеренно не затрагивал корейский, традиционно идущий вместе с японским и китайским вместе (CJK), когда дело касается information retrieval. Корейский бы прибавил еще страниц 10, и в итоге у читателя была бы каша в голове. Может, когда-нибудь вернусь во второй части. Я с корейским когда-то уже разбирался.

https://hybrismart.com/2019/08/18/the-challenges-of-chinese-and-japanese-searching/

https://hybrismart.com/2019/08/18/the-challenges-of-chinese-and-japanese-searching/

15 августа 2019 года, 12:25

в понедельник выйдет статья про поддержку японского и китайского языков. Пока разбираюсь – офигеваю от японцев. https://www.sljfaq.org/afaq/large-numbers.html

У них 極 c 17 века означает 10^48 (1000000000000000000000000000000000000000000000000). И есть отдельные иероглифы для всех меньших чисел с шагом 10000 (потому что для всех между можно использовать другую нотацию, в рамках 10000).

Одно из значений этого иероглифа – “very ordinary” 🙂

https://www.sljfaq.org/afaq/large-numbers.html

13 августа 2019 года, 12:48

Коллеги, если кто-то из вас понимает в фулл текст поиске на китайском и корейском, пинганите меня, пожалуйста. Ну и рекомендации велкомед

очень удивлен отсутствию информации в сети. Про японский есть, а про китайский – ноль. Только проблема с сегментацией на слова кое-где разбирается (в японском она тоже есть, со слегка другой спецификой). Но ведь это не единственный челендж?

19 июля 2019 года, 17:57

Читаю про проблему сегментации китайских предложений (тема – поиск). Ну типа в русском и английском можно по пробелам разбивать, а в китайском – хренушки.

Интересный пример:

我␣ 喜欢␣ 新西兰␣ 花 – I like fresh broccoli

我␣ 喜欢␣ 新␣ 西兰花 – I like New Zealand flowers

или вот еще

才能 – два иероглифа, перевод – талант

才 能 два слова по иероглифу каждое, перевод “только тогда способен”

или вот –

学会 два иероглифа, перевод – общество

学 会 два слова по иероглифу каждое, перевод “научиться как”

а еще вот на картинке показано, как из трех слов получается одно, и разбивать его нельзя)

14 мая 2019 года, 14:18

Оказывается, американцы произносят niche как нитч. Ну вдогонку, вдруг кто не знал, anxiety читается как энгзаити (ну насколько можно в русских без передать)

The Particular Case of Born and Borne | 01 апреля 2019 года, 14:11

TIL that “born” (рождаться) is a past participle of “bear” (нести), когда используется в смысле “рождаться”. Но тот же PP от bear во всех остальных смыслах другой – borne.

When birth is being discussed, the past participle of “bear” is usually “born”: “I was born in a trailer—but it was an Airstream.” Note that the form used here is passive: you are the one somebody else—your mother—bore. But if the form is active, you need an “E” on the end, as in “Midnight has borne another litter of kittens in Dad’s old fishing hat” (Midnight did the bearing).

But in other meanings not having to do with birth, “borne” is always the past participle of “bear”: “My brother’s constant teasing about my green hair was more than could be borne.”

The simple past tense of “bear” when no helping verb is involved is of course “bore”: “Yesterday my wife bore twins.”

The dialectical form “borned” is not standard English.

+https://www.grammarly.com/blog/borne-born/

https://www.grammarly.com/blog/borne-born/

04 октября 2018 года, 16:12

Угадаете язык?

P.S. Первыми угадали George Aristov и Fyodor Saveliev !

Это глаголица. Поздняя, 20 век. Является дальним родственником кириллице. Именно глаголицу разработали Кирилл и Мефодий. Все эти “аз буки веди” – отсюда. Например, последнее слово тут “ПРИШЕСТВИЯ”. Тут алфавит: https://ru.wikipedia.org/wiki/%D0%93%D0%BB%D0%B0%D0%B3%D0%BE%D0%BB%D0%B8%D1%86%D0%B0

Апдейт: Svetlana Beregulina и Roman Moguchiy помогли еще разобраться. Язык это – старославянский или хорватский, тут хрен поймешь (хорватский произошел из старославянского, как и русский, но он ближе русского к тому, древнему). А алфавит – глаголица. Собственно, вопрос был про алфавит, а я его языком назвал.

19 сентября 2018 года, 01:48

Интересно, почему на фразу “в соцсéти” хочется поставить вопрос “куда?” (отправить, запостить), а на фразу “в соцсети́” – вопрос “где?” (нашлось, познакомились)?

«Большой толковый словарь русского языка» под редакцией С.А. Кузнецова предлагает варьировать ударение в зависимости от предлога: о сéти, но в сети́. Есть похожие примеры в русском, чтобы при склонении менялось только ударение?

**Korean Adventures: Learning the Hard Way** | 16 сентября 2018 года, 15:05

#learnkorean

Просто оставляю тут записки для себя и редких интерующихся. Это уже третья часть.

В корейском “не хватает” кучи звуков в алфавите, зато есть туча “лишних”. Есть дифтонги, двойные гласные. Сложность там в том, что у них при разном написании почти одинаковое произношение. Например, 애 и 에 оба читаются как “э”, а следующие три 외 , 왜 и 웨 и читаются как “вэ”. Есть очень похожие буквы ㄱ (к+г) и ㅋ (к+х), и ㄷ (т+д) и ㅌ (т+х), ㅂ (p+b) и ㅍ (п+х). Есть долгие согласные, такие как “ㅃ” (яркий и акцентированный “ㅂ” (п)), “ㅉ” (яркий ㅈ, ближе к ц), “ㄸ” – яркий звук от “ㄷ”, “ㄲ” – яркий и акцентированный “ㄱ”, “ㅆ” – яркий от “ㅅ” (s).

Интересно, что Корея на корейском – хангук (한국), что означает “Одна нация”, а ее полное название – те-хан-мин-гук (대한민국) – “Демократическая нация Великого Хана”. Точнее, даже не так. Хангук – это Кореи обе, а Южная называется Наман, т.е. “Южный хан” (남한). Северную Корею сами корейцы называют Чосон (“조선”) или бухан, “Северный хан” (“북한”)

За эти выходные как-то первично освоил алфавит, и могу читать такие слова как 샌프란시스코 (Сан-франциско) или 코카콜라 (Coca-cola), 러시아 (Russia). В общем, все то, что не требует знания ни одного слова из корейского словарика. Осталось еще запомнить получше дифтонги и не тормозить про чтении, а также познакомиться с грамматикой на поверхностном уровне, а дальше посмотрим, продолжать или хватит)

Интересно, как сами корейцы описывают произношение букв русского алфавита через корейский и английский. http://orus.tistory.com/14.

P.S. О, еще я могу теперь здороваться так:

ㅐㅌㄴㄴㅇ!