Читаю про проблему сегментации китайских предложений (тема – поиск). Ну типа в русском и английском можно по пробелам разбивать, а в китайском – хренушки.
Интересный пример:
我␣ 喜欢␣ 新西兰␣ 花 – I like fresh broccoli
我␣ 喜欢␣ 新␣ 西兰花 – I like New Zealand flowers
или вот еще
才能 – два иероглифа, перевод – талант
才 能 два слова по иероглифу каждое, перевод “только тогда способен”
или вот –
学会 два иероглифа, перевод – общество
学 会 два слова по иероглифу каждое, перевод “научиться как”
а еще вот на картинке показано, как из трех слов получается одно, и разбивать его нельзя)

