infowatch (infowatch) wrote,
infowatch
infowatch

В чужой монастырь со своим поиском

Приходилось слышать, как самоуверенные иностранцы заявляли о поддержке в своём продукте русского языка или даже всех языков. Естественно, обламывались. Но понять свой облом могли далеко не сразу. Особенности языка не позволяют иностранцу понять, чего именно он не понимает.

— А деньги у них там, доллары называются, ну точь-в-точь как наши баксы.

Заявить о поддержке всех языков, независимо от их особенностей может лишь законченный шовинист-эгоцентрист, не знающий ни одного языка кроме родного.

Любопытный пример из тайского языка. Там некоторые буквы пишутся под строкой, а некоторые другие – над ней. (Плюс надстрочные тоновые знаки, поэтому легко может получиться 4-этажная конструкция.) Соответствующие символы в шрифтах имеют формальную нулевую ширину, так что при наборе в редакторе оказываются как раз над/под предыдущим символом. (В русских шрифтах тоже есть один такой символ – знак ударения.) При одновременном появлении надстрочного и подстрочного знака их можно набирать в любом порядке, выглядеть будет совершенно одинаково. Выглядеть для человека, но не для компьютера.

Вот, к примеру, слово ку̂нг (креветка):

    กุ้ง         กุ้ง

юникод: 0E01 0E38 0E49 0E07   0E01 0E49 0E38 0E07

Чтобы программа сообразила, что это одно и то же слово, нужен соответствующий логический блок, знающий о надстрочных и подстрочных символах.

А такая особенность того же тайского и лаосского языков, как написание слов без пробелов? Это вам как? Тоже справитесь? (Строго говоря, пробелы у них есть, но используются они не для отделения слов, а вместо запятых и точек.) В немецком есть слабый аналог: компаунды – составные слова, когда определения присоединяются к главному слову; с точки зрения компьютера, слова записываются без пробелов.

И поисковые системы, и DLP, и мониторилки мнений – все они нуждаются в глубокой переработке для каждого из языков.

Tags: DLP-система, Крибрум, конкуренты, проекты
Subscribe
  • Post a new comment

    Error

    default userpic

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 10 comments