Интернет и связь

Интернет и связь / Сервисы /

Google и Microsoft помогут плохо представленным в Интернете языкам

06 июня 2012 года, 16:52 | Текст: Дмитрий Целиков

Миллионы людей говорят на языках, которые до сих пор почти не представлены в Интернете, несмотря на широкое распространение Всемирной паутины и новые технологии автоматического перевода.

Исправить ситуацию решили Microsoft и Google — создатели наиболее популярных веб-переводчиков.

Автоматические переводчики всё ещё ошибаются... (Иллюстрация <noindex><a target=_blank href=/>Gee Ranasinha</a></noindex>.)
Автоматические переводчики всё ещё ошибаются... (Иллюстрация Gee Ranasinha.)

Продукты этих компаний представляют собой триумф принципа большого набора данных. Вместо того чтобы преподавать силиконовым мозгам грамматику и алгоритмы, разработчики положились на статистическое сравнение миллионов электронных документов, переведённых людьми.

Разумеется, этот подход не работает, когда дело касается менее популярных языков. Поэтому в последнее время Google начала в экспериментальном порядке поддерживать пять языков Индии (бенгальский, гуджарати, каннада, тамильский и телугу), обучив ПО грамматическим правилам, а Microsoft запустила сервис, позволяющий создавать автоматические переводчики для любых языков.

Сотрудники «Гугла» поняли, что пора заняться уроками грамматики, пытаясь отполировать японский перевод, вспоминает представитель компании Ашиш Венугопал. «Мы выдавали предложения с глаголом в середине фразы, тогда как в японском языке он должен идти в конце», — поясняет специалист. Как выяснилось, вся система в значительной степени «плавала» в грамматике. Внесённые исправления позволили организовать поддержку пяти языков, на которых говорят миллионы жителей Индийского субконтинента и которые практически отсутствуют в Интернете.

Обучение грамматике проходило следующим образом: системе скармливали большие коллекции предложений со специальными пометками. В обычных алгоритмах Google ничего подобного не было.

Г-н Венугопал признаёт, что чуда не произошло: переводчик по сей день лучше справляется с хорошо представленными в Интернете языками вроде немецкого и французского. Но важный первый шаг сделан. Возможно, он побудит носителей других языков чаще писать в своём блоге на родном наречии, а не на английском.

Корпорация Microsoft тоже заинтересована в оказании помощи менее популярным в Сети языкам, дабы те не скатились на обочину и в реальном мире, говорит Кристин Толле, директор по исследованиям Microsoft. Её группа недавно открыла сайт Translator Hub, который помогает пользователям создавать собственные программы перевода.

Пройдя процесс регистрации, вы загружаете материалы на двух языках. Затем машина с помощью алгоритмов самообучения попытается самостоятельно перевести текст, написанный на новом языке. Помощь корпорации оказывают носители языка мяо, живущие в Калифорнии.

Между тем, как отмечает г-жа Толле, есть ещё один нюанс. Коммерческие предприятия с неохотой доверяют перевод секретных материалов людям, поэтому им удобнее пользоваться автоматическими переводчиками, но они, увы, не очень хорошо справляются со специальными техническими терминами и жаргонизмами. Translator Hub призван решить и эту проблему. Заинтересованность в тестировании нового сервиса выразили автогиганты Volvo и Mercedes.

Подготовлено по материалам Technology Review.

blog comments powered by Disqus

Последние новости по теме "Сервисы":