Поиск
Закрыть
Заказать звонок
Оставьте заявку, мы бесплатно проконсультируем Вас.
Нажимая на кнопку «Отправить сообщение» вы соглашаетесь с Политикой обработки персональных данных.

Машинный перевод


Содержание:

Машинный перевод (machine translation) – это инструмент, используемый лингвистами для ускорения рабочего процесса, чтобы они могли обеспечить качество за более короткий промежуток времени. При правильном использовании технология обеспечивает гибкое, быстрое решение для широкого круга лингвистических задач. В настоящей статье мы расскажем о различных программах и современных системах машинного перевода. Такой перевод – одна из технологий, наиболее часто используемых филологами. Волнение по поводу искусственного интеллекта и перспективы того, что алгоритмы заменят людей для решения всех мыслимых задач, породили повествование о том, что машинный перевод также заменит лингвистов.

Обратимся к истории

Машинный перевод (МП) текста настолько распространен, что для многих начинающих специалистов по локализации трудно представить работу без него. Те, у кого за плечами десятилетие или два опыта работы в языковой индустрии стали свидетелями эволюции машинного перевода. Может показаться удивительным узнать, что его история восходит к началу 20-го века, задолго до того, как многие из нас родились. В 1933 году во Франции и России были выданы первые патенты, с тех пор мы развиваем данную технологию. Попутно разработчики, переводчики усвоили несколько ценных уроков, на которые стоит обратить внимание.

1930-1950-е годы: зарождение принципов работы систем машинного перевода

История машинного переводаХотя люди давно хотели машины, которые могли бы чудесным образом переводить материал с одного языка на другой, только в 1930-х годах такая технология действительно казалась реальностью. Ж. Арцруни и П. Троянский получили первые в истории патенты на алгоритмы, подобные МП, в 1933 году, с разницей всего в пару месяцев. Они работали совершенно независимо друг от друга во Франции и России соответственно. Данные инструменты машинного перевода были довольно рудиментарными, особенно по сравнению с тем, что мы думаем, когда слышим термин «МП».

Они сравнивали словари исходного, целевого языков, и поэтому действительно могли учитывать только корневые формы слов, а не их различные склонения и спряжения. Устройство автоматического перевода Троянского, например, требовало, чтобы:

  • машинистка расшифровывала слова целевого языка;
  • оператор комментировал их грамматическую функцию;
  • редактор превращал их в читаемый текст на целевом языке.

Без компьютеров технология была не более чем двуязычным словарем.

системы машинного перевода 1930


Но первые электронные компьютеры общего назначения были не за горами. В середине 1940-х годов разработчики начали думать о том, как они могут использовать компьютеры для автоматизации процесса перевода. В 1947 году для осуществления автоматизированного машинного перевода с помощью электронных компьютеров было предложено использовать:

  • статистические методы;
  • теорию информации;
  • методы криптографии военного времени.

Кульминацией данных усилий стал Джорджтаунский эксперимент – первая публичная демонстрация компьютерной технологии МП. Исследователи университета объединились с IBM для создания инструментов машинного перевода, который мог бы переводить русский язык (правда, русский, транслитерированный латинскими буквами) на английский язык. Исследователи вручную отобрали более 50 предложений, чтобы представить их публике. Хотя их инструмент адекватно перевел подготовленные предложения, технология оставляла желать лучшего.

1960-1980-е годы: расцвет RBMT

Машинный перевод

Казалось, что исследователи из Джорджтауна и IBM придали технологии машинного перевода хороший импульс, хотя их технология была далека от совершенства. В 1966 году Консультативный комитет по автоматической языковой обработке (ALPAC) опубликовал отчет, в котором утверждалось, что машинный перевод слишком дорог, чтобы оправдать дальнейшие исследования, поскольку он менее эффективен, чем лингвисты.

Исследователи экспериментировали с несколькими различными методами машинного перевода, популярным из которых стал перевод на основе правил (RBMT). RBMT опирается на явную грамматическую, лексическую информацию каждого языка, работая на основе ряда правил каждого языка. Ранние системы RBMT включают, среди прочего, систему TITUS Института текстиля Франции и канадскую систему METEO.

Машинный перевод RBMT


У RBMT было несколько ограничений, вызванных технологическими моментами. Создание RBMT требовало много времени, поскольку разработчикам приходилось вручную вводить правила каждого языка. Он часто генерировал неточные или неловко звучащие выходные данные, особенно когда они были несколько двусмысленными или идиоматическими. В поисках способов улучшить, масштабировать RBMT в Японии разработали машинный перевод на основе примеров. Благодаря таким передовым исследователям, разработчикам мы узнали о важности постоянного обслуживания систем машинного перевода.

1990-е-2010-е годы: более передовые методы

Чтобы улучшить RBMT, разработали другой, более эффективный метод – статистический машинный перевод (SMT). В отличие от RBMT, SMT не требует от человека ручного ввода правил каждого языка. Вместо этого механизмы SMT используют двуязычный корпус текста для выявления закономерностей в языках, которые переводятся в статистические данные. Анализ этих корпусов позволяет механизмам SMT определять наиболее вероятные варианты перевода для заданного ввода. Такие схемы работали значительно лучше, чем RBMT, и быстро вошли в моду.

Почти десятилетие спустя, в 2006 году, Google запустил Google Translate, который работал на SMT по 2016 год. Наряду с развитием SMT мы также можем найти намеки на развитие нейронного MT (NMT). В 2003 году исследователи из Монреальского университета разработали языковую модель, основанную на нейронных сетях. Но только в 2014 году, когда была разработана модель последовательностей, NMT стал грозным соперником SMT.

NMT быстро стал частью Google Translate в 2016 году. Механизмы NMT используют более крупные корпуса, чем SMT, и более надежны, когда речь идет о переводе длинных строк текста со сложной структурой предложений. Сочетание основных систем машинного перевода может дать лучшие результаты. Это особенно полезно для языков, где доступно мало данных для обучения: механизм RBMT создает грубый перевод, который может быть дополнительно улучшен механизмами SMT и NMT.

Как и где можно автоматизировать перевод?

Алгоритмы машинного перевода эффективны в той работе, для которой он предназначен, при условии, что вы используете его правильно. В широком смысле это означает его включение в запланированный стратегический процесс перевода, предназначенный для создания необходимого вам контента. Например, если вы переводите новостные статьи с одного языка на другой, машинный перевод – отличный вариант для быстрого создания первой черновой версии, которую лингвисты могут отредактировать, проверить, утвердить перед публикацией.

Более сложный процесс включает перевод, например, руководств пользователя для ряда потребительских технологических продуктов для нескольких языковых рынков. В данном случае используется комбинация перевода, других связанных технологий для автоматизации первого чернового варианта каждой языковой версии. Затем черновой вариант подвергается редактированию с легкими правками или полным постредактированием. После публикации окончательных версий копии сохраняются для дальнейшего использования в случае появления новых вариантов продукта, дополнительных языков и т.д. Процесс машинного перевода во многом зависит от требований проекта.

Преимущества и недостатки: можно ли обойтись без лингвистов?

Если машине не знакомо какое-то слово или выражение, она либо бесцеремонно отбросит его, либо заменит чем-то, что для нее имеет смысл. Такое слово будет просто выдумано. Даже если вы говорите более чем на одном языке, вы не заметите такие нюансы, если не научитесь их обнаруживать. Разберем три явных недостатка систем машинного перевода.

  1. Он не креативен. Компьютеры не обладают нашей способностью понимать смысл. Творческий процесс перевода –вершина смысла. Лингвисты переводят смысл, а не слова. Искусство перевода заключается в понимании значения исходного текста, а затем в преобразовании его во что-то, что передает то же самое сообщение, но может внешне не выглядеть как точный эквивалент. Компьютер просто не может понять эту концепцию, сколько бы слов вы ему ни давали.
  2. Машинный перевод не заботится о согласованности. Во многих языках даже такое простое слово, как «грузовик», может потребовать дополнительного контекста. Слова несут разные коннотации, могут быть совершенно неправильными, в зависимости от контекста. Синонимы существуют в каждом языке, поэтому вы постоянно сталкиваетесь с ними при переводе. МП будет случайным образом выбирать другое, но обманчиво точное слово каждый раз, когда вы его используете. Это риск, особенно когда требуется согласованность, чтобы ваше сообщение было четким.
  3. Он небезопасен. Все, что вы вводите в переводческое поле, будет использоваться для дальнейшего обучения их алгоритмов. Это может быть приемлемо, если вы переводите рецепт или сообщение в социальной сети. Конфиденциальность данных – юридическая проблема, которую компании не могут игнорировать. Вероятно, лучше всего доверить секретную информацию в руки лингвиста.

Вопреки распространенному мнению, машинный перевод – это не так уж плохо. Хотя машинный перевод пользуется плохой репутацией, он может многое предложить:

  • быстрый вывод;
  • в основном точные переводы;
  • более низкие затраты и масштабируемость.

Что такое автоматизированный перевод?

Во многих контекстах он используется как синоним машинного перевода. Хотя легко спутать одно с другим, принципиальное отличие состоит в том, что автоматизированный перевод – это рабочий процесс, связанный с переводом сайта. Как здесь работает машинный перевод? Он обеспечивает черновой текст на целевом языке. АП берет его и вводит в процесс корректуры, редактирования (часто с участием лингвистов), поисковой оптимизации и повторной загрузки переведенного контента на ваш сайт. Особенность машинного перевода – он часть процесса автоматизированного перевода.

Автоматический перевод охватывает все процессы, связанные с созданием многоязычного сайта. Недостаточно загрузить ваш контент в инструмент машинного перевода. Нужно убедиться, что перевод точен, уместен и локализован для вашей целевой аудитории. Автоматизированный перевод призван решить эту проблему с помощью следующего:
  • автоматизация рабочего процесса – добавление структуры и смысла. Например, автоматическое сканирование и обнаружение вашего контента для перевода на нужный язык. Он упрощает управление проектами.
  • сокращение повторяющихся ручных манипуляций. Перевод занимает много времени, если вы делаете его вручную. Вот где помогает АП. Он автоматизирует повторяющиеся ручные задачи.
  • память переводов – часть оптимизации процесса. Она помогает вашим переводам остаться согласованными, устраняет необходимость повторно исправлять одни и те же фразы.
  • многоязычное SEO. Нужно настроить свои метаданные, назначить выделенные URL-адреса для каждого переведенного языка. Учитывая множество функций и интеграций АП, часть из них будут автоматически выполнены за вас.
  • локализация сайта. Локализация означает адаптацию вашего контента в соответствии с предпочтениями вашей целевой аудитории. Они должны чувствовать, что вы создали его специально для них.

Эволюция и тенденции

Мы уже рассмотрели понятие историю машинного перевода и убедились, что он прошел долгий процесс эволюции. Обозначим его наиболее распространенные технологии. Итак, выделим три разновидности машинного перевода.

МП на основе правил. Он требует больших затрат ресурсов. Ему нужны правила грамматики, правила переноса и двуязычные словари. Лингвистические структуры, отсутствующие в данных элементах, не могут быть переведены. МП на основе правил использует обширные наборы лингвистических правил, разработанных экспертами по языку, для перевода исходного контента на целевой язык. Статистический машинный перевод – альтернатива МП на основе правил. Вам нужны данные только для обучения. Он выполняет вероятностные вычисления того, что предложение или слово на целевом языке является правильным. При этом анализируются существующие переводы, выполненные лингвистами, филологами, чтобы определить наиболее вероятный перевод исходного контента.

Гибридный вид машинного перевода сочетает перевод на основе правил и статистический. Тем самым гарантирует:

  • предсказуемый и последовательный перевод;
  • соответствие корпоративной терминологии;
  • удобство использования вне домена;
  • высокую производительность;
  • возможность учиться на существующих одноязычных, многоязычных корпусах с небольшими затратами на настройку.

К типам машинного перевода относят нейронный МП. Серия OpenAI GPT (ChatGPT и GPT-4) включает языковые модели, построенные на крупных нейронных сетях с расширенными функциями. Хотя их возможности перевода не так велики, как у NMT, это не значит, что их нельзя улучшить. Сочетание такой технологии с ранее существовавшей может дать интересные результаты. ChatGPT – неплохой инструмент для редактирования, который можно использовать вместе с инструментами MП для корректировки.

автоматизированный перевод

Что еще относится к характеристикам нейронного машинного перевода? С помощью ChatGPT вы можете настраивать переводы в соответствии со своими конкретными потребностями и оставлять отзывы о корректировках, которые вы хотели бы видеть. Например, вы можете настроить тон, стиль и принять во внимание некоторые культурные коннотации, региональные различия в значении слов, чего не могут сделать специальные инструменты перевода.

Мы говорили о преимуществах и недостатках МП. Теперь обратимся к человеку. В чем плюсы и минусы работы лингвиста. Инструменты машинного перевода постоянно развиваются и служат определенным целями. Однако ключевое слово здесь – цель. Если цель вашего текста требует какого-либо критерия, нужно работать с лингвистом.

Переводчики поймут текст. В отличие от компьютерной программы, человек не только поймет его лично, но и рассмотрит множество других способов, которыми его может интерпретировать целевая аудитория. Переведет так, чтобы текст имел смысл, резонировал с аудиторией. Лингвистическая работа – это больше, чем просто передача слов и грамматических правил. Часто лучшее решение для перевода – это то, что никогда раньше не воспроизводилось. Это именно то, что компьютер не может и не будет делать.

Лингвисты используют широкий спектр приложений для предотвращения всех уже упомянутых ловушек. В их число входят управление терминологией, цифровые и бумажные словари, программное обеспечение памяти переводов, приложения для обеспечения качества и даже машинный перевод. Как последнее возможно, учитывая то, что мы узнали о проблемах конфиденциальности? Переводчики будут использовать либо частные специальные инструменты МП, либо платные версии облачных инструментов, которые гарантируют конфиденциальную обработку данных. Помните, программы машинного перевода – это лишь один из многих помощников профессионального лингвиста.

Популярных программ, осуществляющих машинный перевод, очень много. Каждые имеют свои плюсы, интерфейс и т.д. Всех их сложно перечислить, поэтому мы выбрали для вас пару популярных:

  • Google Translate. Служба ежедневно переводит около 100 миллиардов слов, что делает ее широко используемым инструментом перевода. Весь процесс перевода исходного текста занимает всего несколько секунд. Сервис бесплатный, его применяют для перевода чего угодно, и он распознает все языки, на которых говорят на планете.
  • Deepl. DeepL известен как один из самых точных инструментов. Он основан на искусственных нейронных сетях. Помимо браузерной версии, есть компьютерная, мобильная версии. В бесплатной версии вы можете работать с файлами docx, pdf и pptx. Он также может выполнять перевод речи на иностранном языке и изображений с камеры.

Преимущества заказа услуги в нашей компании

Наличие переводчиков любых языков и квалификаций
Широкий спектр оказания услуг
Быстрое и правильное оформление любого документа
Возможность сотрудничества на условиях постоплаты
Работа на удаленной основе
Строгая конфиденциальность и соблюдение сроков
На связи 24/7
Делаем невозможное возможным

Нам доверяют

Другие наши услуги

Есть предложения?
Мы ценим каждое обращение и реагируем на каждое письмо
Нажимая на кнопку «Отправить сообщение» вы соглашаетесь с Политикой обработки персональных данных.