Друзья, поздравляем вас с наступающими праздниками! Спасибо, что были с нами, читали наш блог, следили за авторскими колонками и новостями.
В последние дни 2020-ого хотим подвести итог — рассказать, что интересного произошло в отрасли и чем нам запомнится этот год. Своими впечатлениями делятся три команды — продуктовая, RnD и команда разработки.
2020 год запомнится тем, как неожиданно быстро вырос интерес на интеллектуализацию даже у консервативной части ИТ-мира. Общаясь с крупными компаниями и интеграторами, я заметила, что их отношение к технологиям data science изменилось — если раньше их запросы касались больше области автоматизации, то теперь появился спрос на интеллектуализацию текущих ИТ-систем, а именно — практическое решение таких задач, как анализ текстов в договорах, интеллектуализация корпоративных СЭД и т.д.
Здорово, что функциональные заказчики все чаще вникают в процессы и участвуют в создании решений совместно с разработчиком — интересуются, какие существуют технологии, как подготовить данные и оценить их. Такая совместная проработка позволяет получить наилучший результат.
Открытием этого года стало то, что удаленно можно полноценно работать не только разработчикам и дизайнерам, но и проджектам и продактам — в том числе генерировать новые идеи вместе с командой и партнерами, проводить мозговые штурмы онлайн и даже придумывать и запускать новые продукты.
Например, за этот год мы сделали 2 бесплатных онлайн-сервиса:
● Compare – сравнивает 2 версии документа и показывает отличия между ними. За несколько месяцев сервисом воспользовались более 7,5 тысяч человек.
● Contract – проверяет договора на риски, выявляя в тексте документа условия об ответственности, на которые желательно обратить внимание перед заключением договора. Сейчас идет тестирование сервиса среди экспертного сообщества, и скоро он станет доступен всем.
Это был первый год работы нашей команды как продуктовой — мы упаковывали технологии в продукты, формировали гипотезы, проводили cusdev. Ранее мы занимались в основном заказной разработкой, и пришлось учиться — проходить профильные курсы и много читать.
Отмечу несколько книг и курсов, которые будут полезны и тем, кто создаёт ИТ-решения, и тем, кто их внедряет:
● Go practice — симулятор работы в продуктовой компании, где учат развивать продукты, используя метрики и аналитику
● видеокурс Яндекса по управлению продуктом и проектами
● книга Inspired Марти Кагана — находка для тех, кто развивает B2B-решения
● книга Спринт от группы авторов из Google про тестирование гипотез. Эта книга вдохновила нас провести бизнес-ужин с экспертами отрасли, где мы всего за пару часов нашли более 5 новых применений нашим технологиям.
Этот год еще раз доказал насколько правильное использование машинного обучения в сердце продукта может повлиять на его успех. Нельзя не вспомнить тикток, который в этом году рос стремительнее, чем любая соцсеть, сильно нашумел и задал тренд для других компаний (а еще завлек меня в свои лапы). А ведь ничего бы не было без крутой рекомендательной системы, которая чутко учитывает интересы пользователя и выдает идеальный дофаминовый коктейль.
В этом году хайп вокруг больших языковых моделей (large language models), таких как BERT и GPT-2/3, повлек за собой бурное обсуждение того, могут ли языковые модели «действительно понимать» язык.
Мысленный эксперимент с осьминогом, Витгенштейн и краткая инструкция по защите от медведя палками – если интересно, к чему это все, советую почитать саму статью. Так же как и этот пост, автор которого провел ее критический разбор и утверждает, что в действительности у нас пока нет оснований отвергать идею о том, что модели понимают язык, а кроме того, мы и сами на самом деле не знаем, что такое «действительно понимать».
Этот год нашей команде запомнится развитием культуры разработки и реализацией смелых технологий, одной из самых запоминающихся стал «Македонский».
«Македонский» — универсальный способ проекции разнородных векторных представлений в единое пространство. В 2021 году это позволит нам получать не только качественные мультиязычные вектора для слов и целых текстов, но и мультимодальные представления, обогащенные метаданными, основываясь лишь на небольшом количестве связей.
Со времени появления Трансформера (ключевой state-of-the-art нейросетевой архитектуры для задач NLP), стоит вопрос оптимизации данной архитектуры с точки зрения вычислительных ресурсов. Из-за его прожорливости довольно проблематично использовать небольшим лабораториям и компаниям для обучения больших моделей, таких как BERT. Так же пока Трансформер не особо применим к длинным последовательностям.
В этом году вышла очень интересная статья «Reformer: The Efficient Transformer», которая предлагает довольно любопытную технику по оптимизации механизма attention'а в трансформере. Предложенный Locality-Sensitive Hashing Attention — оригинальный и очень элегантный способ снизить вычислительные затраты с O(N^2) до O(NlogN), что играет существенную роль на больших коллекциях длинных документов. Подобные идеи вдохновляют другие R'n'D команды на изобретения своих attention для трансформеров под свои задачи.
Мы с фронтендерами организовали еженедельные встречи-созвоны, чтобы каждый мог поделиться интересными задачами, кейсами, проблемами, рассказать как их решал и обменяться опытом. Так как разработчики задействованы в разных проектах, такие созвоны помогают узнавать, что происходит в других рабочих командах и какие технологии они используют. И, конечно, это полезно для новичков — обсуждения помогают им лучше разобраться в технологиях, которые мы используем, и попросить совета у старших коллег.
В этом году я открыл для себя книгу «Несовершенная случайность. Как случай управляет нашей жизнью» Леонарда Млодинова. С помощью базовых методов статистики и теории вероятности книга научит распознавать «псевдо-последовательности» — последовательности, которые только кажутся нам реальными.
Книга не имеет прямого отношения к ИТ, но будет полезна многим и поможет сэкономить ваши силы и время.
В ближайшее время наш менеджер свяжется с Вами.