Мы пользуемся умными фитнес-браслетами и голосовыми ассистентами, но часто не знаем, сколько времени и сил ушло на то, чтобы Siri понимала нашу речь.
Как развивались разработки, ставшие привычными, — рассказываем с онлайн-школой robot_dreams, которая учит навыкам будущего: дата-аналитике, data science и программированию.
#1. Языковая модель, которая понимает и пишет тексты
Первой предшественницей языковой модели GPT-3 считается ELIZA, которую разработали в 1966 году в Массачусетском технологическом институте. Она стала чат-ботом почти за 30 лет до появления этого термина.
ELIZA выдавала себя за психотерапевта. Она распознавала ключевые слова и фразы из реплик собеседника, а затем конструировала ответы из предварительно запрограммированных формулировок.
ELIZA могла задавать открытые вопросы. Например, если человек говорил об отце, модель просила его рассказать об отношениях с родителем подробнее. Сейчас Элизу быстро бы раскусили, но 55 лет назад это был прорыв, хотя она и не справилась с тестом Тьюринга.
Первым его прошел виртуальный собеседник Женя Густман (Eugene Goostman) только в 2012 году. Он выдавал себя за 13-летнего украинского мальчика. Женя делал ошибки, показывал уровень знаний, характерный для этого возраста, и убедил 29% судей конкурса AI Loebner в том, что с ними общается человек. Разработкой Густмана 9 лет занимались ученые из Украины и россии.
Осенью 2020 года пользователь онлайн-сервиса Reddit заметил, что некто с ником thegentlemetre очень быстро отвечает на вопросы. Оказалось, что за псевдонимом скрывался бот на основе GPT-3. Ему удалось на протяжении недели (!) выдавать себя за человека.
GPT-3 — это третья версия языковой модели от проекта Open AI. Ее название — аббревиатура от Generative Pre-trained Transformer 3. То есть она создает тексты с помощью предобученных алгоритмов. Это значит, что алгоритмы получили 540 Гб данных (более 220 млн страниц текста, включая всю англоязычную Википедию), и с их помощью научились генерировать естественный человеческий язык.
Модель понимает, как связаны слова в предложении и почему они следуют в определенном порядке. Она может писать эссе, стихотворения, посты и даже код. Более того, модель способна объяснить, что делает код, написанный человеком:
Reading code is hard! Don't you wish you could just ask the code what it does? To describe its functions, its types.
— Amjad Masad ⠕ (@amasad) July 22, 2020
And maybe... how can it be improved?
Introducing: @Replit code oracle 🧙♀️
It's crazy, just got access to @OpenAI API and I already have a working product! pic.twitter.com/HX4MyH9yjm
У GTP-3 все еще есть проблемы, которые мешают ее текстам стать неотличимыми от человеческих. Но технологии развиваются быстро — возможно, совсем скоро GPT-3 будет создавать компьютерные программы или писать книги.
Подробнее о модели можно прочитать здесь.
#2. Распознавание лиц
Эта технология обнаруживает лицо на фотографии или видео, анализирует, а затем подтверждает личность. Face recognition помогает находить преступников, пропавших детей и даже тех, кто не носит маску во время пандемии. Она узнает вас на фото в Facebook и позволяет быстрее расплачиваться в магазинах.
Работу технологии можно разбить на три этапа:
- обнаружение лица на изображении (как делает камера вашего смартфона)
- атрибуция (измерение расстояния между глазами, между носом и ртом, определение формы подбородка и создание цифрового «отпечатка» лица)
- распознавание конкретного человека на изображении
Первые попытки распознавания лиц американские ученые предприняли еще в начале 1960-х, но успеха не достигли. Возглавлял исследование специалист в области искусственного интеллекта Вудро Вильсон Бледсо. Разработкой заинтересовалось ЦРУ — уже тогда стало понятно, что технология перспективна для слежки.
В конце 1960-х Бледсо вместе с коллегой, инженером-исследователем Питером Хартом из Стэнфордского университета, использовали 800 изображений — по две фотографии 400 европеоидных мужчин разного возраста и с различным положением головы на снимках.
Ученые создали 46 координат для каждой фотографии, включая 7 точек на носу, по 5 на ухе, и по 4 на брови. Они использовали математическое уравнение, чтобы развернуть головы, а также стандартизировали размеры снимков, уменьшая или увеличивая их.
Компьютер должен был запомнить одну фотографию лица и применить это знание для распознавания человека на втором снимке.
Исследователи использовали два пути распознавания:
- предположение на основе 22 измерений
- разделение лица на черты (левый глаз, правая бровь, левое ухо) и сравнение расстояний между ними
В обоих случаях программы справились с задачей быстрее, чем люди. Человеку на соотнесение черт 100 лиц требовалось 6 часов, а компьютеру CDC 3800 — 3 минуты.
Дальнейшего прогресса технология добилась только в конце 80-х, когда исследователи использовали линейную алгебру. Развивались проекты, которые повышали точность распознавания лица и закладывали фундамент для современных алгоритмов.
В 2001 году технологию использовали на Супербоуле. Система фотографировала лица фанатов, входящих на стадион, и сопоставляла изображения с полицейской базой правонарушителей. Это был первый публичный кейс, и уже тогда он вызвал споры по поводу этичности. Позже распознавание лиц помогло найти террориста Усаму бен Ладена.
Сейчас технологию используют, например, службы безопасности аэропортов (для поиска преступников), айфоны с функцией FaceID (для разблокировки), Google Фото (для сортировки снимков и отметки людей). Японские разработчики уже научили технологию распознавать лица в масках. Она одновременно и повышает безопасность, и угрожает нежелательным раскрытием личности.
#3. Распознавание речи
Первым достижениям в этой области уже почти 70 лет. В 1952 году исследовательская лаборатория Bell Labs создала Audrey (Одри) — машину, которая могла распознавать числа (от 0 до 9), произносимые мужским голосом.
В 1962 в IBM показали «коробку для обуви» — компьютер Shoebox. Он понимал 16 слов на английском, включая цифры от 0 до 9, а также команды «плюс» и «минус». Человек говорил в микрофон, который трансформировал звуки голоса в электрические импульсы. Затем импульсы классифицировались по типам звуков и машина «узнавала» слово.
В 1970-е Audrey научилась распознавать несколько голосов, а ученые из центра Carnegie Mellon создали HARPY, которая понимала уже 1 тыс. слов, что сравнимо со словарным запасом трехлетнего ребенка.
Еще через десяток лет у технологии случился прорыв. Ученые применили статистический метод — скрытую модель Маркова. Они больше не пытались подобрать букву к каждому звуку, а затем сложить их вместе. Суть метода в том, что программа выбирает наиболее похожее по звучанию слово из доступного словаря. Это позволило повысить точность — машины стали распознавать не сотни, а тысячи слов.
На рынок технология вышла в 1990-х вместе с программой Dragon Dictate. По заявлению создателей, в ее лексическом запасе было 80 тыс. слов. Но скорость распознавания речи была низкой — людям приходилось говорить в 3–4 раза медленнее обычного, чтобы Dragon их понял. В нулевых Google запустил голосовой поиск, который работал лучше, чем Dragon.
Следующий прорыв совершила Siri. Ее первый прототип появился почти 30 лет назад (!), в 1993 году. Создатель Siri Адам Шейер разработал около 50 версий программы, но не знал, как найти ей реальное применение и монетизировать. Ситуацию спас запуск iPhone. К февралю 2010 года команда Шейера разработала мобильное приложение Siri и загрузила его в AppStore.
Вскоре в офис Siri позвонил сам Джобс. На встрече с создателями он сразу заявил, что хочет купить компанию. Осенью 2011, незадолго до смерти Джобса, на рынок вышел первый iPhone с поддержкой Siri. Alexa и другие голосовые ассистенты попали к потребителям позднее.
#4. Носимые medtech-гаджеты
Еще в 1938 году чикагская компания Aurex разработала слуховой аппарат. Его создание считается первым шагом в направлении носимых медицинских устройств.
В нулевых на рынке появились диджитал-приборы, которые измеряли пульс пользователя и давали врачам доступ к этой информации.
В 2012 году американская компания Proteus Digital Health разработала «умную» таблетку — съедобный сенсор, который получил одобрение FDA (Управление по санитарному надзору за качеством пищевых продуктов и медикаментов В США). По задумке создателей, сенсор передавал информацию пластырю с датчиком на теле пациента, а датчик — программе на смартфоне или десктопе. Так можно было отслеживать, например, прием лекарств по графику и эффективность лечения. Но несмотря на миллионные инвестиции, компания не нашла отклика на рынке и в 2020 году стала банкротом.
В 2018 Apple выпустили Apple Watch с мониторингом сердечного ритма и функцией ЭКГ. Но разработка вызвала беспокойство врачей из-за риска ложного срабатывания. Например, низкая частота сокращений может свидетельствовать о проблемах с сердцем, но нередко является вариантом нормы (особенно для профессиональных спортсменов).
Сейчас на рынке есть не только браслеты, измеряющие пульс, и устройства для ЭКГ. Но еще и носки для новорожденных, которые позволяют мониторить показатели ребенка, а также инсулиновые помпы для больных диабетом. Все устройства можно разделить на четыре типа:
- умные фитнес-браслеты
- умные часы, отслеживающие изменения сердцебиения
- приборы для кардиомониторинга и измерения давления, которые крепятся на тело (холтеры)
- биосенсоры
Согласно исследованиям Insider Intelligence, только в США количество пользователей приложений для здоровья и фитнеса к 2022 году составит около 84 млн.
О том, как носимые устройства работают с данными, можно прочесть здесь. А тут — о продуктах украинского medtech-стартапа Mawi.


Хотите получать дайджест статей?

