Искусственный интеллект на андроид: Искусственный интеллект под Android с открытым API / i-Free Group corporate blog / Habr – 5 лучших приложений искусственного интеллекта для вашего телефона Android
5 лучших приложений искусственного интеллекта для вашего телефона Android
В последнее время Samsung предоставляет услуги голосовой связи на основе искусственного интеллекта, которые его клиенты могут использовать во всех устройствах и продуктах Samsung, от смартфонов до телевизоров до стиральных машин.
Samsung является ведущим мировым производителем смартфонов на базе бесплатного программного обеспечения для Android от Google. Одним из основных флагманских устройств Samsung в этом году стал смартфон Galaxy S8, который оснастили искусственным интеллектом (ИИ). Об этом представители компании и приобретенного ею стартапа Viv объявили на пресс-конференции в Сеуле.
В этом обзоре мы рассмотрим некоторые приложения для телефонов Android, которые представляют собой искусственный интеллект (ИИ).
[banner_block-native] {banner_block-native} [/banner_block-native]
Использование искусственного интеллекта растет. Искусственный интеллект может сделать нашу жизнь лучше и легче. Вот список лучших приложений для искусственного интеллекта
Мы все знаем, что использование искусственного интеллекта растет. ИИ может сделать нашу жизнь лучше и легче. В настоящее время традиционное использование ИИ покоится в голографических интеллектуальных приложениях, которые пытаются действовать в качестве помощника на мобильных телефонах.
Виртуальный помощник может выполнять несколько задач, которые могут сэкономить ваше драгоценное время, например, получить котировки, отправка сообщений, составления расписания, написания электронной почты и т. д. Здесь мы собираемся поделиться списком лучших AI-приложений, которые вы можете использовать на своем смартфоне Android.
Robin – голосовой помощник с ИИ
Робин — ваш голосовой помощник на дороге, прочитает вам текстовые сообщения, местную информацию, навигацию по GPS и даже шутки. Кроме того, у нее больше индивидуальности, чем у других продуктов для обработки голоса, помощников, чатов или ботов. Робин дает вашему смартфону более умный характер.
Google Allo
Google Allo — это приложение для смарт-сообщений, которое помогает вам больше говорить и делать больше. Лучшая часть этого приложения — это легко поможет вам в решении ваших задач. Это приложение не только отвечает на ваши запросы, оно может даже шутить.
Cortana – голосовой ассистент с ИИ
[banner_block-native] {banner_block-native} [/banner_block-native]
Cortana — известное приложение среди всех пользователей Windows. Приложение, которое ранее было доступно на Windows Phone, теперь доступно на Android. Вы можете использовать Cortana для отправки электронных писем, поиска нужных продуктов в Интернете.
HOUND — голосовой поиск и помощник
Hound — лучший способ поиска по вашему голосу. Самый быстрый и простой способ получить информацию, развлечения и услуги связи, которые вы хотите, Hound построен для вашей занятой жизни, позволяя вам получить то, что вам нужно, и двигаться дальше. Это приложение похоже на голосовой поиск Google.
Recent News
Recent — это приложение для смарт-новостей, которое предоставляет ваши новости. Оно основано на искусственном интеллекте, который изучает ваши интересы, предлагает соответствующие статьи и предлагает темы, которые вы, возможно, захотите прочитать. Это быстрый и лучший способ оставаться в курсе тем, которые вы любите.
Как мы уже говорили, искусственный интеллект — это умный и эффективный способ сэкономить ваше драгоценное время и поможет вам быть продуктивным на всем пути. Эти приложения помогут вам изучить потенциал искусственного интеллекта.
Так что ты думаешь об этом? Поделитесь своими взглядами в поле комментариев ниже.
[banner_similar-block] {banner_similar-block} [/banner_similar-block]
Искусственный интеллект в Android 8 или как Google оптимизирует работу смартфонов
Гигант поисковой системы, компания Google 5 декабря 2017 года начала распространять обновления ОС Android 8.1 Oreo. Пока что операционка, названная в честь печенья, доступна только на фирменных смартфонах и планшетах семейства Pixel, а также на Nexus 6P и Nexus 5X. Дальнейшее распространение будет зависеть от руководителей компаний, смартфоны которых также работают на этой ОС. Но главная фишка – внедрение искусственного интеллекта. В этом направлении сейчас двигаются многие гиганты в мире электроники. Давайте разберемся, что нового представит Android пользователям, и как ИИ проникает в нашу жизнь через технику.
Новый Android – хорошо или плохо?
Итак, изменения в операционной системе 8-го поколения по стандарту направлены на реорганизацию рабочего стола, упрощение интерфейса и улучшений технической части. Если коротко описать, в Android Oreo будут:
Новая функция Notification Dots, с помощью которой можно прочитать сообщение, не запуская приложение. Для этого достаточно зажать иконку, и откроется мыльный пузырь с содержанием письма.
Разделение экрана. Эта функция «картинка в картинке» позволит свернуть видеопроигрыватель в маленькое окошко в углу экрана. Нововведение доступно для плееров, поддерживающих эту функцию.
Упрощение меню и переработанные иконки.
Ограничение фоновой активности приложений, за счет чего аккумулятор сохраняется дольше.
Включение в работу разработанного Google процессора Pixel Visual Core.
Но самое существенное нововведение – Neural Networks API, который запускает вычислительные процессы и ускоряет обучение. По сути, это попытка Google внедрить искусственный интеллект в смартфоны. Эта технология значительно ускоряет работу процессора, рассчитывает возможные варианты оптимизации работы. Также обновления касаются графического процессора, который способен в короткие сроки обрабатывать цвета. С внедрением ИИ улучшится работа распознавания речи. Это значительный шаг, который сделает работу смартфонов еще лучше.
Разработки от Xiaomi и Huawei
По праву можно сказать, что Apple стал первой компанией, которая успешно внедрила ИИ в свои смартфоны, вспомним ту же Siri. И сейчас программисты не останавливаются на достигнутом, улучшая работу процессора и стараясь сделать телефоны самыми «умными».
Руководитель компании Xiaomi заявил, что разработки ИИ станут их приоритетной задачей на ближайшее десятилетие. Свои наработки они внедрят в следующем году во флагманскую серию смартфонов Mi 7, работающую на чипсете Snapdragon 845. Первый продукт от Xiaomi с «зачатками» искусственного интеллекта – умная колонка Mi AI Speaker, которая распознает голос.
Пока Xiaomi только начинает двигаться в направлении ИИ, бренд Huawei выпустили процессор Kirin 970, направив его действие преимущественно на графический процессор. Его внедрили в линейку Mate 10 и 10 Pro. Телефон мог похвастаться такими особенностями:
Быстрый процессор, распознающий привычки пользователя. Оптимизация работы также касается ограничения работы фоновых процессов.
Портретное селфи с размытым фоном и автоматическое определение нужного режима для съемки.
Ускоренный переводчик, который переводит на 50 языков несколько абзацев текста за пару секунд. Для этого нужно лишь навести камеру на текст.
Умный расход аккумулятора.
Если уж назвали телефон «смартфоном», нужно делать его действительно мощным и умным, поэтому разработки в сфере искусственного интеллекта были делом времени. Хотите опробовать версию Android 8.0 с применением ИИ? Тогда следите за обновлениями на сайте Comfy.ua, чтобы первыми купить смартфон от Google.
Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.
имитация интеллекта, обман и реальные достижения / Mail.ru Group corporate blog / Habr
С каких пор программы научились выдавать себя за людей? Каким образом понять, искусная ли перед нами обманка или по-настоящему сильный ИИ? Когда программа справится с машинным переводом или напишет свой первый роман? Сергей oulenspiegel Марков, автор материала «Играть на уровне бога: как ИИ научился побеждать человека», возвращается к теме умных машин в нашей новой нейронной статье.
В конце 30-х годов прошлого века, когда еще не были созданы первые электронные вычислительные машины, вопросами «разумности» машин стали задаваться специалисты по computer science. Если нечто выглядит как кошка, мяукает как кошка, ведет себя как кошка, в любом эксперименте проявляет себя как кошка, то, наверное, это кошка. Эту идею сформулировал Альфред Айер — английский философ-неопозитивист, представитель аналитической философии.
Всеми нами любимый Алан Тьюринг был более социализирован, чем Айер. Тьюринг любил ходить на вечеринки, а в то время среди интеллектуальной публики была распространена интересная забава — «Игра в имитацию». Заключалась игра в том, что девушку и парня запирали в две разные комнаты, оставляя под дверью широкую щель, в которую участники игры могли просовывать записки с вопросами. Человек, который находился в комнате, писал на вопросы какие-то ответы. Задачей игры было угадать, в какой комнате находится парень, а в какой — девушка. Тьюринг предположил следующее: «А давайте мы будем похожую процедуру использовать для того, чтобы понять, создали ли мы тот самый универсальный ИИ».
Первая программа, которая могла общаться с человеком путем определенной переписки — это ELIZA, созданная в 1966 году. Программа пыталась выдать себя в эксперименте не просто за человека, а за психиатра. Ее стиль общения носит пародийный характер. То есть она говорит на специфическом психиатрическом жаргоне, задает соответствующие типовые вопросы. В принципе, эта программа представляет собой большой набор правил, по которому она находила определенные паттерны в речи человека. В ответ на наличие соответствующего паттерна входной информации, ELIZA определенным образом трансформировала его и выдавала информацию на выход.
Программа могла в некоторых ситуациях людей одурачить. Был проведен эксперимент «AOLiza», когда программа общалась через сеть America Online со случайно выбранными пользователями, и многие из них не догадывались, что в данном случае с ними общалась машина. Понятно, что этот эксперимент нельзя считать хоть каким-то серьезным приближением к прохождению теста Тьюринга.
Cамо название программы ELIZA произошло от имени героини Бернарда Шоу из пьесы «Пигмалион», повествующей о том, как лондонский профессор фонетики Генри Хиггинс пытается из девушки, представительницы общественных низов, сделать настоящую леди, обучая ее правилам поведения и языку высшего общества.
Интересно, что вторая программа такого рода (чат-бот), созданная в 1972 году Кеннетом Колбаем из Стэнфордского университета, была в своем роде шуточной дискуссией с авторами программы ELIZA. Она называлась PARRY. Если ELIZA пыталась выдать себя за врача, то программа PARRY пыталась выдать себя за пациента. PARRY считала себя параноидальным шизофреником.
Интересно, что программа хорошо обманывала профессиональных психиатров. В экспериментах оказалось, что 48% психиатров не в состоянии понять, имеют ли они дело с человеком или с программой. Но здесь, опять же, никакой чистоты эксперимента не было. Если у человека существуют определенные дисфункции, то его поведение может в некоторых ситуациях быть достаточно автоматическим.
Интересная разработка тех времен, которая произвела очень большое впечатление – это программа SHRDLU. Название SHRDLU образовано от ETAOIN SHRDLU — так расположены алфавитные клавиши на линотипах (в соответствии с убыванием частоты появления букв в английском языке). Как, к примеру, сейчас ЙЦУКЕН и ФЫВАПРОЛДЖ.
У SHRDLU был небольшой мир, в котором было представлено ограниченное количество объектов. Это были пирамидки, различные кубики, коробка. И SHRDLU умела общаться на естественном языке с человеком, обсуждая то, что происходит в этом мире, и умела выполнять команды, которые отдавал на естественном языке человек. При этом лексика никак не была ограничена, то есть человек говорить что угодно, а программа могла достаточно свободно отвечать. Вот пример работы SHRDLU:
Человек: Что лежит в коробке?
Компьютер: Синяя пирамидка и синий блок.
Человек: На чем лежит пирамидка?
Компьютер: На коробке.
Человек: Как много блоков находится не в коробке?
Компьютер: Четыре.
Человек: Хотя бы один из них более тонкий, чем тот, про который я тебе говорил? На чем-то он стоит?
Компьютер: Да, стоит на столе.
Человек: Может ли стол собирать блоки?
Компьютер: Нет.
Человек: Может ли пирамидка стоять на блоке?
Компьютер: Да.
Человек: Может ли пирамидка стоять на пирамидке?
Компьютер: Не знаю.
Человек: Хорошо. Поставь пирамидку одну на другую.
Компьютер: Не получается.
Человек: Поставь, пожалуйста, два красных блока друг на друга. Либо зеленый куб, либо пирамидку. Сможешь?» И SHRDLU берет эти блоки, начинает ими оперировать.
Даже сейчас такого рода демонстрация выглядит впечатляющей. Интересно, что исходники SHRDLU можно скачать, программа написана на LISP, есть даже какой-то современный визуализатор под Windows. Если вы откроете ее исходники, то вы увидите, что программа состоит из огромного количества хитроумных правил.
Когда читаешь эти правила, то понимаешь, насколько изощренная логика заложена в программу. Терри Виноград, по всей видимости, проводил много экспериментов, давая возможность разным людям общаться с этой системой. Мирок SHRDLU очень маленький: он может быть описан примерно 50 разными словами. И в рамках такого маленького пространства можно создать впечатление интеллектуального поведения у системы.
Однажды Тьюринга приперли к стене и прямо спросили: «Когда программы пройдут тесты?». Тьюринг предположил, что в 2000 году появятся машины, использующие 109 бит памяти, способные обманывать человека в 30% случаев.
Интересно проверить, сбылся ли прогноз Тьюринга в 2016 году. Программа «Eugene Goostman» изображает из себя мальчика из Одессы. В первом тесте, состоявшемся в 2012 году, программа смогла обмануть судей в 20,2% случаев. В 2014 году в тесте эта же программа, уже модернизированная, в тестах, организованных Университетом Рединга, смогла обмануть судей в 33% случаев. Грубо говоря, с ошибкой плюс-минус 10 лет Тьюринг примерно попал в прогноз.
Потом появилась программа «Соня Гусева», и она в 2015 году смогла обмануть судей в 47% случаев. Стоит отметить, что процедура тестирования предполагает ограничение времени общения экспертов с программой (обычно около 5 минут), и в свете данного ограничения результаты уже не выглядят столь однозначными. Однако для решения многих практических задач, скажем, в области автоматизации SMM, этого более чем достаточно. Отличить продвинутого рекламного бота от человека на практике, скорее всего, не сможет большинство пользователей социальных сетей.
Наверное, самым известным и серьезным возражением на эти успехи является ответ философа Джона Сёрля, который предложил умственный эксперимент, названный «Китайская комната». Представим себе, что есть закрытая комната, в ней сидит человек. Мы знаем, что человек не понимает китайского языка, не сможет прочитать то, что написано китайскими иероглифами на бумаге. Но у нашего подопытного есть книга с правилами, в которой записано следующее: «Если у тебя на входе такие-то иероглифы, то ты должен взять вот такие иероглифы, и составить их в таком порядке». Он открывает эту книгу, она написана на английском, смотрит, что ему подали на вход, а дальше в соответствии с этими правилами формирует ответ, и скидывает его на выход. В определенной ситуации может показаться, что внутри комнаты находится человек, на самом деле понимающай китайский язык. Но ведь индивид внутри комнаты не знает китайского языка по постановке задачи. Получается, что когда эксперимент поставлен по канонам Тьюринга, он, на самом деле, не свидетельствует о том, что внутри сидит некто, понимающий китайский язык. Вокруг этого аргумента развернулась большая полемика. На него есть типовые возражения. Например, аргумент, что если сам Джон не понимает китайский язык, то вся система в целом, составленная из Джона и набора правил, уже обладает этим самым пониманием. До сих пор пишутся статьи в научной прессе на эту тему. Однако бо́льшая часть специалистов по computer science считают, что эксперимент Тьюринга достаточен для того, чтобы сделать определенные выводы.
От машин, которые лишь притворяются ИИ, перейдем к программам, реально превосходящим возможности человека. Одна из задач, напрямую связанная с созданием ИИ — это задача автоматизированного перевода. В принципе, автоматизированный перевод появился задолго до появления первых электронных машин. Уже в 1920-е годы были построены первые механические машины, основанные на фототехнике и причудливой электромеханике, которые были предназначены для ускорения поиска слов в словарях.
Мысль использовать ЭВМ для перевода была высказана в 1946 году, сразу после появления первых подобных машин. Первая публичная демонстрация машинного перевода (так называемый Джорджтаунский эксперимент) состоялась в 1954 году. Первый серьезный заход с серьезными деньгами под решение этой задачи был осуществлен в начале 1960-х годов, когда в США были созданы системы, предназначенные для перевода с русского языка на английский. Это были программы MARK и GAT. И в 1966 году был опубликован интересный документ, посвященный оценке существующих технологий машинного перевода и перспектив. Содержание этого документа можно свести к следующему: всё очень-очень-очень плохо. Но, тем не менее, бросать не надо, надо продолжать гранит грызть.
В Советском Союзе тоже были такие исследования, например группа «Статистика речи», возглавляемая Раймундом Пиотровским. Сотрудниками его лаборатории была основана известная фирма ПРОМТ, разработавшая первую отечественную коммерческую программу машинного перевода, базирующуюся в том числе на идеях Пиотровского. Еще где-то к 1989 году была выведена оценка, что система автоматизированного перевода позволяет примерно в 8 раз ускорить работу переводчика. Сейчас эти показатели, наверное, еще немножко улучшились. Конечно, сравниться с переводчиком ни одна система не может, но многократно ускорить его работу в состоянии. И с каждым годом показатель влияния на работу переводчиков растет.
Самой важной вехой, случившейся за последние десятилетия, стал приход на сцену систем, делающих упор на чисто статистические методы. Еще в 1960—1970 годы было понятно, что подходы, основанные на составлении ручных семантических карт языка и синтаксических структур, по всей видимости, ведут в тупик, поскольку масштаб работы невероятно велик. Как считалось, невозможно в принципе поспеть за изменяющимся живым языком.
Сорок лет назад лингвисты имели дело с достаточно маленькими языковыми корпусами. Лингвисты могли либо вручную обрабатывать данные — взять и посчитать количество таких-то слов в «Войне и мире», составить частотные таблицы, проделать первичный статистический анализ, но трудозатраты на выполнение таких операций были колоссальны. И здесь ситуация кардинально изменилась ровно тогда, когда появился Интернет, потому что вместе с Интернетом появилось огромное количество корпусов на естественных языках. Возник вопрос, как бы так сделать систему, которая в идеале не будет знать про язык ничего или почти ничего, но при этом будет на вход получать гигантские корпуса? Анализируя эти корпуса, система автоматически будет достаточно хорошо переводить тексты с одного языка на другой. Этот подход реализован, например, в Google Translate, то есть это система, за работой которой стоит очень мало работы лингвистов. Пока что качество перевода у систем предыдущего поколения — LEC, Babylon, PROMT — выше, чем у Google Translate.
Здесь проблема упирается в то, какой нам нужен препроцессинг для естественного языка, чтобы результаты можно было бы загнать в хорошие предиктивные модели типа сверточных нейронных сетей, и на выходе получить то, что нам нужно. Как препроцессинг должен быть построен, какие специфические знания о естественном языке должны в нем быть, чтобы решить дальнейшую задачу обучения системы?
Вспомним историю «сосиски в тесте» (sausage in the father-in-law). То есть существует сосиска в тесте, но «в тесте» означает не тесто, а тестя. ИИ должен понимать целый ряд человеческих культурных особенностей. Он должен понимать, что, скорее всего, в этом контексте предполагается практика обволакивания тестом при приготовлении сосисок, а не практика помещения сосисок в тестя. Это не значит, что вторая практика не существует. Может быть, в каком-то контексте адекватным переводом будет как раз вставить сосиску в тестя. И здесь только пониманием этих самых cultural references, которые присутствуют в естественном языке на каждом шаге, можно добиться успешного перевода. Либо, может быть, это какая-то статистика, связанная с тем, что на основе статистического анализа корпусов мы просто видим, что в текстах такой тематики чаще всего используется перевод про «сосиску, помещенную в тесто».
Другой пример связан с котом, который родил трех котят: двух белых, одного афроамериканца. Опять же, какой огромный культурный пласт выплывает здесь под переводом. На самом деле, то, что сюда попал афроамериканец — это некий заход в сторону понимания культурных особенностей современного общества. Пока эти проблемы решаются разными костылями типа задания тематики текста. То есть мы можем сказать, что переводим текст по алгебре. И тогда программа должна понимать, что «Lie algebra» — это «Алгебра Ли», а не «алгебра Лжи». Так или иначе, это может работать, но в универсальном плане нам пока очень далеко до системы, которая будет действительно сравнима по качеству с человеком-переводчиком.
В последние годы в сферу машинного перевода активно приходят нейросетевые технологии. Специфическая топология рекуррентных нейронных сетей — так называемая долгосрочно-краковременная архитектура (LSTM — Long short-term memory), применяемая для анализа высказываний, оказалась хорошо применимой для решения задач перевода. Современные тесты показывают, что применение LSTM-сетей позволяет с небольшими трудозатратами достичь качества перевода сопоставимого с уровнем качества конвенциональных технологий.
Еще одна забавная задачка — это сочинение стихов. Если посмотреть на чисто техническую сторону вопроса, как зарифмовать слова и положить их в определенный стихотворный размер, то эта задача была очень простой еще в 1970-е годы, когда Пиотровский начинал ею заниматься. У нас есть словарь слов с ударениями, есть ритмические карты стихотворных размеров — взяли и положили слова в этот размер. Но тут хотелось бы писать что-то осмысленное. В качестве первой мушки-дрозофилы была взята поэзия скальдов, поскольку в ней существует очень простой и четко формулируемый канон.
Гудрун из мести
Гор деве вместе
Хар был умелый
Хамдир был смелый
Сынов убила.
С Ньердом не мило.
Конесмиритель.
Копьегубитель.
— Торд сын Сьярека, перевод С.В. Петрова
Стихотворение скальдов состоит из так называемых кеннингов, и каждый кеннинг — это просто сочетание нескольких слов, имеющее абсолютно четкую эмоционально-смысловую окраску. Все стихотворение составляется из последовательности кеннингов. Задача для программы, сочиняющей стихи, может быть сформулирована таким образом: напиши ругательное стихотворение о вороне. Соответственно, программа по этим критериям из своей библиотеки кеннингов выбирает подходящие, а затем складывает из них стихотворение. Этот эксперимент похож на эксперимент Терри Винограда с SHRDLU, потому что здесь тоже очень простое модельное пространство, и в нем примитивные подходы могут работать, помогая получать неплохие результаты.
Это машинный корчеватель. Сейчас мы объясним, зачем он тут нужен. Программа SCIgen генерирует наукоподобный бред. Вообще, она это делает на английском языке, но тут можно сделать комбо — взять программу-переводчик и наукоподобный бред с правильными словарями перевести на русский язык. Получится уже бред второго порядка.
К чему мы ведем? Есть такая проблема: обязательное требование для человека, собирающегося защищать диссертацию, иметь несколько публикаций по тематике своей диссертации в журналах из списка Высшей аттестационной комиссии (ВАК). Соответственно, вокруг этого требования развернулся определенный поточный бизнес, а именно появились журналы, принимающие что угодно к публикации. Формально в ВАКовском журнале должен быть рецензент, который должен прочитать ваш текст, и сказать «да, мы принимаем к публикации эту статью» или «нет, не принимаем». Если рецензент говорит «мы принимаем», то вам условно говорят «вы платите суму денег X, и мы вашу статью публикуем». Давно уже у ученых закралось подозрение, что не всегда присутствует человек в процессе оценки.
Известный биоинформатик Михаил Гельфанд при помощи SCIgen сгенерировал наукоподобный бред, перевел его с помощью программы на русский язык, и разослал в целый ряд ваковских изданий статью, которая называлась «Корчеватель: алгоритм типичной унификации точек доступа и избыточности». Людям, которые занимаются алгоритмами или корчевателями, более-менее понятно, что это нечто очень странное, но оказалось, что в России нашелся как минимум один ВАКовский журнал, который принял эту статью к публикации.
В 2013 году Дариус Казими запустил проект «Национальный месяц создания романов», в рамках которого программа генерировала текст. Было использовано некоторое количество чат-ботов, которые были помещены в некое условное модельное пространство, где они взаимодействовали. В 2016 году разработчики из японского университета Хакодате написали программу, которая написала роман «День, когда компьютер пишет роман». Работа вышла в финал японского литературного конкурса и обогнала 1450 других произведений, написанных людьми. Совсем недавно стартовал проект, в рамках которого программа прочтет 2865 романов на английском языке и затем попробует написать свой собственный роман. По идее, к концу 2016 года у нас будет какая-то обратная связь про этот проект. Или не будет, если всё закончится ничем.
Есть и другие задачи. Например, достаточно рутинная задача, связанная с написанием информационных текстов для коммерческого сектора. Грубо говоря, для какого-нибудь сайта компании вы пишете рассказ о том, какая это компания, чем занимается. Или вы пишете новости путем рерайта. И есть инструменты, помогающие человеку провести анализ того, что он написал (например сайт Главред.ру, осуществляющий поиск недостатков в текстах, написанных в информационном стиле).
Есть инструменты, которые сейчас активно используются писателями. Помимо анализа орфографии, синтаксиса, стилистики текста, они помогают работать над сюжетом. Писатель может расписывать, что и где происходит в сюжете, иметь карту событий в романе, хранить отношения между героями, трансформирующиеся определенным образом во времени.
А вот приложение Summly, которое позволяет любую длинную статью ужать до нескольких предложений. Summly читает за вас новости, отжимает из них воду, делает из них такое summary, содержащее максимум 400 слов, и вы читаете уже «выжимку». Это нужно тем, кто хочет читать много новостей, но не хочет читать «воду». Интересно, что эту систему разработал простой английский школьник, который затем продал её за 30 млн долларов Yahoo.
Большой сегмент научной деятельности называется Civil Science, то есть это гражданская наука, когда не ученых, а обычных людей привлекают к решению различных научных задач. В этом сегменте большой проект сделал Массачусетский технологический институт.
Жил-был мышонок Гарольд. Его, как водится у ученых, убили, мозг заморозили, нарезали тонкими микронными слоями, засунули эти срезы в сканирующий электронный микроскоп, и получили кучу сканов этих срезов. Сканов этих было так много, что всему научному коллективу, который работает над этим проектом, чтобы расшифровать структуру одной только зрительной коры мышонка, нужно было бы потратить примерно 200 лет. Поэтому ученые из Массачусетского технологического придумали следующий коварный план. Они сделали онлайн-игру, в которой раздают пользователям случайным образом эти самые срезы, и дают задание пользователям срезы по определенным правилам раскрашивать. У вас есть цветные маркеры, и вы с их помощью раскрашиваете свой срез. Если вы сделали это правильно, то вам дают много очков, а если вы сделали неправильно, то очков мало. Вы можете мериться количеством очков с другими участниками этой игры. Почти также увлекательно, как ловить покемонов, но гораздо полезнее.
Ученые из Массачусетского технологического — не простые ребята. На самом деле, у них есть нейронная сеть, в которую дальше пихают все обработанные игроками картинки, там делается свертка, нейронная сеть обучается, и дальше получается нейронная сеть, которая сама, используя срезы, восстанавливает трехмерную структуру синоптических связей.
Эти нейробиологические исследования имеют большое прикладное значение. Те самые сверточные нейронные сети, которые сейчас активно используются в обработке изображений, например в Prisma, были построены на результатах изучения зрительной коры.
Знаменитый футуролог Рэй Курцвейл раньше говорил, что универсальный искусственный интеллект будет создан в 2045 году, а сейчас он сбросил оценку до 2029 года.
В начале этого года случилась маленькая сенсация. Нейробиологи нашли вторичный контур связи между нейронами через астроциты глиальной ткани. Даже команда проекта компьютерного моделирования неокортекса человека Blue Brain заявила, что в новой модели, которую они собираются презентовать, уже включен этот контур. У них по таймлайну к 2022 году нужно показать модель мозга человека. Они считают, что мозг человека — это примерный эквивалент 1000 мозгов крыс. Возможно, в этом году нас ожидает ещё одно важное открытие в этой области — группа исследователей из Университета Калгари и Университета Алберты (Канада) предположили, что в мозге могут существовать и фотонные связи. Оптические сигналы могут распространяться через миелиновые оболочки. Соответствующее исследование опубликовано на биологическом сервере препринтов BioRXiv.
Везде, где мы используем нейронные сети, мы сталкиваемся с ограниченным числом вычислительных ядер в машине. Если бы число вычислительных ядер было примерно равно числу синапсов, мы бы достигли максимальной производительности за счет распараллеливания. Но ядер маловато. Поэтому сейчас в разных задачах, связанных с нейропроцессингом, где мы пытаемся скопировать то решение, которое предложила природа, идет поиск в направлении создания либо специализированного железа (нейроморфические процессоры), либо использования каких-то устройств, которые лучше подходят для эмуляции нейронных сетей. Например, Microsoft в прошлом году опубликовала статью, посвящённую использованию FPGA как раз для моделирования нейронной сети. Существующие нейросетевые фреймворки, например CNTK, TensorFlow, Caffe, способы использовать для нейросетевых вычислений процессоры видеокарт.
Другой известный проект TrueNorth, создаваемый IBM в рамках государственной программы DARPA SyNapse, остается пока единичным процессором для военных и стоит несколько миллионов долларов. При этом IBM создала целый институт, который разработал специальный язык программирования для этой железки. В открытом доступе результаты этой работы мы, скорее всего, увидим только через N лет. Именно поэтому про TrueNorth в научных новостях говорят, а какого-то движения в community вокруг него нет.
Альтернативным образом развивается направление прямого улучшения мозга. Например, была создана радиоуправляемая крыса. Есть истории, когда берут тележку, к ней подключают мозг крысы, и эта тележка катается по лабиринту. Более того, подобные проекты есть и с мозгом приматов. А это очень интересно, ведь обезьяны типа бонобо или шимпанзе демонстрируют уровень развития интеллекта, сопоставимый с уровнем трехлетнего ребенка.
В связи с успехами в области искусственного интеллекта, возникает вопрос: что же будет дальше, куда мы идем как вид и как технологическая цивилизация? С этим связана одна интересная история, уходящая в истоки человеческой эволюции: наш интеллект это не более чем продукт эволюционного компромисса. Неограниченное увеличение объёма мозга и его сложности невозможно. Во-первых, мозг потребляет очень много энергии, около 20% от общего потребления, хотя его собственная масса около 2% от массы тела. Кроме того, чем больше голова, тем сложнее роды у обезьян. Смертность, травмы при родах сильно возрастают с увеличением головы. Сейчас же, если мы создаем искусственную копию мозга, то мы в известной мере свободны от этих ограничений. Мы можем заведомо обеспечить такой мозг бо́льшим количеством энергии, можем построить бо́льшую нейронную сеть. Такая система по уровню своего интеллектуального развития будет обходить человека по всем направлениям. Мы уже затрагивали тему, к чему в итоге может привести развитие ИИ, но стоит коснуться еще одного варианта развития событий. Вариант на самом деле очень старый и в фантастических произведениях не раз уже появлялся.
В романе Герберта Франке «Клетка для орхидей» земляне используют систему типа «аватар» и с ее помощью исследуют далекую звездную систему. Они оказываются на планете, где находят руины древней цивилизации. На окраинах давно покинутого города они видят, грубо говоря, уровень технологий а-ля наш XX век. Дальше они продвигаются к центру, периметр города сокращается, все более высокие технологии попадаются им. Они приближаются к самому ядру города, и встречаются наконец-то с машинами, которые говорят: «Слушайте, ребята, дальше всё, нельзя пройти. Наши создатели там живут, им хорошо, вы их можете потревожить. Идите отсюда». Люди всё же как-то пробиваются, где-то уговорами, где-то силой. И что они видят? Они видят гигантские чаны, в которых плавают дальние-дальние потомки создателей этих машин, у которых к тому моменту мозг атрофировался, остались одни центры удовольствия, в которые внедрены электроды, по которым ритмически проходят электрические импульсы. Потомки некогда великой цивилизации живут в абсолютном счастье, расслабленности, гармонии с собой и с природой.
Вместо заключения коснемся темы отставания от Запада в направлении исследований ИИ. На самом деле наука сейчас носит во многом интернациональный характер. Просто наши хорошие исследователи, нейрофизиологи, специалисты по computer science публикуются в международной прессе и мало публикуются в прессе российской. Вообще говоря, зачастую публикация в российском журнале с точки зрения научной репутации зачисляется не в «плюс», а в «минус» учёному, потому что обычно это означает, что результаты работы «не дотянули» до уровня стандартов международных научных изданий. Но это не значит, что никаких интересных проектов у нас нет. Например, в России было проведено значимое исследование с reverse engineering нервной системы червя. Плюс есть комьюнити, которое абсолютно интернационально, в него входят энтузиасты, которые обсуждают алгоритмы, делают opensource-проекты. А о некоторых крупных проектах еще только предстоит рассказать. До встречи в следующем посте!
Подборка штук на основе искусственного интеллекта для личного использования (1/3) / Dato ML corporate blog / Habr
Искусственный интеллект и четвёртая промышленная революция (wiki) достигли значительного прогресса за последние несколько лет. Большинство из того, что можно использовать уже сейчас, разрабатывается для коммерческих и промышленных целей, как вы увидите в следующих постах. Научно-исследовательские институты и специализированные компании работают над достижением конечной цели создания ИИ (а именно, создание сильного искусственного интеллекта artificial general intelligence), разрабатывая открытые платформы и исследуя появившиеся этические вопросы. Существуют также несколько компаний, разрабатывающих ИИ-продукты для конечных потребителей, их мы и рассмотрим в рамках этого поста.
Создание искусственного интеллекта — это как взбираться на дерево, пытаясь добраться до Луны. Можно сообщать о стабильном прогрессе, вплоть до самой вершины дерева.
Это первая часть серии из трёх публикаций, посвященных ландшафту индустрии искусственного интеллекта, а также компаниям и исследовательским институтам, разрабатывающим продукты, которые продвигают вперёд знания о машинном интеллекте и сознании.
Разбивка серии статей на части
В течение нескольких недель я посетил тысячи веб-сайтов (более 6000+ ссылок), чтобы подготовить как можно более полный список лучших ИИ-продуктов и самых перспективных в этой области компаний.
PS. Трекпад моего Macbook почти умирает от огромного количества кликов.
Часть 1 — список ИИ-компаний и продуктов для личного использования (B2C).
Часть 2 — список ИИ-компаний для бизнеса и промышленности (B2B).
Часть 3 — расширенный список ИИ-компаний для бизнеса и промышленности (потому что их очень много!). И некоторые дополнения.
Примечание: некоторые из продуктов еще не запущены и, возможно, все еще находятся в бета-версии, хотя и являются захватывающими идеями, хорошо подкрепленными или выглядящими многообещающе. Большинство из продуктов вы можете использовать уже прямо сейчас.
Скажите ваше мнение (включая любые замечания, уточнения, добавления и удаления).
Сообщите мне, если вы думаете, что я поместил компанию в неправильную категорию, или полностью неправильно описал компанию, или описание просто нужно немного изменить. Также не стесняйтесь рассказать мне о любых компаниях, которые, по вашему мнению, необходимо добавить в список, но я пропустил — оставьте комментарий, и я добавлю их к списку.
Я выделил некоторые из моих любимых. Наслаждайтесь!
Персональные / для дома
- Ems — помогает найти идеальное место для жизни.
- Bridge Kitchen — помощник для кухни, который дает пошаговые указания.
- UnifyID — подтверждайте свою личность с помощью вашей походки и манеры печати.
Для работы
- Carly — Помогает управлять телефонными звонками.
- ETCH — Помогает управлять вашим списком контактов.
- Findo — Помощник для поиска по письмам, файлам и персональным облакам.
- Leap — Рекомендует компании для трудоустройства на основе ваших навыков.
- Lomi — Выявляет потенциальных покупателей.
- Mosaic — Помогает писать качественные резюме.
- Newton — Помогает искать работу мечты.
- Notion — Помогает справиться с большим количеством электронной почты.
- Robby — Лучший и более умный календарь.
- Stella — Сканирует вакансии и управляет процессом трудоустройства.
- Woo — Помогает анонимно принимать более взвешенные решения относительно своей карьеры.
Социальные
- Brightcrowd — Помогает найти значимые профессиональные связи.
- Capsule.ai — Напоминает хорошие моменты из вашей жизни.
- Dating.ai — Приложение для знакомств с функицей поиска по лицам.
- ETCH — Помогает управлять вашим списком контактов.
- Eezy — Пусть Eezy позаботится о вашем вечере, чтобы вы могли развлекаться.
- Hashley — Ироничный генератор хэштегов и комментариев для фотографий.
- Hotness.ai — Скажет вам, насколько вы горячий.
- Rey — Знакомит вас с людьми, с которыми вы действительно должны познакомиться (для работы или отдыха).
Образование
- Thirdleap — Помогает детям учить математику.
- Woogie — Интерактивный ИИ-робот (чат-бот), который делает обучение и изучение забавным для детей.
Здоровье / Медицина
- Abi — Ваш виртуальный помощник по здоровью.
- Ada — Может помочь, если вы плохо себя чувствуете.
- Airi — Персональный тренер здорового образа жизни.
- Alz.ai — Помогает заботиться о близких с болезнью Альцгеймера.
- Amélie — Чат-бот для общения на тему психического здоровья.
- Bitesnap — Распознавание еды по фотографии для подсчета количество калорий.
- doc.ai — Делает результаты анализов легче для понимания.
- Gyan — Помогает по симптомам понять вероятные заболевания.
- Joy — Помогает отслеживать и улучшать свое психическое здоровье.
- Kiwi — Помогает бросить курить.
- Tess by X2AI — Карманный терапевт.
- Sleep.ai — Диагностирует храп и стучание зубами.
Помощники — Персональные
- Amazon Echo / Alexa — Личный помощник для дома на каждый день.
- Apple Siri — Личный помощник на iPhone и Mac.
- Cortana — Личный помощник на устройствах с Windows.
- Facebook M — Конкурент Siri, Now и Cortana.
- Focus — Помогает сосредоточиться, выполнять задачи вовремя и расставлять приоритеты.
- Gatebox — Голографический аниме-помощник в кофе-машине.
- Google Assistant — Повседневный личный помощник.
- Hound — Повседневный личный помощник.
- Ling — Похожий на Amazon Echo.
- Mycroft — Первый голосовой помощник с открытым исходным кодом.
- Remi — Как Siri, только со своеобразным интерфейсом пользователя.
- Spoken — Виртуальный помощник с голосовым интерфейсом.
- Viv — Как Siri, но лучше в 10 раз.
Помощники — Профессиональные
- Clara — Помощник по планированию встреч.
- Julie Desk — Помощник по планированию встреч (нацеленный на топ-менеджеров).
- Kono — Помощник по планированию встреч.
- Mimetic — Ещё один помощник по планированию встреч.
- My Ally — Планирование встреч и управление календарем.
- SkipFlag — Автоматическая организация и поиск информации, которая может понадобиться вам на работе.
- Vesper — Виртуальный помощник для топ-менеджеров.
- x.ai — И ещё один помощник по планированию встреч.
- Zoom.ai — Персональный помощник для работы.
Помощники — Развлечения
- Fembot — Ваша ИИ-подружка.
- Lifos — Динамические независимые штуки, которые взаимодействуют с вами через интернет, девайсы и социальные сети. От переводчика: не понял, вообще не осилил что это такое…
- Replika — Ваш ИИ-друг, с которым вы общаетесь по переписке.
Помощники — Чат-боты
- Brin — Помогает принимать более взвешенные бизнес-решения.
- Chatfuel — Сервис для создания чат-бота в Facebook за 7 минут.
- Luka — Мессенджер с чат-ботом для общения людей и других чат-ботов.
- myWave — Чат-бот, который поможет вам в повседневной жизни .
- Lyra — Отслеживает и анализирует уровень выдыхаемого углекислого газа.
Развлечения / Новости
- Jottr — Новостное приложение, которое учится на том, что вам нравится и что не нравится.
- News360 — Узнает, что вам нравится и находит истории, которые вам понравятся.
Путешествия
- Ada — Чат-бот, который помогает вам ориентироваться в путешествиях и принимать решения.
- Emma — Автоматически вычисляет и добавляет время в пути до места встречи.
- ETA — Помогает вам управлять маршрутами поездок и встречами.
- HelloGbye — Бронирование сложного маршрута в виде обычного диалога.
- Mezi — Помощники в бронировании авиабилетов, гостиниц, столов в ресторанах и многого другого.
- Ready — Прогнозирует трафик и время в пути.
Транспорт
- Vinli — Превращает любой автомобиль в умный автомобиль.
Фитнесс
- Mara — Умнейшее приложение для бега.
Музыка
- Aiva — Сочиняет эмоциональную музыку.
- Pandora — Находит музыку, которая вам может понравиться.
Страхование / Юридические услуги
- Docubot — Может проконсультировать вас по юридическим вопросам.
- Driveway — Отслеживает и награждает безопасных водителей.
Поход по магазинам
- Entrupy — Помогает определить подлинность дизайнерских продуктов.
- Fify — Помогает покупать одежду.
- GoFind — Помогает найти одежду онлайн по фотографии.
- Mode.ai — Помогает найти одежду онлайн.
Финансы
- Abe — Быстрые ответы о ваших финансах.
- Andy — Персональный налоговый бухгалтер.
- Ara — Помогает вам с планированием бюджета.
- Bond — Помогает достичь финансовых целей.
- Mylo — Округляет ваши ежедневные покупки и инвестирует свободный отсаток.
- Olivia — Помогает управлять финансами.
- Responsive — Управляет портфелем инвестиций.
- Roger — Помогает оплачивать счета.
- Wallet — ИИ для ежедневных финансовых решений.
- Xoe.ai — ИИ чат-бот по кредитованию.
- Firedrop — Автоматически создаваемый дизайн ваб-сайта, просто добавьте контент и опубликуйте.
- Hashley — Ироничный генератор хэштегов и комментариев для фотографий.
- Millions.ai — Скиньте контент на него и он создаст сайт.
- Oly — Отбирает и помогает публиковать контент в социальных сетях.
- Signature — Создает элегантные посадочные страницы, используя ваш контент в социальных сетях.
- Zen.ai — Персонализированные рекомендации для магазина Shopify.
IoT / IIoT
- Aerial — Датчик домашней активности, движения и идентификации.
- Bridge.ai — Платформа умного дома, ориентированная на речь и звук.
- Cubic — Единое место для подключения интеллектуальных домашних устройств.
- Grojo — Контроллер и система мониторинга для комнаты с растениями.
- Home — Автономное управление домом с помощью подключенных устройств.
- Hello — Помогает контролировать и улучшать сон.
- Josh — Управление голосом для всего в доме.
- Mycroft — Первый голосовой помощник с открытым исходным кодом.
- Nanit — Радионяня изобретенная заново.
- Nest — Ряд устройств для дома таких, как термостат, системы безопасности и сигнализации.
Носимые устройства
- Eli — Помогает выучить новый язык по разговорам в течение дня.
- Kick.ai — Носимое утсройство для боевых искусств, спициализиующеся на анализе ударов и боев.
Языки / Перевод
- Liv — Расшифровывает разговоры на английском и хинди.
- Microsoft Translator — Переводчик с использованием нейронных сетей.
- Google Translate — От переводчика: Ещё один переводчик с использованием нейронных сетей.
Роботы
- Dispatch — Доставка роботом.
- Roboy — Человекоподобный робот, стремящийся быть таким же способным, как человек.
- Spoon — Робот (Я не понял его предназначение, но звучит здорово!).
Полезные + Развлечения + Случайные
- CaptionBot — Microsoft описывает любую фотографию.
- Crowdfunding.ai — краудфандинговая платформы для ИИ-проектов.
- Elevator — Помогает находить и покупать каннабис (с рекомендациями).
- Fieldguide — Универсальное полевое знаний, которое предлагает возможные совпадения.
- Frankenstain.ai — Это совместный эксперимент с использованием ИИ, машинного обучения, робототехники, биоинженерии и IoT.
- #Laugh — Смех, визуализированный в цифровом формате, который может быть отправлен в космос.
- IntelligentX Brewing Co. — Пиво, сваренное искусственным интеллектом.
- Spark — Помогает заказать каннабис текстовым сообщением.
- Token — Помогает отправить идеальный подарок.
- Wixi — Помогает исправить проблемы с Wi-Fi.
- Mushroom AI — От переводчика: Распознаёт грибы по фотографии.
Научные исследования
- Apollo — Разбивает статьи и PDF-файлы на удобочитаемые списки.
- Ferret.ai — Помогает с исследованиями суммируя статьи.
- Iris — Помогает вам исследовать и визуализировать концепты в научных статьях.
События, конференции и сообщества
Новости и блоги
- AI Weekly — Еженедельные новости и ресурсы по искусственному интеллекту и машинному обучению.
- Approximately Correct — Блог про искусственный интеллект и машинное обучение.
- Axiomzen — Рассылка про ИИ раз в 2 недели.
- Concerning.ai — ИИ коментаторы.
- Fast.ai — Блог про доступность глубокого обучения для всех.
- Machinelearning.ai — Новости и обновления про искусственный интеллект и машинное обучение.
- Machine Learning Weekly — Отбираемая в ручную рассылка про машинное и глубокое обучение.
- PRAI — Форум про искусственный интеллект, машинное обучение и роботостроение.
- Storyteller — Отслеживает появление новых описаний интеллектуальных алгоритмов.
- Machine Learnings — От переводчика: Еженедельная рассылка про ИИ.
Это только начало! Сообщите мне, если я пропустил какую-либо компанию, которая, по вашему мнению, должна была быть включена, любые изменения, которые я должен внести, или если есть такие компании, которых просто не должно быть в списке. Я готовлю части 2 и 3, которые скоро появятся!
Я, Лиам Хэнель (Liam Hänel), основатель и генеральный директор Lyra. Lyra помогает вам легко отслеживать и анализировать ваш личный уровень выдыхаемого углекислого газа с помощью искусственного интеллекта. Вы можете узнать о нашем прогрессе на нашем сайте.
От переводчика
Хочется отметить, что как у автора, так и в СМИ, часто смешиваются понятия “чат-бот” и “искусственный интеллект”. Чат-бот — это интерфейс, а за ним может быть как простой алгоритм, так и искусственный интеллект или даже живой человек. Про наличие сотрудников, которые обрабатывают заявки от имени “человекоподобного” чат-бота, прямым или косвенным образом признавались такие проекты, как x.ai и Clara.
Всё, что вам нужно знать об ИИ — за несколько минут / Habr
Приветствую читателей Хабра. Вашему вниманию предлагается перевод статьи «Everything you need to know about AI — in under 8 minutes.». Содержание направлено на людей, не знакомых со сферой ИИ и желающих получить о ней общее представление, чтобы затем, возможно, углубиться в какую-либо конкретную его отрасль.
Знать понемногу обо всё иногда (по крайней мере, для новичков, пытающихся сориентироваться в популярных технических направлениях) бывает полезнее, чем знать много о чём-то одном.
Многие люди думают, что немного знакомы с ИИ. Но эта область настолько молода и растёт так быстро, что прорывы совершаются чуть ли не каждый день. В этой научной области предстоит открыть настолько многое, что специалисты из других областей могут быстро влиться в исследования ИИ и достичь значимых результатов.
Эта статья — как раз для них. Я поставил себе целью создать короткий справочный материал, который позволит технически образованным людям быстро разобраться с терминологией и средствами, используемыми для разработки ИИ. Я надеюсь, что этот материал окажется полезным большинству интересующихся ИИ людей, не являющихся специалистами в этой области.
Введение
Искусственный интеллект (ИИ), машинное обучение и нейронные сети — термины, используемые для описания мощных технологий, базирующихся на машинном обучении, способных решить множество задач из реального мира.
В то время, как размышление, принятие решений и т.п. сравнительно со способностями человеческого мозга у машин далеки от идеала (не идеальны они, разумеется, и у людей), в недавнее время было сделано несколько важных открытий в области технологий ИИ и связанных с ними алгоритмов. Важную роль играет увеличивающееся количество доступных для обучения ИИ больших выборок разнообразных данных.
Область ИИ пересекается со многими другими областями, включая математику, статистику, теорию вероятностей, физику, обработку сигналов, машинное обучение, компьютерное зрение, психологию, лингвистику и науку о мозге. Вопросы, связанные с социальной ответственностью и этикой создания ИИ притягивают интересующихся людей, занимающихся философией.
Мотивация развития технологий ИИ состоит в том, что задачи, зависящие от множества переменных факторов, требуют очень сложных решений, которые трудны к пониманию и сложно алгоритмизируются вручную.
Растут надежды корпораций, исследователей и обычных людей на машинное обучение для получения решений задач, не требующих от человека описания конкретных алгоритмов. Много внимания уделяется подходу «чёрного ящика». Программирование алгоритмов, используемых для моделирования и решения задач, связанных с большими объёмами данных, занимает у разработчиков очень много времени. Даже когда нам удаётся написать код, обрабатывающий большое количество разнообразных данных, он зачастую получается очень громоздким, трудноподдерживаемым и тяжело тестируемым (из-за необходимости даже для тестов использовать большое количество данных).
Современные технологии машинного обучения и ИИ вкупе с правильно подобранными и подготовленными «тренировочными» данными для систем могут позволить нам научить компьютеры «программировать» за нас.
Обзор
Интеллект — способность воспринимать информацию и сохранять её в качестве знания для построения адаптивного поведения в среде или контексте
Это определение интеллекта из (англоязычной) Википедии может быть применено как к органическому мозгу, так и к машине. Наличие интеллекта не предполагает наличие сознания. Это — распространённое заблуждение, принесённое в мир писателями научной фантастики.
Попробуйте поискать в интернете примеры ИИ — и вы наверняка получите хотя бы одну ссылку на IBM Watson, использующий алгоритм машинного обучения, ставший знаменитым после победы на телевикторине под названием «Jeopardy» в 2011 г. С тех пор алгоритм претерпел некоторые изменения и был использован в качестве шаблона для множества различных коммерческих приложений. Apple, Amazon и Google активно работают над созданием аналогичных систем в наших домах и карманах.
Обработка естественного языка и распознавание речи стали первыми примерами коммерческого использования машинного обучения. Вслед за ними появились задачи другие задачи автоматизации распознавания (текст, аудио, изображения, видео, лица и т.д.). Круг приложений этих технологий постоянно растёт и включает в себя беспилотные средства передвижения, медицинскую диагностику, компьютерные игры, поисковые движки, спам-фильтры, борьбу с преступностью, маркетинг, управление роботами, компьютерное зрение, перевозки, распознавание музыки и многое другое.
ИИ настолько плотно вошёл в современные используемые нами технологии, что многие даже не думают о нём как об «ИИ», то есть, не отделяют его от обычных компьютерных технологий. Спросите любого прохожего, есть ли искусственный интеллект в его смартфоне, и он, вероятно, ответит: «Нет». Но алгоритмы ИИ находятся повсюду: от предугадывания введённого текста до автоматического фокуса камеры. Многие считают, что ИИ должен появиться в будущем. Но он появился некоторое время назад и уже находится здесь.
Термин «ИИ» является довольно обобщённым. В фокусе большинства исследований сейчас находится более узкое поле нейронных сетей и глубокого обучения.
Как работает наш мозг
Человеческий мозг представляет собой сложный углеродный компьютер, выполняющий, по приблизительным оценкам, миллиард миллиардов операций в секунду (1000 петафлопс), потребляющий при этом 20 Ватт энергии. Китайский суперкомпьютер под названием «Tianhe-2» (самый быстрый в мире на момент написания статьи) выполняет 33860 триллионов операций в секунду (33.86 петафлопс) и потребляющий при этом 17600000 Ватт (17.6 Мегаватт). Нам предстоит проделать определённое количество работы перед тем, как наши кремниевые компьютеры смогут сравниться со сформировавшимися в результате эволюции углеродными.
Точное описание механизма, применяемого нашим мозгом для того, чтобы «думать» является предметом дискуссий и дальнейших исследований (лично мне нравится теория о том, что работа мозга связана с квантовыми эффектами, но это — тема для отдельной статьи). Однако, механизм работы частей мозга обычно моделируется с помощью концепции нейронов и нейронных сетей. Предполагается, что мозг содержит примерно 100 миллиардов нейронов.
Нейроны взаимодействуют друг с другом с помощью специальных каналов, позволяющих им обмениваться информацией. Сигналы отдельных нейронов взвешиваются и комбинируются друг с другом перед тем, как активировать другие нейроны. Эта обработка передаваемых сообщений, комбинирование и активация других нейронов повторяется в различных слоях мозга. Учитывая то, что в нашем мозгу находится 100 миллиардов нейронов, совокупность взвешенных комбинаций этих сигналов устроена довольно сложно. И это ещё мягко сказано.
Но на этом всё не заканчивается. Каждый нейрон применяет функцию, или преобразование, к взвешенным входным сигналам перед тем, как проверить, достигнут ли порог его активации. Преобразование входного сигнала может быть линейным или нелинейным.
Изначально входные сигналы приходят из разнообразных источников: наших органов чувств, средств внутреннего отслеживания функционирования организма (уровня кислорода в крови, содержимого желудка и т.д.) и других. Один нейрон может получать сотни тысяч входных сигналов перед принятием решения о том, как следует реагировать.
Мышление (или обработка информации) и полученные в результате его инструкции, передаваемые нашим мышцам и другим органам являются результатом преобразования и передачи входных сигналов между нейронами из различных слоёв нейронной сети. Но нейронные сети в мозгу могут меняться и обновляться, включая изменения алгоритма взвешивания сигналов, передаваемых между нейронами. Это связано с обучением и накоплением опыта.
Эта модель человеческого мозга использовалась в качестве шаблона для воспроизведения возможностей мозга в компьютерной симуляции — искуственной нейронной сети.
Искусственные Нейронные Сети (ИНС)
Искусственные Нейронные Сети — это математические модели, созданные по аналогии с биологическими нейронными сетями. ИНС способны моделировать и обрабатывать нелинейные отношения между входными и выходными сигналами. Адаптивное взвешивание сигналов между искусственными нейронами достигается благодаря обучающемуся алгоритму, считывающему наблюдаемые данные и пытающемуся улучшить результаты их обработки.
Для улучшения работы ИНС применяются различные техники оптимизации. Оптимизация считается успешной, если ИНС может решать поставленную задачу за время, не превышающее установленные рамки (временные рамки, разумеется, варьируются от задачи к задаче).
ИНС моделируется с использованием нескольких слоёв нейронов. Структура этих слоёв называется архитектурой модели. Нейроны представляют собой отдельные вычислительные единицы, способные получать входные данные и применять к ним некоторую математическую функцию для определения того, стоит ли передавать эти данные дальше.
В простой трёхслойной модели первый слой является слоем ввода, за ним следует скрытый слой, а за ним — слой вывода. Каждый слой содержит не менее одного нейрона.
С усложнением структуры модели посредством увеличения количества слоёв и нейронов возрастают потенциал решения задач ИНС. Однако, если модель оказывается слишком «большой» для заданной задачи, её бывает невозможно оптимизировать до нужного уровня. Это явление называется переобучением (overfitting).
Архитектура, настройка и выбор алгоритмов обработки данных являются основными составляющими построения ИНС. Все эти компоненты определяют производительность и эффективность работы модели.
Модели часто характеризуются так называемой функцией активации. Она используется для преобразования взвешенных входных данных нейрона в его выходные данные (если нейрон решает передавать данные дальше, это называется его активацией). Существует множество различных преобразований, которые могут быть использованы в качестве функций активации.
ИНС являются мощным средством решения задач. Однако, хотя математическая модель небольшого количества нейронов довольно проста, модель нейронной сети при увеличении количества составляющих её частей становится довольно запутанно. Из-за этого использование ИНС иногда называют подходом «чёрного ящика». Выбор ИНС для решения задачи должен быть тщательно обдуманным, так как во многих случаях полученное итоговое решение нельзя будет разобрать на части и проанализировать, почему оно стало именно таким.
Глубокое обучение
Термин глубокое обучение используется для описания нейронных сетей и используемых в них алгоритмах, принимающих «сырые» данные (из которых требуется извлечь некоторую полезную информацию). Эти данные обрабатываются, проходя через слои нейросети, для получения нужных выходных данных.
Обучение без учителя (unsupervised learning) — область, в которой методики глубокого обучения отлично себя показывают. Правильно настроенная ИНС способна автоматически определить основные черты входных данных (будь то текст, изображения или другие данные) и получить полезный результат их обработки. Без глубокого обучения поиск важной информации зачастую ложится на плечи программиста, разрабатывающего систему их обработки. Модель глубокого обучения же самостоятельно способна найти способ обработки данных, позволяющий извлекать из них полезную информацию. Когда система проходит обучение (то есть, находит тот самый способ извлекать из входных данных полезную информацию), требования к вычислительной мощности, памяти и энергии для поддержания работы модели сокращаются.
Проще говоря, алгоритмы обучения позволяют с помощью специально подготовленных данных «натренировать» программу выполнять конкретную задачу.
Глубокое обучение применяется для решения широкого круга задач и считается одной из инновационных ИИ-технологий. Существуют также другие виды обучения, такие как обучение с учителем (supervised learning) и обучение с частичным привлечением учителя(semi-supervised learning), которые отличаются введением дополнительного контроля человека за промежуточными результатами обучения нейронной сети обработке данных (помогающего определить, в правильном ли направлении движется система).
Теневое обучение (shadow learning) — термин, используемый для описания упрощённой формы глубокого обучения, при которой поиск ключевых особенностей данных предваряется их обработкой человеком и внесением в систему специфических для сферы, к которой относятся эти данные, сведений. Такие модели бывают более «прозрачными» (в смысле получения результатов) и высокопроизводительными за счёт увеличения времени, вложенного в проектирование системы.
Заключение
ИИ является мощным средством обработки данных и может находить решения сложных задач быстрее, чем традиционные алгоритмы, написанные программистами. ИНС и методики глубокого обучения могут помочь решить ряд разнообразных проблем. Минус состоит в том, что самые оптимизированные модели часто работают как «чёрные ящики», не давая возможности изучить причины выбора ими того или иного решения. Этот факт может привести к этическим проблемам, связанным с прозрачностью информации.
Восемь потрясающих игр с искусственным интеллектом от компании Google / Habr
«Нарисуй кошку за 30 секунд!.. О, я знаю, это кошка… А может быть, нет» — примерно в таком формате выдаёт результат распознавания рисунков нейросеть Quick, Draw!
Quick, Draw! — одна из новых игр, которую выпустили разработчики Google в рамках проекта A.I. Experiments. Здесь публикуются прикольные игрушки, которые позволяют даже ребёнку поиграть с искусственным интеллектом. Но есть игры и для взрослых.
Кроме удовольствия от игры и развлечения, эксперименты A.I. Experiments дают ещё и некоторое понимание того, на что способны нейросети и как их можно использовать на практике. Не только для развлечений.
aiexperiments.withgoogle.com/giorgio-cam
Первая игра на сайте A.I. Experiments. Вероятно, самая интересная, по мнению разработчиков. Поместите объект перед объективом камеры на смартфоне или ПК, а нейросеть мгновенно составит стишок по итогу результата распознавания — и положит его под музыку! Иногда результат очень смешной. Особенно если навести камеру на необычные объекты.
В данном проекте используются программы MaryTTS, Tone.js, и Google Cloud Vision API. Исходный код Giorgio Cam опубликован, как и всех других игр на проекте.
quickdraw.withgoogle.com
В игре Quick, Draw! искусственный интеллект даёт задание. Человек пытается быстро нарисовать, например, пальцем на планшете, а ИИ определяет, что изображено на рисунке. Получается весело, особенно если вы не очень умеете рисовать.
Что важно, нейросеть обучают следить за направлением движения пальца/курсора. За счёт этого она гораздо лучше распознаёт образцы.
aiexperiments.withgoogle.com/drum-machine
Infinite Drum Machine показывает карту, на которой разные звуки инструментов размещены в соответствии со степенью их схожести. Если проводить мышкой по этому облаку, то звуки воспроизводятся по очереди. Если какой-то звук понравился, то размещаем его на драм-машине с четырьмя дорожками. Ну а затем запускаем на воспроизведение. Такое приложение стало бы хитом в Google Play. Впрочем, как и остальные игры на сайте A.I. Experiments.
Как сказано в описании, при разработке использовалась техника t-SNE, то есть нелинейного снижения размерности и визуализации многомерных переменных (t-distributed stochastic neighbor embedding). Алгоритм вычисляет цифровой отпечаток каждого звука и размещает его в многомерном пространстве, в соотношении с другими отпечатками. Для взаимодействия с человеком многомерное пространство пришлось сплющить до двухмерного.
aiexperiments.withgoogle.com/bird-sounds
Как и в предыдущей игре, здесь система с помощью техники t-SNE организовала по степени схожести тысячи звуков. Только звуки не инструментов, а птичьих голосов. Орнитологи десятилетиями собирали эту коллекцию.
aiexperiments.withgoogle.com/thing-translator
«Переводчик вещей» переводит с одного языка на другой не слова, а предметы. Он буквально произносит вслух, как звучит любой предмет на выбранном вами языке.
Это всего лишь один пример того, что можно сделать, используя программные интерфейсы машинного обучения Google (Cloud Vision API + Translate API) — даже ничего не зная о машинном обучении.
aiexperiments.withgoogle.com/ai-duet
Ещё одна интересная музыкальная игра от Google. Вы начинаете играть мелодию — а компьютер продолжает её за вас, используя наиболее красивое и логичное продолжение.
Как несложно догадаться, при обучении нейросети воспроизводились тысячи существующих мелодий. ИИ постепенно начал понимать ноты и распознавать гармонию в мелодическом рисунке. Понимать, в каких местах мелодия должна менять направление, в каком ритме продолжать мелодию и т.д. Он постепенно сам составил карту наиболее популярных, то есть гармоничных последовательностей и переходов.
Для максимального кайфа к компьютеру, конечно, желательно подключить MIDI-клавиатуру. Тогда с ИИ можно организовать полноценный композиторский дуэт, играя мелодию по очереди. Он продолжает начатое вами, а вы подыгрываете его варианту.
aiexperiments.withgoogle.com/visualizing-high-dimensional-space
Этот эксперимент помогает понять, что творится в «мозгах» искусственного интеллекта. Программа визуализирует это на экране. Именно здесь можно своими глазами увидеть многомерное пространство, которое упоминалось ранее, и понять, как работает волшебная техника t-SNE. Каким образом организуются данные в пространствах, где количество измерений больше трёх.
Одна из авторов объясняет в демонстрационном видеоролике, что даже людей можно представить в виде многомерных объектов в многомерном пространстве. Это легко. В одном измерении у нас параметр «дата рождения» — и в этом измерении мы связаны с другими такими же многомерными объектами (людьми). В следующем измерении у нас параметр «место работы» — в этом измерении совершенно другие взаимосвязи. И так далее. Абсолютно все люди на планете входят в эту многомерную сеть. Такое же многомерное пространство строится для значений слов, для изображений, для мелодий и для любых других данных. Всё это потом используется в реальных приложениях, когда нейросеть обучается распознавать образы, понимать значения отдельных слов в пространстве смыслов.
Разработанная Google техника визуализации будет полезна всем разработчикам, которые работают с многомерными пространствами, t-SNE и нейросетями.
aiexperiments.withgoogle.com/what-neural-nets-see
Ещё один эксперимент, который показывает внутренности «компьютерного мозга». В данном случае речь идёт не об измерениях многомерного пространства, а о слоях нейросети, каждый из которых реагирует на определённые сигналы. При последовательной обработке многими слоями нейросети, где каждый следующий слой обрабатывает результат предыдущего, ИИ начинает распознавать фичи всё более высокого уровня.
И помните, чем больше вы играете с искусственным интеллектом Google — тем быстрее он обучается, используя ваши рисунки и наблюдая за поведением. К сожалению, люди могут не только обучить, но и испортить ИИ. Например, из-за неграмотности многие люди рисуют ураган в виде торнадо. И постепенно нейросеть откажется признавать ураганом рисунок тропического циклона, а будет считать ураганом только рисунок торнадо. В общем, всё как в жизни.
Алиса. Как Яндекс учит искусственный интеллект разговаривать с людьми
В будущем, как нам кажется, люди будут взаимодействовать с устройствами с помощью голоса. Уже сейчас приложения распознают точные голосовые команды, заложенные в них разработчиками, но с развитием технологий искусственного интеллекта они научатся понимать смысл произвольных фраз и даже поддерживать разговор на любые темы. Сегодня мы расскажем читателям Хабра о том, как мы приближаем это будущее на примере Алисы – первого голосового помощника, который не ограничивается набором заранее заданных ответов и использует для общения нейронные сети.Несмотря на кажущуюся простоту, голосовой помощник – один из самых масштабных технологических проектов Яндекса. Из этого поста вы узнаете, с какими сложностями сталкиваются разработчики голосовых интерфейсов, кто на самом деле пишет ответы для виртуальных помощников, и что общего у Алисы с искусственным интеллектом из фильма «Она».
На заре своего существования компьютеры в основном применялись на крупных научных или оборонных предприятиях. Про голосовое управление тогда размышляли лишь фантасты, а в реальности операторы загружали программы и данные с помощью куска картона. Не самый удобный способ: одна ошибка, и все нужно начинать сначала.
С годами компьютеры становятся доступнее и начинают применяться в компаниях поменьше. Специалисты управляют ими с помощью текстовых команд, вводимых в терминале. Хороший, надежный способ – он применяется в профессиональной среде и по сей день, но требует подготовки. Поэтому когда компьютеры стали появляться в домах обычных пользователей, инженеры принялись искать более простые способы взаимодействия машины и человека.
В лаборатории компании Xerox зарождается концепция графического интерфейса WIMP (Windows, Icons, Menus, Point-n-Click) – массовое применение она нашла в продуктах уже других компаний. Заучивать текстовые команды для управления домашним компьютером больше не требовалось — им на смену пришли жесты и клики мышью. Для своего времени это было настоящей революцией. И теперь мир приближается к следующей.
Теперь почти у каждого в кармане лежит смартфон, вычислительных мощностей которого достаточно, чтобы посадить корабль на Луну. Мышь и клавиатуру заменили пальцы, но ими мы совершаем все те же жесты и клики. Это удобно делать, сидя на диване, но не в дороге или на ходу. В прошлом для взаимодействия с компьютерными интерфейсами человеку приходилось осваивать язык машин. Мы верим, что сейчас пришло время научить устройства и приложения общаться на языке людей. Именно эта идея легла в основу голосового помощника Алиса.
У Алисы можно спросить [Где поблизости выпить кофе?], а не диктовать что-то вроде [кофейня улица космонавтов]. Алиса заглянет в Яндекс и предложит подходящее место, а на вопрос [Отлично, а как туда пройти?] — даст ссылку на уже построенный маршрут в Яндекс.Картах. Она умеет отличать точные фактовые вопросы от желания увидеть классическую поисковую выдачу, хамство – от вежливой просьбы, команду открыть сайт – от желания просто поболтать.
Может даже показаться, что где-то в облаке работает нейронная чудо-сеть, которая в одиночку решает любые задачи. Но в реальности за любым ответом Алисы скрывается целая цепочка технологических задач, решать которые мы учимся уже 5 лет. И начнем мы свой экскурс с самого первого звена – со способности слушать.
Привет, Алиса
Искусственный интеллект из научной фантастики умеет слушать – людям не приходится нажимать на специальные кнопки, чтобы включить «режим записи». А для этого нужна голосовая активация – приложение должно понимать, что человек к нему обращается. Сделать это не так легко, как может показаться.
Если вы просто начнете записывать и обрабатывать на сервере весь входящий звуковой поток, то очень быстро разрядите батарейку устройства и потратите весь мобильный трафик. В нашем случае это решается с помощью специальной нейронной сети, которая обучена исключительно на распознавание ключевых фраз («Привет, Алиса», «Слушай, Яндекс» и некоторых других). Поддержка ограниченного числа таких фраз позволяет выполнять эту работу локально и без обращения к серверу.
Если сеть обучается понимать лишь несколько фраз, вы могли бы подумать, что сделать это достаточно просто и быстро. Но нет. Люди произносят фразы далеко не в идеальных условиях, а в окружении совершенно непредсказуемого шума. Да и голоса у всех разные. Поэтому для понимания лишь одной фразы необходимы тысячи обучающих записей.
Даже небольшая локальная нейронная сеть потребляет ресурсы: нельзя просто взять и начать обрабатывать весь поток с микрофона. Поэтому на передовой применяется менее тяжеловесный алгоритм, который дешево и быстро распознает событие «началась речь». Именно он включает нейросетевой движок распознавания ключевых фраз, который в свою очередь запускает самую тяжелую часть – распознавание речи.
Если для обучения лишь одной фразе необходимы тысячи примеров, то вы можете себе представить, насколько трудоемко обучить нейросеть распознаванию любых слов и фраз. По этой же причине распознавание выполняется в облаке, куда передается звуковой поток, и откуда возвращаются уже готовые ответы. Точность ответов напрямую зависит от качества распознавания. Именно поэтому главный вызов – научиться распознавать речь настолько же качественно, насколько это делает человек. Кстати, люди тоже совершают ошибки. Считается, что человек распознает 96-98% речи (метрика WER). Нам удалось добиться точности в 89-95%, что уже не только сопоставимо с уровнем живого собеседника, но и уникально для русского языка.
Но даже идеально преобразованная в текст речь ничего не будет значить, если мы не сможем понять смысл сказанного.
Какая погода завтра в Питере?
Если вы хотите, чтобы ваше приложение выводило прогноз погоды в ответ на голосовой запрос [погода], то здесь все просто – сравниваете распознанный текст со словом «погода» и если получаете совпадение, выводите ответ. И это очень примитивный способ взаимодействия, потому что в реальной жизни люди задают вопросы иначе. Человек может спросить у помощника [Какая погода завтра в Питере?], и тот не должен растеряться.
Первое, что делает Алиса при получении вопроса, это распознает сценарий. Отправить запрос в поиск и показать классическую выдачу с 10 результатами? Поискать один точный ответ и сразу выдать его пользователю? Совершить действие, например открыть сайт? А, может, просто поговорить? Невероятно сложно научить машину безошибочно распознавать сценарии поведения. И любая ошибка здесь малоприятна. К счастью, у нас есть вся мощь поисковой машины Яндекса, которая каждый день сталкивается с миллионами запросов, ищет миллионы ответов и учится понимать, какие из них хорошие, а какие – нет. Это огромная база знаний, на основе которых можно обучить еще одну нейронную сеть – такую, которая бы с высокой вероятностью «понимала», чего именно хочет человек. Ошибки, конечно же, неизбежны, но их совершают и люди.
С помощью машинного обучения Алиса «понимает», что фраза [Какая погода завтра в Питере?] – это запрос погоды (кстати, это заведомо простой пример для наглядности). Но о каком городе идет речь? На какую дату? Здесь начинается этап извлечения из пользовательских реплик именованных объектов (Named Entity Recognition). В нашем случае важную информацию несут два таких объекта: «Питер» и «завтра». И Алиса, у которой за плечами стоят поисковые технологии, «понимает», что «Питер» – синоним «Санкт-Петербурга», а «завтра» – «текущая дата + 1».
Естественный язык – не только внешняя форма наших реплик, но и их связность. В жизни мы не обмениваемся короткими фразами, а ведем диалог – он невозможен, если не помнить контекст. Алиса его помнит – это помогает ей разбираться со сложными лингвистическими явлениями: например, справляться с эллипсисом (восстанавливать пропущенные слова) или разрешать кореференции (определять объект по местоимению). Так, если спросить [Где находится Эльбрус?], а потом уточнить [А какая у него высота?], то помощник в обоих случаях найдет верные ответы. А если после запроса [Какая погода сегодня?] спросить [А завтра?], Алиса поймет, что это продолжение диалога про погоду.
И кое-что еще. Помощник должен не только понимать естественный язык, но и уметь говорить на нем – как человек, а не как робот. Для Алисы мы синтезируем голос, в оригинале принадлежащий актрисе дубляжа Татьяне Шитовой (официальный голос Скарлетт Йоханссон в России). Она озвучивала искусственный интеллект в фильме «Она», хотя вы могли запомнить ее и по озвучке чародейки Йеннифэр в «Ведьмаке». Причем речь идет о достаточно глубоком синтезе с применением нейронных сетей, а не о нарезке готовых фраз – записать все их многообразие заранее невозможно.
Выше мы описали особенности естественного общения (непредсказуемая форма реплик, отсутствующие слова, местоимения, ошибки, шум, голос), с которыми нужно уметь работать. Но у живого общения есть еще одно свойство – мы далеко не всегда требуем от собеседника конкретного ответа или действия, иногда нам просто хочется поговорить. Если приложение будет отправлять такие запросы в поиск, то вся магия разрушится. Именно поэтому популярные голосовые ассистенты используют базу редакторских ответов на популярные фразы и вопросы. Но мы пошли еще дальше.
А поболтать?
Мы научили машину отвечать на наши вопросы, вести диалог в контексте определённых сценариев и решать задачи пользователя. Это хорошо, но можно ли сделать ее менее бездушной и наделить человеческими свойствами: дать ей имя, научить рассказывать о себе, поддерживать разговор на свободные темы?
В индустрии голосовых помощников эта задача решается с помощью редакторских ответов. Специальная команда авторов берет сотни наиболее популярных у пользователей вопросов и пишет по несколько вариантов ответов на каждый. В идеале это нужно делать в едином стиле, чтобы из всех ответов складывалась цельная личность помощника. Для Алисы мы тоже пишем ответы – но у нас есть кое-что еще. Кое-что особенное.
Помимо топа популярных вопросов существует длинный хвост из низкочастотных или даже уникальных фраз, на которые заранее подготовить ответ невозможно. Вы уже догадались, с помощью чего мы решаем эту проблему, не так ли? С помощью еще одной нейросетевой модели. Для ответов на неизвестные ей вопросы и реплики Алиса использует нейросеть, обученную на огромной базе текстов из интернета, книг и фильмов. Знатоков машинного обучения, возможно, заинтересует то, что начинали мы с 3-слойной нейронной сети, а теперь экспериментируем с огромной 120-слойной. Детали прибережем для специализированных постов, а здесь скажем, что уже текущая версия Алисы старается отвечать на произвольные фразы с помощью «нейросетевой болталки» – так мы ее называем внутри.
Алиса учится на огромном количестве самых разных текстов, в которых люди и персонажи далеко не всегда ведут себя вежливо. Нейросеть может научиться совсем не тому, чему мы хотим ее научить.
– Закажи мне сэндвич.
– Обойдетесь.
Как и любого ребенка, Алису нельзя научить не хамить, ограждая ее от всех проявлений хамства и агрессии – то есть обучая нейросеть на «чистой» базе, где нет грубостей, провокаций и прочих неприятных вещей, часто встречающихся в реальном мире. Если Алиса не будет знать о существовании подобных выражений, она будет отвечать на них бездумно, случайными фразами – для неё они останутся неизвестными словами. Пусть лучше она знает, что это такое – и выработает определённую позицию по этим вопросам. Если ты знаешь, что такое мат, ты можешь либо ругнуться в ответ, либо сказать, что не станешь разговаривать с ругающимся. И мы моделируем поведение Алисы так, чтобы она выбирала второй вариант.
Бывает так, что сама по себе реплика Алисы вполне нейтральна, но вот в контексте, заданном пользователем, ответ перестаёт быть безобидным. Однажды, еще во время закрытого тестирования, мы попросили пользователя найти какие-то заведения – кафе или что-то подобное. Он сказал: «Найди другое такое же». И в этот момент в Алисе случился баг, и она вместо запуска сценария поиска организации дала довольно дерзкий ответ – что-то вроде «на карте поищи». И не стала ничего искать. Пользователь сначала удивился, а потом удивил и нас, похвалив поведение Алисы.
Когда Алиса использует «нейросетевую болталку», в ней может проявиться миллион разных личностей, так как нейросеть вобрала в себя немного от автора каждой реплики из обучающей выборки. В зависимости от контекста Алиса может быть вежливой или грубой, жизнерадостной или депрессивной. Мы же хотим, чтобы персональный помощник представлял собой целостную личность со вполне определенным набором качеств. Здесь на помощь приходят наши редакторские тексты. Их особенность в том, что они изначально написаны от лица той личности, которую мы хотим воссоздать в Алисе. Получается, что можно продолжать обучать Алису на миллионах строк случайных текстов, но отвечать она будет с оглядкой на эталон поведения, заложенный в редакторских ответах. И это то, над чем мы уже работаем.
Алиса стала первым известным нам голосовым помощником, который старается поддерживать общение не только с помощью редакторских ответов, но и используя обученную нейронную сеть. Конечно же, мы еще очень далеки от того, что изображают в современной фантастике. Алиса не всегда точно распознает суть реплики, что влияет на точность ответа. Поэтому работы у нас еще много.
Мы планируем сделать Алису самым человекоподобным помощником в мире. Привить ей эмпатию и любознательность. Сделать её проактивной – научить ставить цели в диалоге, проявлять инициативу и вовлекать собеседника в разговор. Сейчас мы одновременно и в самом начале пути, и на переднем крае наук, изучающих эту область. Чтобы двигаться дальше, придется этот край подвинуть.
Поговорить с Алисой можно в приложении Яндекс для Android и iOS, в бета-версии для Windows, а скоро и в Яндекс.Браузере. Нам было бы интересно обсудить, каким вы видите будущее голосовых интерфейсов и сценарии его использования.