Virtual-IT.pl - wirtualizacja cloud computing storage SDx data center
Altaro VM Backup

Artykuły

Czy znów będziemy porozumiewać się za pomocą głosu?

Komunikacja GłosowaOstatnio pojawiło się wiele cyfrowych asystentów osobistych, takich jak Siri, Cortana i Google Assistant, a coraz więcej start-upów, tworzy podobne rozwiązania z wykorzystaniem funkcji analitycznych i sztucznej inteligencji. Nie ulega wątpliwości, że zaczynamy komunikować się z technologiami w nowy sposób - za pomocą głosu. Należy się spodziewać, iż systemy uaktywniane głosem, które znalazły już swoje miejsce na rynku klientów indywidualnych, wkrótce pojawią się również w środowiskach przedsiębiorstw, gdzie mogą przynieść ogromne korzyści dzięki uproszczeniu i automatyzacji zadań. Choć upłynie jeszcze trochę czasu, zanim pojawi się coś w rodzaju systemu HAL z „Odysei kosmicznej 2001”, to istnieje już technologia, która może znacznie usprawnić sposób funkcjonowania wielu firm.

Światła, kamera, akcja!

Wyobraźmy sobie, o ile łatwiejsze byłoby życie lekarza, gdyby mógł po prostu powiedzieć: „Systemie, wprowadź do karty Anny Kowalskiej następującą informację: «Pacjentka ma bóle brzucha, zamówienie do apteki na 200 mg leku SuperAntiGas, podpisano: doktor Zdrówko»”. A gdyby w sali konferencyjnej nie trzeba było ciągle szukać pilota, bo do włączenia projektora i ekranu wystarczyłyby słowa: „systemie, włącz projektor i telewizor oraz zmniejsz natężenie oświetlenia”?

Nowe wyzwania

Wkraczamy w epokę rozwiązań obsługiwanych głównie za pomocą interfejsu głosowego (ang. voice-first). Na jakim etapie znajdujemy się obecnie? Firma analityczna VoiceLabs, która specjalizuje się w rynku technologii głosowych, opublikowała materiał na temat różnych warstw potrzebnych do rozwoju technologii voice-first dla klientów indywidualnych. Obecnie mamy do czynienia głównie z prostymi przypadkami użycia zorientowanymi na klienta. Aby przedsiębiorstwa zaczęły wdrażać środowiska, w których rozwiązania voice-first są używane na szerszą skalę, musi zostać spełnionych kilka warunków.

Podstawowe znaczenie ma bezpieczeństwo. Jeśli chcemy, aby systemy w naszych przedsiębiorstwach były sterowane głosem, musimy odpowiedzieć sobie na pytanie: czy każdy powinien mieć możliwość wydawania poleceń urządzeniom lub systemom o znaczeniu newralgicznym?  Odpowiedź jest oczywiście przecząca. Kolejna ważna sprawa to prywatność. Przedstawiony powyżej przykład dotyczący lekarza jest prosty, ale musimy o nim pomyśleć w kontekście obowiązujących przepisów. Czy prawa pacjenta zostaną naruszone, jeśli takie słowne polecenie spowoduje ujawnienie osobom trzecim jego informacji medycznych?

Bezpieczny dostęp

Rozwój technologii rozpoznawania mowy wkroczył w kolejny etap. Dziś można je już wykorzystywać w celu zapewnienia bezpiecznego dostępu do systemów. Przykładem są banki, które wprowadzają uwierzytelnianie na podstawie głosu w swoich systemach bankowości telefonicznej. Choć niektórzy klienci mogą się obawiać o bezpieczeństwo swoich kont, uważam, że będziemy mieć do czynienia z podobnym cyklem akceptacji nowych rozwiązań przez rynek, jak w przypadku handlu elektronicznego. Z początku klienci bali się, że ich karty kredytowe zostaną wykorzystane przez oszustów, ale gdy strach ten okazał się bezpodstawny, nastąpił bardzo dynamiczny wzrost na rynku zakupów online. W dziedzinie technologii rozpoznawania mowy należy się spodziewać kolejnych innowacji i udoskonaleń, które zapewnią bezpieczeństwo systemów uaktywnianych głosem w środowiskach przedsiębiorstw. Chodzi o to, aby określone działania mogli wykonywać tylko autoryzowani użytkownicy z odpowiednimi uprawnieniami.

Trzeba również zdawać sobie sprawę, że o ile kuchenka mikrofalowa nie może śledzić użytkownika, to niektóre urządzenia będą zawsze działać, zawsze słuchać i, być może, nagrywać. Kilka dobrze nagłośnionych przypadków naruszenia prywatności, szpiegostwa gospodarczego czy złamania prawa może zniechęcić klientów do zakupu takich produktów. Warto byłoby więc wyposażyć urządzenia voice-first w duże wyłączniki, dzięki którym użytkownicy będą mogli korzystać z tych urządzeń bez obawy o swoją prywatność.  Przydałoby się też niezawodne zabezpieczenie, które nie tylko zapewni bezpieczny dostęp do oprogramowania produktu, ale umożliwi wykrywanie ataków hakerskich i zapobieganie im.

Tworzenie jeszcze efektywniejszych systemów rozpoznawania mowy

Pierwsze technologie rozpoznawania mowy znalazły zastosowanie głównie w systemach informacji głosowej w telecentrach, jak również samochodach i smartfonach. Wiele osób wie jednak z własnego doświadczenia, że nie są one zbyt zaawansowane. Aby narzędzia do rozpoznawania mowy i kontekstualizacji mogły być szeroko stosowane w przedsiębiorstwach, muszą zostać udoskonalone z wykorzystaniem nowych technologii.

Możliwości systemów rozpoznawania mowy są cały czas poszerzane dzięki takim programom badawczym, jak projekt Sphinx realizowany przez Uniwersytet Carnegie-Mellon. Z raportu „Internet Trends” opracowanego przez Mary Meeker wynika, że w 2016 roku system rozpoznawania mowy firmy Google był w stanie rozpoznać ponad pięć milionów słów z około 90-procentową dokładnością. To jednak wciąż za mało. Czy dokładność na poziomie 90% jest wystarczająca w przypadku interakcji z systemem podtrzymującym życie w szpitalu lub siecią usług użyteczności publicznej?

voice control

Ponadto chodzi nie tylko o rozpoznawanie słów, lecz również o to, co z tymi słowami zrobić. W tym miejscu wkraczają do gry mechanizmy poznawcze i sztuczna inteligencja. Niektórzy spośród największych producentów oferują rozwiązania, które pomagają w zrozumieniu kontekstu słów. Przykładem jest Microsoft ze swoim mechanizmem poznawczym rozpoznawania mowy z otwartym dostępem do kodu źródłowego. Pytanie „Jak dojść do stacji?” wydaje się proste, lecz wymaga uwzględnienia kontekstu. Świadomość lokalizacji pozwala stwierdzić, że najprawdopodobniej chodzi o najbliższy dworzec kolejowy. Osoba siedząca w kawiarni w centrum miasta odpowiedziałaby: „Proszę na końcu ulicy skręcić w prawo, a następnie iść prosto pół kilometra”. Przyjęła jednak założenie, że chodzi o pobliską stację kolejową, a nie, powiedzmy, stację metra czy dworzec autobusowy znajdujący się na drugim końcu miasta.