Home > Blog > Czas pomyśleć o web 3.0. Piotr uwierzył w głos…

Czas pomyśleć o web 3.0. Piotr uwierzył w głos…

Published on 14/12/07
by Kuba Filipowski

Piotr Wrzosiński stymuluje blogosferę lepiej niż debata na blog.pl. W technicznej blogosferze, odwrotnie niż w politycznej, najburzliwsze dyskusje dotyczą przyszłości.

Piotr pokusił się o zdefinowanie przyszłości Internetu. Piotr wierzy, że rozpoznawanie mowy, jako prosty, mało wymagający interface, zmieni oblicze Internetu. Grzegorz Marczak z Antywebu go wyśmiał. Czy słusznie?

Rozpoznawanie mowy to coś co pewnie śni się po nocach niejednemu inżynierowi z Redmond. Pamiętacie słynną prezentację rozpoznawania mowy w Viście?

Ok ale to, że Microsoft sobie z tym nie radzi nie znaczy, że tego nie da się zrobić. IBM zrobił system rozpoznawania mowy dla Hondy – taki ficzer ma Acura TSX – rozpoznawanie mowy jest w niej połączone z systemem nawigacyjnym – wystarczy powiedzieć adres lub kazać systemowi prowadzić do najbliższej restauracji i system to robi. Wg. Alex’a Iskold’a z Read/Write Web działa to wyśmienicie – system rozpoznaje mowę nawet ludzi z silnym akcentem.

Istnieje więc możliwość zrobienia działającego interface’u w oparciu o ludzką mowę – pozostaje pytanie – czy to prosty interface i czy to faktycznie przyszłość Internetu.

Voice recognition w Acurze działa i jest użyteczny bo dostosowuje się do wymagań użytkownika – kierowca ma zajęte ręce i wzrok skupiony na drodze – głos i słuch są więc odpowiednimi nadawcami i odbiorcami komunikatu. Taki interface nie wymaga zaangażowania zmysłu wzroku i dotyku – czyli kierowca może sprawnie wykonać główne zadanie – prowadzenie auta.

Piotr pisze:

Jeśli więc powstanie interfejs, który pozwoli na pełne korzystanie z Sieci wszędzie, przy pomocy niewielkich urządzeń przenośnych, w naturalny sposób – bez alfabetu, klawiatur, wszystkich skomplikowanych w obsłudze, to będziemy mieli Web 3.0.

Zgadzam się – mowa jest znacznie naturalniejsza od pisma. Naturalniejsza bo nie musimy się jej uczyć – wiedza o tym jak mówić przychodzi do nas sama, pisanie to coś znacznie trudniejszego. Np. Sokrates całkiem nie doceniał pisma uważając je za coś co psuje sprawność pamięci – całe szczęście jego największy uczeń Platon nie podzielał tego poglądu mistrza i spisał jego filozofię.

W ogóle w starożytnej Grecji czasów Sokratesa nie ceniono przesadnie wynalazku pisma – ówcześni nauczyciele – Sofiści – uczyli retoryki – czyli pięknego mówienia. Jeśli przepowiednia Piotra się ziści to w tym kierunku powinniśmy kształcić przyszłe pokolenia.

Mowa – pomimo tego, że jest naturalniejsza od pisma – pisma nie zastąpi. Nawet w Web 3.0. Dlatego, że scenariusze użycia mowy i pisma są różne.

Mowy używamy do bezpośredniego kontaktu, gdy spodziewamy się natychmiastowej reakcji odbiorcy komunikatu – mowa wymaga pełnego skupienia. W Internecie jest przestrzeń w której mowa sprawdza się nieźle – np w komunikatorach co nie sprawiło jednak, że firmy tworzące komunikatory zrezygnowały z opcji czatu tekstowego. Pismo w sieci wygrywa i będzie wygrywało z mową bo jest mniej wymagające. “Stukanie w szybkę” i klawiaturę (nawet małą) pozwala na to co jest chyba esencją (po)nowoczesnego życia – multitaskingu. Dzięki tekstowemu czatowi w komunikatorach możemy rozmawiać z 10 osobami naraz – spróbujcie czegoś takiego przez telefon! Jednocześnie możemy też czytać maile i blogować bo sami decydujemy kiedy odpisujemy na komunikaty ludzi, z którymi czatujemy. Mamy archiwum dzięki, któremu pamiętamy o czym rozmawialiśmy – wszyscy dobrze wiemy, że to działa.

Podobnie jest z smsami i mailami – piszemy je wtedy gdy nie możemy/nie chcemy dzwonić. Dyktowanie smsa lub maila nie ma sensu z co najmniej dwóch powodów:

  1. Pismo można łatwo redagować – zwłaszcza pismo w postaci cyfrowej. Nie wyobrażam sobie, dyktowania dłuższej wypowiedzi, bo nie potrafię, tak jak Mozart, pisać (myśleć?) bez wprowadzania poprawek. A poprawianie tekstu mówiąc musiałby być wybitnie czasochłonne i niewygodne. No chyba, że wszyscy będziemy mistrzami retoryki :)
  2. Mutlitasking o którym już wyżej wspominałem – piszemy, żeby nie mówić – piszemy smsa pod stołem podczas nudnej konferencji – nie możemy mówić – musimy stukać.

Wiem, że voice recognition sprawdza się w przypadku poczty głosowej – jest taka usługa SpinVox, która jakiś czas temu ekscytował się Guy Kawasaki – SpinVox zmienia nagranie z poczty głosowej na maila lub smsa. To jest to Web 3.0 Piotra? Tylko, że poczta glosowa (przynajmniej w Polsce) nie jest chyba najpopularniejszą formą komunikacji – jest też chyba mało treściwa (”Proszę oddzwoń na numer bla bla bla“)

Jestem ciekawy jakie inne scenariusze użycia interface’u mówionego w Internecie widzi Piotr. Widzicie jakieś zastosowanie?

PS. O tym co się wg mnie wydarzy się w przyszłości będę pisał przy okazji opublikowania wyników naszej ankiety – najprawdopodobniej już jutro :)

Co dalej?

Proszę skometuj ten tekst - jestem ciekawy co o nim myślisz. Możesz też podlinkować swój wpis używając trackbacku: Czas pomyśleć o web 3.0. Piotr uwierzył w głos….