Autor: Kuba Filipowski
Tagi: , , , — @ 10:56 2007-12-14

Piotr Wrzosiński stymuluje blogosferę lepiej niż debata na blog.pl. W technicznej blogosferze, odwrotnie niż w politycznej, najburzliwsze dyskusje dotyczą przyszłości.

Piotr pokusił się o zdefinowanie przyszłości Internetu. Piotr wierzy, że rozpoznawanie mowy, jako prosty, mało wymagający interface, zmieni oblicze Internetu. Grzegorz Marczak z Antywebu go wyśmiał. Czy słusznie?

Rozpoznawanie mowy to coś co pewnie śni się po nocach niejednemu inżynierowi z Redmond. Pamiętacie słynną prezentację rozpoznawania mowy w Viście?

Ok ale to, że Microsoft sobie z tym nie radzi nie znaczy, że tego nie da się zrobić. IBM zrobił system rozpoznawania mowy dla Hondy - taki ficzer ma Acura TSX - rozpoznawanie mowy jest w niej połączone z systemem nawigacyjnym - wystarczy powiedzieć adres lub kazać systemowi prowadzić do najbliższej restauracji i system to robi. Wg. Alex’a Iskold’a z Read/Write Web działa to wyśmienicie - system rozpoznaje mowę nawet ludzi z silnym akcentem.

Istnieje więc możliwość zrobienia działającego interface’u w oparciu o ludzką mowę - pozostaje pytanie - czy to prosty interface i czy to faktycznie przyszłość Internetu.

Voice recognition w Acurze działa i jest użyteczny bo dostosowuje się do wymagań użytkownika - kierowca ma zajęte ręce i wzrok skupiony na drodze - głos i słuch są więc odpowiednimi nadawcami i odbiorcami komunikatu. Taki interface nie wymaga zaangażowania zmysłu wzroku i dotyku - czyli kierowca może sprawnie wykonać główne zadanie - prowadzenie auta.

Piotr pisze:

Jeśli więc powstanie interfejs, który pozwoli na pełne korzystanie z Sieci wszędzie, przy pomocy niewielkich urządzeń przenośnych, w naturalny sposób - bez alfabetu, klawiatur, wszystkich skomplikowanych w obsłudze, to będziemy mieli Web 3.0.

Zgadzam się - mowa jest znacznie naturalniejsza od pisma. Naturalniejsza bo nie musimy się jej uczyć - wiedza o tym jak mówić przychodzi do nas sama, pisanie to coś znacznie trudniejszego. Np. Sokrates całkiem nie doceniał pisma uważając je za coś co psuje sprawność pamięci - całe szczęście jego największy uczeń Platon nie podzielał tego poglądu mistrza i spisał jego filozofię.

W ogóle w starożytnej Grecji czasów Sokratesa nie ceniono przesadnie wynalazku pisma - ówcześni nauczyciele - Sofiści - uczyli retoryki - czyli pięknego mówienia. Jeśli przepowiednia Piotra się ziści to w tym kierunku powinniśmy kształcić przyszłe pokolenia.

Mowa - pomimo tego, że jest naturalniejsza od pisma - pisma nie zastąpi. Nawet w Web 3.0. Dlatego, że scenariusze użycia mowy i pisma są różne.

Mowy używamy do bezpośredniego kontaktu, gdy spodziewamy się natychmiastowej reakcji odbiorcy komunikatu - mowa wymaga pełnego skupienia. W Internecie jest przestrzeń w której mowa sprawdza się nieźle - np w komunikatorach co nie sprawiło jednak, że firmy tworzące komunikatory zrezygnowały z opcji czatu tekstowego. Pismo w sieci wygrywa i będzie wygrywało z mową bo jest mniej wymagające. “Stukanie w szybkę” i klawiaturę (nawet małą) pozwala na to co jest chyba esencją (po)nowoczesnego życia - multitaskingu. Dzięki tekstowemu czatowi w komunikatorach możemy rozmawiać z 10 osobami naraz - spróbujcie czegoś takiego przez telefon! Jednocześnie możemy też czytać maile i blogować bo sami decydujemy kiedy odpisujemy na komunikaty ludzi, z którymi czatujemy. Mamy archiwum dzięki, któremu pamiętamy o czym rozmawialiśmy - wszyscy dobrze wiemy, że to działa.

Podobnie jest z smsami i mailami - piszemy je wtedy gdy nie możemy/nie chcemy dzwonić. Dyktowanie smsa lub maila nie ma sensu z co najmniej dwóch powodów:

  1. Pismo można łatwo redagować - zwłaszcza pismo w postaci cyfrowej. Nie wyobrażam sobie, dyktowania dłuższej wypowiedzi, bo nie potrafię, tak jak Mozart, pisać (myśleć?) bez wprowadzania poprawek. A poprawianie tekstu mówiąc musiałby być wybitnie czasochłonne i niewygodne. No chyba, że wszyscy będziemy mistrzami retoryki :)
  2. Mutlitasking o którym już wyżej wspominałem - piszemy, żeby nie mówić - piszemy smsa pod stołem podczas nudnej konferencji - nie możemy mówić - musimy stukać.

Wiem, że voice recognition sprawdza się w przypadku poczty głosowej - jest taka usługa SpinVox, która jakiś czas temu ekscytował się Guy Kawasaki - SpinVox zmienia nagranie z poczty głosowej na maila lub smsa. To jest to Web 3.0 Piotra? Tylko, że poczta glosowa (przynajmniej w Polsce) nie jest chyba najpopularniejszą formą komunikacji - jest też chyba mało treściwa (”Proszę oddzwoń na numer bla bla bla“)

Jestem ciekawy jakie inne scenariusze użycia interface’u mówionego w Internecie widzi Piotr. Widzicie jakieś zastosowanie?

PS. O tym co się wg mnie wydarzy się w przyszłości będę pisał przy okazji opublikowania wyników naszej ankiety - najprawdopodobniej już jutro :)

Chcesz być na bieżąco? Dodaj yashke.com do swoich RRSów
dodaj do flakera

Komentarze (11)

  1. Wg sie pisze bez kropki ;)

    - Łukasz Derkacz — 2007-12-14 @ 12:40

  2. W Nokii N95 nie trzeba nagrywać znaków głosowych dla pozycji w książce telefonicznej, a wystarczy powiedzieć np. Jan Kowalski i telefon sprawdza, czy ktoś taki figuruje w książce. Rozpoznawanie mowy to nie tak odległa przyszłość jak by to się wydawało. To, że niektórzy nie radzą sobie z implementacją tego w swoich produktach nie oznacza, że się nie da. :)

    - RAFi — 2007-12-14 @ 14:02

  3. o tym, że się da też jest w notce (acura case)

    - Kuba Filipowski — 2007-12-14 @ 14:10

  4. Ależ przeczytałem o tym. Odebrałeś mój komentarz niewłaściwie z uprzedzeniami (jak to zwykłeś ostatnio robić) :)

    - RAFi — 2007-12-14 @ 14:17

  5. acha

    - Kuba Filipowski — 2007-12-14 @ 14:18

  6. @rafi - nawet w noki 6233 jest coś takiego ;)

    - mariusz — 2007-12-14 @ 17:01

  7. IBM zrobil VR takze dla Opery. Kiedyś zrobiłem małą prezentację :-)

    http://blog.konieczny.be/2006/07/30/opera-i-vista-aplikacje-glosem-sterowane/

    - Piotr Konieczny — 2007-12-15 @ 7:03

  8. Rozpędziłeś się trochę z oceną mojego wpisu. Niczego nie wyśmiewałem a pokazałem jedynie do czego prowadzi wymyślanie kolejnych haseł i teorii związanych z przyszłością internetu.

    Oczywiście można mówić o przyszłości urządzeń mobilnych i voice recognition ale przecież to są raczej rzeczy oczywiste i wpychanie ich w definicję web 3.0 moim zdaniem ma niewielki sens.

    - hazan — 2007-12-16 @ 0:58

  9. łe, Mariusz, nie wiedziałem. :D

    - RAFi — 2007-12-16 @ 14:56

  10. hazan: ok, ale trochę szyderczo zachichotałeś - przyznaj

    - Kuba Filipowski — 2007-12-16 @ 21:34

  11. co do tej acury czyli hondy po amerykańsku to w angielskich hondach tez jest to zastosowane i dupnie dziła
    nawet w s klasie coś takiego jest i też podobno nie działa ( przynajmniej według top gear)
    opera ma coś takiego ale bardziej podobne to jest do zasady na jakiej psy rozpoznają mowe ludzką czyli intonacja
    proponuje sprawdzić komęde reload mówiną normalnie i grubym głosem, a potem tej sam test tylko poproś dziewczyne zeby wydała polecenie
    co do telefonów to przynajmniej w motoroli (v3i ) średnio działa :|

    druga sprawa czy to potrzebne?
    przed chwila dzwoniłem do stoenu i rozmawiając z konsultantka wybierałem na stronie internetowej taryfe, gdybym przegladarkę musial głosem obsługiwać to ..

    - MIKolas — 2007-12-18 @ 16:27

rss komentarzy

Dodaj komentarz





Trackback


yashke.com

to blog o Internecie. Poczytasz tu o tym co ciekawego i nowego dzieje się w kraju (w tym plotki i przecieki ;)) i zagranicą.
Znajdziesz tu też fajne oferty pracy dla ludzi z branży IT.

Bloga tworzy i prowadzi firma Netguru

LINKUJMY! - akcja hipertextowa
Spotkasz nas na Barcamp Poznań