« Previous | Next »
Czas pomyśleć o web 3.0. Piotr uwierzył w głos…
Published on 14/12/07
by Kuba Filipowski
Piotr Wrzosiński stymuluje blogosferę lepiej niż debata na blog.pl. W technicznej blogosferze, odwrotnie niż w politycznej, najburzliwsze dyskusje dotyczą przyszłości.
Piotr pokusił się o zdefinowanie przyszłości Internetu. Piotr wierzy, że rozpoznawanie mowy, jako prosty, mało wymagający interface, zmieni oblicze Internetu. Grzegorz Marczak z Antywebu go wyśmiał. Czy słusznie?
Rozpoznawanie mowy to coś co pewnie śni się po nocach niejednemu inżynierowi z Redmond. Pamiętacie słynną prezentację rozpoznawania mowy w Viście?
Ok ale to, że Microsoft sobie z tym nie radzi nie znaczy, że tego nie da się zrobić. IBM zrobił system rozpoznawania mowy dla Hondy – taki ficzer ma Acura TSX – rozpoznawanie mowy jest w niej połączone z systemem nawigacyjnym – wystarczy powiedzieć adres lub kazać systemowi prowadzić do najbliższej restauracji i system to robi. Wg. Alex’a Iskold’a z Read/Write Web działa to wyśmienicie – system rozpoznaje mowę nawet ludzi z silnym akcentem.
Istnieje więc możliwość zrobienia działającego interface’u w oparciu o ludzką mowę – pozostaje pytanie – czy to prosty interface i czy to faktycznie przyszłość Internetu.
Voice recognition w Acurze działa i jest użyteczny bo dostosowuje się do wymagań użytkownika – kierowca ma zajęte ręce i wzrok skupiony na drodze – głos i słuch są więc odpowiednimi nadawcami i odbiorcami komunikatu. Taki interface nie wymaga zaangażowania zmysłu wzroku i dotyku – czyli kierowca może sprawnie wykonać główne zadanie – prowadzenie auta.
Piotr pisze:
Jeśli więc powstanie interfejs, który pozwoli na pełne korzystanie z Sieci wszędzie, przy pomocy niewielkich urządzeń przenośnych, w naturalny sposób – bez alfabetu, klawiatur, wszystkich skomplikowanych w obsłudze, to będziemy mieli Web 3.0.
Zgadzam się – mowa jest znacznie naturalniejsza od pisma. Naturalniejsza bo nie musimy się jej uczyć – wiedza o tym jak mówić przychodzi do nas sama, pisanie to coś znacznie trudniejszego. Np. Sokrates całkiem nie doceniał pisma uważając je za coś co psuje sprawność pamięci – całe szczęście jego największy uczeń Platon nie podzielał tego poglądu mistrza i spisał jego filozofię.
W ogóle w starożytnej Grecji czasów Sokratesa nie ceniono przesadnie wynalazku pisma – ówcześni nauczyciele – Sofiści – uczyli retoryki – czyli pięknego mówienia. Jeśli przepowiednia Piotra się ziści to w tym kierunku powinniśmy kształcić przyszłe pokolenia.
Mowa – pomimo tego, że jest naturalniejsza od pisma – pisma nie zastąpi. Nawet w Web 3.0. Dlatego, że scenariusze użycia mowy i pisma są różne.
Mowy używamy do bezpośredniego kontaktu, gdy spodziewamy się natychmiastowej reakcji odbiorcy komunikatu – mowa wymaga pełnego skupienia. W Internecie jest przestrzeń w której mowa sprawdza się nieźle – np w komunikatorach co nie sprawiło jednak, że firmy tworzące komunikatory zrezygnowały z opcji czatu tekstowego. Pismo w sieci wygrywa i będzie wygrywało z mową bo jest mniej wymagające. “Stukanie w szybkę” i klawiaturę (nawet małą) pozwala na to co jest chyba esencją (po)nowoczesnego życia – multitaskingu. Dzięki tekstowemu czatowi w komunikatorach możemy rozmawiać z 10 osobami naraz – spróbujcie czegoś takiego przez telefon! Jednocześnie możemy też czytać maile i blogować bo sami decydujemy kiedy odpisujemy na komunikaty ludzi, z którymi czatujemy. Mamy archiwum dzięki, któremu pamiętamy o czym rozmawialiśmy – wszyscy dobrze wiemy, że to działa.
Podobnie jest z smsami i mailami – piszemy je wtedy gdy nie możemy/nie chcemy dzwonić. Dyktowanie smsa lub maila nie ma sensu z co najmniej dwóch powodów:
- Pismo można łatwo redagować – zwłaszcza pismo w postaci cyfrowej. Nie wyobrażam sobie, dyktowania dłuższej wypowiedzi, bo nie potrafię, tak jak Mozart, pisać (myśleć?) bez wprowadzania poprawek. A poprawianie tekstu mówiąc musiałby być wybitnie czasochłonne i niewygodne. No chyba, że wszyscy będziemy mistrzami retoryki :)
- Mutlitasking o którym już wyżej wspominałem – piszemy, żeby nie mówić – piszemy smsa pod stołem podczas nudnej konferencji – nie możemy mówić – musimy stukać.
Wiem, że voice recognition sprawdza się w przypadku poczty głosowej – jest taka usługa SpinVox, która jakiś czas temu ekscytował się Guy Kawasaki – SpinVox zmienia nagranie z poczty głosowej na maila lub smsa. To jest to Web 3.0 Piotra? Tylko, że poczta glosowa (przynajmniej w Polsce) nie jest chyba najpopularniejszą formą komunikacji – jest też chyba mało treściwa (”Proszę oddzwoń na numer bla bla bla“)
Jestem ciekawy jakie inne scenariusze użycia interface’u mówionego w Internecie widzi Piotr. Widzicie jakieś zastosowanie?
PS. O tym co się wg mnie wydarzy się w przyszłości będę pisał przy okazji opublikowania wyników naszej ankiety – najprawdopodobniej już jutro :)
Co dalej?
Proszę skometuj ten tekst - jestem ciekawy co o nim myślisz. Możesz też podlinkować swój wpis używając trackbacku: Czas pomyśleć o web 3.0. Piotr uwierzył w głos….

Komentarze dotyczące wpisu "Czas pomyśleć o web 3.0. Piotr uwierzył w głos…"
komentarze (11)
Łukasz Derkacz
14/12/07
Wg sie pisze bez kropki ;)
RAFi
14/12/07
W Nokii N95 nie trzeba nagrywać znaków głosowych dla pozycji w książce telefonicznej, a wystarczy powiedzieć np. Jan Kowalski i telefon sprawdza, czy ktoś taki figuruje w książce. Rozpoznawanie mowy to nie tak odległa przyszłość jak by to się wydawało. To, że niektórzy nie radzą sobie z implementacją tego w swoich produktach nie oznacza, że się nie da. :)
Kuba Filipowski
14/12/07
o tym, że się da też jest w notce (acura case)
RAFi
14/12/07
Ależ przeczytałem o tym. Odebrałeś mój komentarz niewłaściwie z uprzedzeniami (jak to zwykłeś ostatnio robić) :)
Kuba Filipowski
14/12/07
acha
mariusz
14/12/07
@rafi – nawet w noki 6233 jest coś takiego ;)
Piotr Konieczny
15/12/07
IBM zrobil VR takze dla Opery. Kiedyś zrobiłem małą prezentację :-)
http://blog.konieczny.be/2006/07/30/opera-i-vista-aplikacje-glosem-sterowane/
hazan
16/12/07
Rozpędziłeś się trochę z oceną mojego wpisu. Niczego nie wyśmiewałem a pokazałem jedynie do czego prowadzi wymyślanie kolejnych haseł i teorii związanych z przyszłością internetu.
Oczywiście można mówić o przyszłości urządzeń mobilnych i voice recognition ale przecież to są raczej rzeczy oczywiste i wpychanie ich w definicję web 3.0 moim zdaniem ma niewielki sens.
RAFi
16/12/07
łe, Mariusz, nie wiedziałem. :D
Kuba Filipowski
16/12/07
hazan: ok, ale trochę szyderczo zachichotałeś – przyznaj
MIKolas
18/12/07
co do tej acury czyli hondy po amerykańsku to w angielskich hondach tez jest to zastosowane i dupnie dziła
nawet w s klasie coś takiego jest i też podobno nie działa ( przynajmniej według top gear)
opera ma coś takiego ale bardziej podobne to jest do zasady na jakiej psy rozpoznają mowe ludzką czyli intonacja
proponuje sprawdzić komęde reload mówiną normalnie i grubym głosem, a potem tej sam test tylko poproś dziewczyne zeby wydała polecenie
co do telefonów to przynajmniej w motoroli (v3i ) średnio działa :|
druga sprawa czy to potrzebne?
przed chwila dzwoniłem do stoenu i rozmawiając z konsultantka wybierałem na stronie internetowej taryfe, gdybym przegladarkę musial głosem obsługiwać to ..
Zostaw komentarz