Piotr Wrzosiński stymuluje blogosferę lepiej niż debata na blog.pl. W technicznej blogosferze, odwrotnie niż w politycznej, najburzliwsze dyskusje dotyczą przyszłości.
Piotr pokusił się o zdefinowanie przyszłości Internetu. Piotr wierzy, że rozpoznawanie mowy, jako prosty, mało wymagający interface, zmieni oblicze Internetu. Grzegorz Marczak z Antywebu go wyśmiał. Czy słusznie?
Rozpoznawanie mowy to coś co pewnie śni się po nocach niejednemu inżynierowi z Redmond. Pamiętacie słynną prezentację rozpoznawania mowy w Viście?
Ok ale to, że Microsoft sobie z tym nie radzi nie znaczy, że tego nie da się zrobić. IBM zrobił system rozpoznawania mowy dla Hondy - taki ficzer ma Acura TSX - rozpoznawanie mowy jest w niej połączone z systemem nawigacyjnym - wystarczy powiedzieć adres lub kazać systemowi prowadzić do najbliższej restauracji i system to robi. Wg. Alex’a Iskold’a z Read/Write Web działa to wyśmienicie - system rozpoznaje mowę nawet ludzi z silnym akcentem.
Istnieje więc możliwość zrobienia działającego interface’u w oparciu o ludzką mowę - pozostaje pytanie - czy to prosty interface i czy to faktycznie przyszłość Internetu.
Voice recognition w Acurze działa i jest użyteczny bo dostosowuje się do wymagań użytkownika - kierowca ma zajęte ręce i wzrok skupiony na drodze - głos i słuch są więc odpowiednimi nadawcami i odbiorcami komunikatu. Taki interface nie wymaga zaangażowania zmysłu wzroku i dotyku - czyli kierowca może sprawnie wykonać główne zadanie - prowadzenie auta.
Piotr pisze:
Jeśli więc powstanie interfejs, który pozwoli na pełne korzystanie z Sieci wszędzie, przy pomocy niewielkich urządzeń przenośnych, w naturalny sposób - bez alfabetu, klawiatur, wszystkich skomplikowanych w obsłudze, to będziemy mieli Web 3.0.
Zgadzam się - mowa jest znacznie naturalniejsza od pisma. Naturalniejsza bo nie musimy się jej uczyć - wiedza o tym jak mówić przychodzi do nas sama, pisanie to coś znacznie trudniejszego. Np. Sokrates całkiem nie doceniał pisma uważając je za coś co psuje sprawność pamięci - całe szczęście jego największy uczeń Platon nie podzielał tego poglądu mistrza i spisał jego filozofię.
W ogóle w starożytnej Grecji czasów Sokratesa nie ceniono przesadnie wynalazku pisma - ówcześni nauczyciele - Sofiści - uczyli retoryki - czyli pięknego mówienia. Jeśli przepowiednia Piotra się ziści to w tym kierunku powinniśmy kształcić przyszłe pokolenia.
Mowa - pomimo tego, że jest naturalniejsza od pisma - pisma nie zastąpi. Nawet w Web 3.0. Dlatego, że scenariusze użycia mowy i pisma są różne.
Mowy używamy do bezpośredniego kontaktu, gdy spodziewamy się natychmiastowej reakcji odbiorcy komunikatu - mowa wymaga pełnego skupienia. W Internecie jest przestrzeń w której mowa sprawdza się nieźle - np w komunikatorach co nie sprawiło jednak, że firmy tworzące komunikatory zrezygnowały z opcji czatu tekstowego. Pismo w sieci wygrywa i będzie wygrywało z mową bo jest mniej wymagające. “Stukanie w szybkę” i klawiaturę (nawet małą) pozwala na to co jest chyba esencją (po)nowoczesnego życia - multitaskingu. Dzięki tekstowemu czatowi w komunikatorach możemy rozmawiać z 10 osobami naraz - spróbujcie czegoś takiego przez telefon! Jednocześnie możemy też czytać maile i blogować bo sami decydujemy kiedy odpisujemy na komunikaty ludzi, z którymi czatujemy. Mamy archiwum dzięki, któremu pamiętamy o czym rozmawialiśmy - wszyscy dobrze wiemy, że to działa.
Podobnie jest z smsami i mailami - piszemy je wtedy gdy nie możemy/nie chcemy dzwonić. Dyktowanie smsa lub maila nie ma sensu z co najmniej dwóch powodów:
- Pismo można łatwo redagować - zwłaszcza pismo w postaci cyfrowej. Nie wyobrażam sobie, dyktowania dłuższej wypowiedzi, bo nie potrafię, tak jak Mozart, pisać (myśleć?) bez wprowadzania poprawek. A poprawianie tekstu mówiąc musiałby być wybitnie czasochłonne i niewygodne. No chyba, że wszyscy będziemy mistrzami retoryki :)
- Mutlitasking o którym już wyżej wspominałem - piszemy, żeby nie mówić - piszemy smsa pod stołem podczas nudnej konferencji - nie możemy mówić - musimy stukać.
Wiem, że voice recognition sprawdza się w przypadku poczty głosowej - jest taka usługa SpinVox, która jakiś czas temu ekscytował się Guy Kawasaki - SpinVox zmienia nagranie z poczty głosowej na maila lub smsa. To jest to Web 3.0 Piotra? Tylko, że poczta glosowa (przynajmniej w Polsce) nie jest chyba najpopularniejszą formą komunikacji - jest też chyba mało treściwa (”Proszę oddzwoń na numer bla bla bla“)
Jestem ciekawy jakie inne scenariusze użycia interface’u mówionego w Internecie widzi Piotr. Widzicie jakieś zastosowanie?
PS. O tym co się wg mnie wydarzy się w przyszłości będę pisał przy okazji opublikowania wyników naszej ankiety - najprawdopodobniej już jutro :)



Wg sie pisze bez kropki ;)
- Łukasz Derkacz — 2007-12-14 @ 12:40
W Nokii N95 nie trzeba nagrywać znaków głosowych dla pozycji w książce telefonicznej, a wystarczy powiedzieć np. Jan Kowalski i telefon sprawdza, czy ktoś taki figuruje w książce. Rozpoznawanie mowy to nie tak odległa przyszłość jak by to się wydawało. To, że niektórzy nie radzą sobie z implementacją tego w swoich produktach nie oznacza, że się nie da. :)
- RAFi — 2007-12-14 @ 14:02
o tym, że się da też jest w notce (acura case)
- Kuba Filipowski — 2007-12-14 @ 14:10
Ależ przeczytałem o tym. Odebrałeś mój komentarz niewłaściwie z uprzedzeniami (jak to zwykłeś ostatnio robić) :)
- RAFi — 2007-12-14 @ 14:17
acha
- Kuba Filipowski — 2007-12-14 @ 14:18
@rafi - nawet w noki 6233 jest coś takiego ;)
- mariusz — 2007-12-14 @ 17:01
IBM zrobil VR takze dla Opery. Kiedyś zrobiłem małą prezentację :-)
http://blog.konieczny.be/2006/07/30/opera-i-vista-aplikacje-glosem-sterowane/
- Piotr Konieczny — 2007-12-15 @ 7:03
Rozpędziłeś się trochę z oceną mojego wpisu. Niczego nie wyśmiewałem a pokazałem jedynie do czego prowadzi wymyślanie kolejnych haseł i teorii związanych z przyszłością internetu.
Oczywiście można mówić o przyszłości urządzeń mobilnych i voice recognition ale przecież to są raczej rzeczy oczywiste i wpychanie ich w definicję web 3.0 moim zdaniem ma niewielki sens.
- hazan — 2007-12-16 @ 0:58
łe, Mariusz, nie wiedziałem. :D
- RAFi — 2007-12-16 @ 14:56
hazan: ok, ale trochę szyderczo zachichotałeś - przyznaj
- Kuba Filipowski — 2007-12-16 @ 21:34
co do tej acury czyli hondy po amerykańsku to w angielskich hondach tez jest to zastosowane i dupnie dziła
nawet w s klasie coś takiego jest i też podobno nie działa ( przynajmniej według top gear)
opera ma coś takiego ale bardziej podobne to jest do zasady na jakiej psy rozpoznają mowe ludzką czyli intonacja
proponuje sprawdzić komęde reload mówiną normalnie i grubym głosem, a potem tej sam test tylko poproś dziewczyne zeby wydała polecenie
co do telefonów to przynajmniej w motoroli (v3i ) średnio działa :|
druga sprawa czy to potrzebne?
przed chwila dzwoniłem do stoenu i rozmawiając z konsultantka wybierałem na stronie internetowej taryfe, gdybym przegladarkę musial głosem obsługiwać to ..
- MIKolas — 2007-12-18 @ 16:27