自這本書【Google衝擊】,簡單做個小小的整理與心得,相信看完這篇,也許你會有跟我一樣的想法
Google 是第二個邪惡的微軟帝國
在這本書談的主題,算單的可以分成下面幾個項目
一、技術
演算法與蜘蛛程式:
google 如何知道使用者下的關鍵字與資料間的關係為何?google最核心的價值技術為他們的演算法,透過一連串的演算法,在眾多資料中去比對哪些網頁是最被多人點選與使用的,並且排序出來。另一個問題演伸出來即是,google又如何得到網頁資料? 在於一種稱之為 “蜘蛛程式”的軟體技術,它會去爬曾經搜尋過的資料,並且定期的去看這些資料更新的狀況加以回報,同時回報的資料再透過演算法去重新的計算網頁的使用價值,越多人點、用,即是被認為越有價值,這就是google演算法基本的想法。
但這種演算法也不是沒有問題,如果真的那麼好就大家都用了不是嗎? 差的只是彼此的功力強與弱。演算法再強,還是得要有所謂的「經驗資料」也就正使用者輸入關鍵字並且進行網頁的點選,再透過蜘蛛程式重複的爬那些點選過的網頁,將資料回給電腦再透過演算法去計算,這一些透過使用者所累積的 “經驗” 卻是如微軟、YAHOO所沒有的(這一點下一大點 “機運” 會特別的談)。
而演算法的基本精神是 「不透過人為喜好來為網站排序,完全是透過電腦與計算方式來算出最有價值(或最多人使用)的網頁」這是GOOGLE早期一以維持的精神,但也不是不被挑戰,如被特定的人士運用,成為某些廣告商或是有特定敵意的單位組織(如反猶太人相關的網站),在一些關鍵字搜尋反而「將計就計」運用GOOGLE演算法計算後,成為某些搜尋下站在最明顯的網路位置,也因為如此GOOGLE就不得不進去人為的干涉與處理,這一點也是有違了最初演算法的精神。
開放與封閉:
也因為蜘蛛程式與演算法,產生了第一個隱私權與開放封閉的問題。網站設計可以阻檔蜘蛛程式的入侵,而GOOGLE當時就極力的倡導網站資料因該開放使用而非封閉,但這也無形中給了FACEBOOK切入市場的機會。然而,在此同時,儘管開放網路模式得到了全面性的勝利,FACEBOOK卻展現了經營良好的封閉網路模鋨。2007年,它成為美國第二大社交網絡網站,在同年十月分已經擁有四千兩百萬會員,僅次於2006年造成轟動、擁有超過一億名有效會員的MYSPACE。當FACEBOOK會員上線時,他們內部的線上通訊與活動與外界隔離的,當然多會員上線至FACEBOOK,表示他們會花更多時間不在被GOOGLE的搜尋蜘蛛接觸到,舒適且封閉的會員專區中,也減緩GOOGLE在開放蒐集可搜尋資料的速度。(P51~P52)
但這一點卻有些矛盾與不解的地方。使用個人BLOG無非是希望與世界接觸,但又不希望被 “接觸太多”,以FACEBOOK來說,這封閉的空間營運十分的良好,不論是FACEBOOK或是MYSPACE這類社群網站的市佔,已不是GOOGLE後來可居上的。為何封閉的空間成反其道而行? 我個人認為有兩點:
第一是站在使用者立場,一來希望自己與世界接觸,但又不希望被所謂的蜘蛛程式給利用,因為使用BLOG是一種與他人互動過程中達到滿足而持續使用的空間,透過點擊率,即使沒有與他人在文本上的對談,從點擊率仍可以滿足部分使用blog的滿足與目的。 其二是站在經營者的角度,每一個網站最大的資產在於使用者的資料,不論是有效會員數或是會員生產的文本(照片、小說、散文、音樂、影片…etc),也不希望這些資料輕易的透過第三者,即那些不是直接利益衝突的對手(如facebook與myspace則是)所運用。
基於上述二點,所以當google挑戰這些封閉網路空間時,往往要求每一單位都應開放空間讓資料流通,自己行動上卻是封閉的思維與作法,使得google無法在封閉的社群網路上取得一切入的空間。
二、機運
IBM 因為太過看輕了個人電腦的市場而拱手將未來的機會讓給了他人;YAHOO與微軟是否也會因同樣的錯犯將未來讓給了GOOGLE? 最初GOOGLE曾經是YAHOO的搜尋的外包商,尚他們合作的方式是,將一些在YAHOO所沒有的搜尋資料轉給GOOGLE所去作搜尋,當時網路才剛興起,整個網頁索引量也不多,當時YAHOO對於網頁世界的想像如同傳統編輯的思維,也就是說,以 「美食」為主題,透過人力去編輯出有用的資訊、網頁,而使用者再經由搜尋被編輯過的資料來找出有用的資訊,但如果超出了YAHOO所編輯或是處理的額外資料,當時YAHOO將這部分的 “業務” 轉交給GOOGLE去處理。
對於當時的YAHOO來說,他們不重視這方面的 “經驗資料”。(註:由使用者下的關鍵字等相關人為意識行動的資料) 當時YAHOO外危的資料搜尋也會定期的換,當時所有網路業者都不認為這方面的資料有什麼值錢的地方,但GOOGLE卻有極遠的眼光,願意去做這方面的業務,並且透過他們自己發明的演算法、蜘蛛程式來加以整理出更多使用者經驗資料,光是這一招,多年的累積足以讓GOOGLE日後成長最大的關鍵。
現在我們認為再普通不過一事實,如使用者經驗資料這麼重要的東西,為何當時的YAHOO不重視? YAHOO接受了當時常見的看法,認為網路搜尋服務只是入口網站風潮中一個不重要的元件,三分之二的雅虎訪客是為了其他的功能或服務而來。(P96)也就是說,網路的興起與情況是當時無法去預料其成長的數量有多快,維護YAOO網站目錄的四十人編團隊主管思琳妮雅表示,即使投入「無限的資源」,自己和團隊的新編還是無法趕上網路的成長的速度,其實在YAHOO早期,他們早已經不再使用這重方式作業,而決定只處理他們所選出「網路上最好的網站」。當然,在快速擴張資料來源中,如何能確認他們選出的網站是最好的,一直是個麻煩的問題。(P98)。
也就是說,網路的成長有多方面的考量是當時社會人無法想像的,當時佩吉、布林的 “童心壯志”反倒成為日後成功最大的契機,他們當時就有個宏圖大志,要將全世界網頁資料全部整合、整理在一起,在當時網路剛興起時或許還有一點人會相信這種事是做得到的,若以現在每一個人一聽到成立一間公司要把全世界的網頁整理在一起絕對會引來一陣嘲笑,但就十多年前也或許是件天方夜談,這就基於幾個簡單的事實來判斷,其一是硬體須要多少的投資,昇級、維護? 這一點或許是這兩位年青人想都沒想過、又或許他們想過而想要突破、又或許是他們估計錯誤,反正一腳都已經踏進去就回不了頭了,不論如何,他們當時的童心壯志是現今GOOGLE成功最大的一步,也是最成功的一步。
另外一個事實的判斷,沒有人會想到將來的網路會發展到什麼程度,就當時網路剛開始步入民間開始時,網路也許是一個迷人的行業,但要多久才能累積到 “獲利” 階段沒人敢說從事網路是件好生意,自從網路泡沫化後更是如此,而他們除了自身的眼光外,同時也得到貴人的相助,得到了投資的資金讓GOOGLE在早期累積許多經驗資料以及不斷的燒錢階段,還能持續的經驗下去。
一間公司的成功不是光靠自己努力就能達到,須要在充滿許多機會環境下之前,不斷的累積能量,最後在眾多機運累積下才能 “浮現”出來,從GOOGLE試圖成立GOOGLE EARTH、併購Youtube、或是試圖建立起gmail等相關服務可以很清楚的了解,經常的時侯,一項服務、產品、技術,即便是十分優秀或是有前景,在當時的文化與社會氣氛不被接受前,若沒能撐至到機會來到時,是無法出頭天的,以GMAIL為例,當初GMAIL會成為GOOGLE重要的服務之一(僅管目前跟YOUTUBE一樣常未有一有效的獲利模式),是處於一種社會文化的機會下那就是 “至少某一部分的人,對於郵件整理、搜尋十分的煩腦”,而google當時並未採取燥進的方式進行這服務的推廣,還記得當初gmail帳號還要 「邀請信」才能申請帳號嗎? 此時的階段是他們測試的階段,當時google並不想與yahoo、微軟正面的競爭,擔心會觸動到這些競爭對手(特別是微軟)強大的打擊,當時微軟hotmail已經是全球市佔最大的郵件服務。
盡管如此,在網路開始普及之前,人人對於email的需求也是漸漸的增加,最主要的是容量空間的問題,而google的切入點就是提供1G的容量,讓大多數的人一輩子似乎都不用再刪除不要的郵件,而早期GMAIL剛推出時甚至還沒有 「 delete」鍵,目的很明顯,但是要試著回到三、四年前,我們能想像每個人都有1g的郵件空間,在當時微軟提供的hotmail僅停留在數MB時,這除了GOOGLE的眼光夠遠、夠大外,同時也得拜當時社會環境與文化需求,人們漸漸的開始須要更大的容量來應付郵件存放,如果GOOGLE野心不夠大、不夠遠,就無法提前先在人事、軟體體上佈局,以及最重要的他們對於「演算法」運用在郵件上的使用。這中間還有另一個外在的因素乃是「雲端系統」這概念漸漸的浮現台面,所有的軟體不須安裝在自己電腦中,僅靠遠處的電腦幫你處理,甚至連檔案都不用存在自己電腦裡,當網路文化開始「接受、需要」這種服務時,gmail才有其發展的機會。
三、智慧財產權的問題
登月計畫:
Google的登月計畫,就是希望將全世界每一本書加以數位化並且建立索引,預計將全世界三千三百多萬書一本也不漏數位化,現在聽起來似乎是一件蠢事,但回想十年前有兩位小子的「童心壯志」如今成了微軟最大的競爭對手這一結果來看,我們再也不能小看這種計畫與野心,聽起來很好,但是做起來卻讓每個人對於google金字招牌 「Don’t be Evil」(諸惡莫作)打上了一個很大的問號。
簡單說是這樣子:google希望透過財力與技術配合政府進行數位化典藏計畫,因為這一計畫須要大量的資金、人力、技術與時間,光是靠政府是無法達到,於是google很好心的在這方面傾囊相助,但有個但書就是,所有數位化的資料google要有一份,而可以提供大家透過google搜尋來找書本裡的計畫。很好心呀,但是,對於作者、出版商的著作權怎麼辦? Google目前的作法是,反正我有對於使用者有所限制,但我手上已經有數位化後的書本,我會 “嚴格” 管制,反正你們這些出版商、作者相信我就是了,我不會把這些數位內容拿來賺錢啦、還是透過關鍵字作廣告啦blabla…。(你還真好心呀,google)
你水管(Youtube):
其實說穿了,YouTube幾位創辦人也沒有什麼了不起的,我這麼說不是我說他們能 “夯” 沒有什了不起,或是他們的點子沒什麼了不起,我不是這麼夜郎自大這麼說,而是以當時同樣想到一樣服務與技術的創業公司來說,你水管(Youtube)的作法,實在不怎麼光明磊落與正派就是了,在瞬息萬變的世界裡遵守規則與循規蹈矩的人註定失敗。當時同樣一樣概念與服務的另一個競爭對手Revver(看到這裡先停一下,請先想想,你聽過這家公司嗎? 沒有對吧?),他們就正派多了,還派人專門檢查上傳的影片有無暴力色情與犯法之內容,因為他們小心行事,得到的回報就是 “大家沒聽過他們” ,什麼都不理的你水管,成長速度可用光年來計算。(當其他對手還是剛超過 馬赫 速在那裡高興的時侯,你水管就已經用光年來計算自己的成長速度)。
—————–
2009,06,10
註:我使用光年與馬赫的用意在於,若把光年反換算為速度的話,如此與馬赫這速度單位,一比之下則反差極大之意,當然,這麼轉用不是常用的比喻方式(當初打這篇時人在上班,想說晚點回家換算後再補上來,就一直沒空補Orz…,我不是不知道光年是距離單位,如果有更適合形容的方式,希望大家給我點意見)
音速1小時可走 1200 公里
光年1分鐘可走 18M 公里
這樣子相差十分大的單位用於現今形你水管影片成長的量,跟五、六年前同樣是生產影片服務的如Google Video或是上所提到的Revver所成長的量似乎還是稍誇張了點,用於形容google 網頁檢索成長量或許還比較適合。
———————–
這裡要先談一下數位千禧著作權法,裡頭談到有關這一點的爭議作法是,該法案並未要求它限制用戶上傳侵權的視訊,而只要著作權人舉發著作侵權事件時予以移除即可(P240)。這條法案兩面刃手法對你,對我都有好壞,好的事你不用擔心當你上傳、分享可能犯法的內容第一時間被告,壞的事當你自拍的電影、自創的小說,當有經濟價值時,你還得自己兼負”警察”的角色確保自己的著作不被盜版所侵害。也因為這法案當時在美國通過有點像是”偷渡”的方式來過關,為什麼這麼說? 在1998年立法通過時,正巧柯林頓與陸文司機的醜聞案壓過了所有新聞版面,以致於這法案就神不知鬼不覺的過關,有興趣的可以參考《數位海盜的正義》這本P129-P142。
也就是說,當你水管2004年草創時期,正巧的在這數位千禧著作權法的保護傘下,簡直就是強盜拿著上方寶劍行土匪犯罪之實,(在這裡不多說這法案的一些問題,有興趣的去找那本書來看),在你水管匯集了大量侵權的視訊與電影,Google回應那些指控的作者、出版商就是拿著那把上方寶劍回應:著作權擁有人得負起監控之責,他們唯的責任就是回應著作權人的要求將這些影片拿下(p241)。好樣的Google,這種話你們也說的出來,相信任一看倌看到這裡都不覺得Google用這說法能說的過去,當初著作權法催生的其中一個理由就是基於作著權人無法為自己所創作的財產加以控管才有所謂的的機構與法徑,如今Google用這種說法實在無法說服大多數的人。
當然,我們也會希望Google盡點社會道德,不要這麼被動的面對這問題。不少人認為,Google應該有能力改善這種問題,畢竟他們都有能力將網資訊整理的這麼有條有序(的賺錢?)。沒錯,Google正在想辦法將你水管轉化為可獲利的營運模式,這一點他們還努力的在作,一開始的作法是想辦法透過一些影片的隱形文字(這一點我不大能說清楚,可能要大家看書才會知道),發現這樣子不但不行同時也進展緩慢,而現在他們的想法,是希望盡可能的透過演算法來得知影片的內容,如此一來,他們就可以安插廣告在適當的時侯與地點。 “就是因為Google現在盡可能的作到這點” ,同時也宣佈了他們正在作,所以這些著作權人才能理所當然的要求Google作到為有版權的影片進行過濾與處理,但目前看到的狀況是,說是一套做是另一套,哪天Google真的能透過演算法來分類影片的 “內容” 時,是否還會盡到他們道德與法律上的義務與責任? 我看十分的困難。
撇開了這些紛爭,你水管背後成功的機運又是什麼? 這一點又跟上面談到的機運是一樣的東西。有興趣的可以看看這本書《異數》裡頭有一部分在談機運這玩意,如果你水管早個幾年,就絕對不會成功,Facebook也是一樣。如果數位千禧法沒有通過,或是晚上幾年通過,或是受到媒體注意強力報導,而讓更多人注意到你水管數位版權的問題,你水管還會成功嗎? 嚴格說起來他們還不算成功,被告到一屁股債,而Google先出手買下了他,也因為你水管的發展與Google手段,讓大家有種感覺是 “啊? 你要跟我談法律問題,在還沒有人鬧自殺還是自焚前,我們先想想怎麼賺錢而不至於滾蛋”。
後記:我對google的猜測
Google下一步野心:任何一張照片都不放過
對於影片的內容,相信不消十年Google的發展應該有能力透過演算法來解讀影片的內容。現在網頁的資料,只要是文字形式,都還能透過演算法的方式來計算處理。
圖片現在可以了,不是什麼特別的技術或概念,至少現在如此。 現在google仍是透過對於網頁的分析,如果網頁裡有圖,同時這一頁裡頭能被蜘蛛程式爬過並且傳至主機透過演算法來計算,就能判定這網頁有無 “關鍵字” 的圖。如,你想找 林志玲 的照片,只要一個網頁裡頭有林志玲,同時這頁也有 “林志玲” 這三個字,google就能透過演算法與蜘蛛程式找給你。 相信不久的將來,google能透過照片裡頭的 EXIF 資訊,將你要的照片找出來。 目前EXIF的東西還不是什麼對一般人來說很有用的東西,裡頭大多還是記錄拍照的資訊與內容,下一步GOOGLE能為你做到的是:你想要透過 CANON 某牌的相機拍出的照片,同時限定光圈、快門在什麼條件下(這些EXIF通通有記),GOOGLE就可以找給你,而技術上我現在也能說給你聽,真的不難,如果你會寫程式的話你自己也會寫。
『只要google把任何一張照片、圖片,先扔到後台把EXIF資訊讀出來,符合條件的照片排序,再透過演算法扔至使用者眼前就好了』
看,有沒有這麼簡單。 不過這一資料處理量仍大過對於目前的網頁純文字的處理,我相信目前Google絕對已經在 “封測” 了。現在的報社或相關單位已經在著手作類似的事情,把一些照片裡加上 “註解”,也就是說,不是透過傳統的老方法,在照片旁邊加入一些圖說(而這些圖說能透過傳統的搜尋方式處理這些 易被處理的文字單位),就是將一些資訊寫進EXIF。如一張某年某月某日的一張馬總統的照片,把人事時地物,不是透過圖說的方式對照片說明,就是寫進EXIF資訊裡頭,而目前EXIF仍未做到可供使用者自由的編輯,相信日後製作數位相機的廠商,會將這功能給加進去,搞不好背後的推手還是GOOGLE出錢。(如此一來,每張照片都有可被處理演算的資料,對GOOGLE絕是百利無一害,當然,還有更多偽造的可能,但又如何? 演算法可以盡可能的處理到最好)
另一種想像是就,結合GPS的服務。現在已經可以作到了,如照片裡頭的EXIF就有GPS的經、緯、高度等資訊。不過這一點會用的是少數中的少數,要額外的配合GPS 軟硬體來使用,十分的不方便。也就是說,如果你想要找一張 “特定位置經緯度” 的照片,一樣可以透過GOOGLE來找,但這要有兩項技術先普及,一是上面提到,對於EXIF資訊的處理,另一個就是數位相機大廠,願不願將GPS晶片作進去。
一張照片都不放過,影片我也能:
現在唯一想到的可能,就是透過 “語音辨識” 的方式辨別影片的內容。目前語音技術仍有許多努力的空間,但是如果對於語音資料能被處理的話,那麼解讀一個影片就更往前一步了。GOOGLE對於你水管上面影片的辨別,一個蠻不怎麼精明的方式,就是透過比對的方式,如你手上有一影片A,網路上疑似有人傳了上去,GOOGLE希望你提供一份拷貝給他,以便有一原檔加以比對是否一樣,想當然沒人蠢到這麼做。如果今天對於語音辨識有了極高的辨識率,那麼透過對於影片裡頭的語音截取出來透過演算法就能知道影片 “可能的內容” 會是什麼,就上面的問題就有了初步的解決,你只要提供影片 A部分的取樣給GOOGLE,GOOGLE再對某些影片的 “音素” 透過比對來決定,網上的影片是否就是你手上的影片A,這一點或許比較可行一點。
不要忘了,GOOGLE要出手機了:
當電腦上所有的資料都能透過GOOGLE處理後,你覺得你簡訊有沒有可能成為GOOGLE下一個目標? 過去我們習慣將MAIL存放於自己的電腦,現在大家習慣放在網上, “或是GMAIL” 裡。當GOOGLE跨足於手機通訊服務時,我們會不會開始習慣了,把我們的簡訊,通訊錄存在GOOGLE裡頭呢? 當日後的行動通訊逐漸的將個人電腦、手機、所有的一切整合在一起,你我的電話簿內容透過演算法,竟然呈現在大家眼前,只因為你不小心將電話簿SHARE在你的twitter、plurk、還是facebook…,或是透過演算法蜘蛛程式,你電話簿裡的某位高中朋友,竟然是你前男友、女友的室友,簡訊傳來一個訊息寫著 「經過比對確認你們是朋友,要加入嗎? 」很眼熟對吧? 因為不就是facebook現在正在做的事不是嗎? 你或許還會想為何電信業者會知道? 正想不出答案前,其實你忘了上個月你辦新手機、新門號時,電信業者提供的免費服務,而如果不要的話,你還得要主動的去取消才行,但很抱歉,一般人不會注意到這一點,即便這種類似的事已經活生生的發生在你我週邊。
現在人的觀念還把 “電腦網路” 與 “行動網路” 分的太遠,認為手機上網(或是其他週邊上網),是不同的空間,但日後行動通訊已經發展到,遠超過現在你我的想像。每一台電腦都內建了3G/4G…網路,開機即上網,手機不再僅有收發,而是把所有你的資訊整合為 “可被處理的資訊” ,再透過更新的ˋ蜘蛛程式,更強的演算法,可說是更方便找到更多想要(或不想要)的內容,同時更擔心自己是否被出賣,就現在某個角度來看,你我早已經被賣給GOOGLE,只是現在他還不夠壯大、不敢表現的太邪惡,如果現今任何的資料(影、音、圖、文)都能被GOOGLE給 “處理運算”,到時的生活又會如何呢?