您現(xiàn)在的位置:海峽網(wǎng)>新聞中心>財(cái)經(jīng)頻道>財(cái)經(jīng)新聞
分享

上周五,今日頭條估值超過120億美元的消息被刷屏。在內(nèi)容市場(chǎng)的紅海里,身價(jià)暴漲的今日頭條已成為一條讓BAT望而生畏的“大魚”,寡頭圍剿和壯士突圍間充滿變數(shù)與可能,技術(shù)優(yōu)勢(shì)牽一發(fā)而動(dòng)全身。

一項(xiàng)內(nèi)容市場(chǎng)競(jìng)爭(zhēng)與人工智能技術(shù)結(jié)合的產(chǎn)物——寫稿機(jī)器人,將視線聚焦在百度、阿里巴巴、騰訊、今日頭條的新戰(zhàn)役中,而逐漸起勢(shì)的機(jī)器寫稿產(chǎn)業(yè)本身也已成為戰(zhàn)役中尤為重要的一環(huán)。

在深入調(diào)查“機(jī)器寫稿”產(chǎn)業(yè)的過程中,意料之外的兩大既成事實(shí)讓我開始重新審視人工智能和內(nèi)容生產(chǎn)。這兩件事實(shí)分別是:

1)在垂直領(lǐng)域的報(bào)道中,寫稿機(jī)器人已經(jīng)被高頻率采用;

2)騰訊、今日頭條、阿里和百度,是國(guó)內(nèi)寫稿機(jī)器人技術(shù)應(yīng)用最早和最為成熟的平臺(tái)。

了解人工智能技術(shù)在專業(yè)領(lǐng)域的應(yīng)用現(xiàn)狀,能夠更為直觀地感受技術(shù)革命臨近的前奏。更進(jìn)一步,其在內(nèi)容領(lǐng)域落地的深遠(yuǎn)意義在于,將為互聯(lián)網(wǎng)上游資訊生產(chǎn)流程和數(shù)據(jù)應(yīng)用方式的帶來顛覆式影響。

而在當(dāng)下,這一關(guān)鍵閥門就掌握在BAT三巨頭和估值超120億美元的新勁敵手中。為此,智東西特采訪到騰訊內(nèi)容機(jī)器人項(xiàng)目負(fù)責(zé)人、騰訊財(cái)經(jīng)副總監(jiān)劉康,阿里巴巴大數(shù)據(jù)價(jià)值挖掘?qū)<摇⒌谝回?cái)經(jīng)首席數(shù)據(jù)專家湯開智博士,今日頭條相關(guān)專家,行業(yè)資深人士,進(jìn)一步解構(gòu)這場(chǎng)互聯(lián)網(wǎng)內(nèi)容和數(shù)據(jù)重組的入口之爭(zhēng),窺探背后更大規(guī)模的文本范式生成市場(chǎng)。

注:近日有消息稱百度推出了其智能寫作機(jī)器人Writing-bots,但據(jù)筆者調(diào)查暫無可查證的實(shí)際應(yīng)用案例,故此文中暫不做討論。以“度秘”的賽事解說功能為參考。)

一、 文字背后的機(jī)器人

寫稿機(jī)器人,并非指實(shí)體的機(jī)器人本身,而是將機(jī)器自動(dòng)生成文本,產(chǎn)出內(nèi)容的系統(tǒng)抽象化和擬人化。具體而言,寫稿機(jī)器人多以特定的信息庫(kù)為基礎(chǔ),通過一定的篩選、分析、運(yùn)算等信息處理手段,將信息進(jìn)行重新組合、排列,并套用事先設(shè)置好的寫作模板,最終輸出新聞報(bào)道。

“機(jī)器寫稿”,背后涉及數(shù)據(jù)挖掘、自然語言處理、機(jī)器學(xué)習(xí)、搜索技術(shù)、知識(shí)圖譜等多項(xiàng)人工智能技術(shù)。套用一般的人工智能的要素模型,“特定的信息庫(kù)”即支持該項(xiàng)技術(shù)的“大數(shù)據(jù)”,“針對(duì)文本信息的重組、排列”即為該項(xiàng)產(chǎn)品背后的核心算法。從早期的人工設(shè)定模板,到深度學(xué)習(xí)引入后的機(jī)器自我學(xué)習(xí)和模板優(yōu)化,“寫稿機(jī)器人”本身正在不斷進(jìn)化。

機(jī)器人介入寫稿最早起始于美國(guó)老牌報(bào)業(yè)《華盛頓郵報(bào)》。早在2012年年末,《華盛頓郵報(bào)》就啟動(dòng)了名為“truth teller(吐真者)”的實(shí)時(shí)新聞核查項(xiàng)目。它能全程記錄新聞報(bào)道中的文字、語音等信息,隨后與“打假”數(shù)據(jù)庫(kù)進(jìn)行對(duì)比,一旦發(fā)現(xiàn)異常便會(huì)發(fā)出警報(bào)。

從2015年開始,中外媒體的“寫稿機(jī)器人”走進(jìn)版面,開始自立名號(hào)?!都~約時(shí)報(bào)》Blossom、《華盛頓郵報(bào)》Truth Teller、《洛杉磯時(shí)報(bào)》智能內(nèi)嵌模版、《衛(wèi)報(bào)》Open001、路透社的Open Calais、美聯(lián)社的Wordsmith六家國(guó)際頂級(jí)媒體設(shè)立各自的機(jī)器人服務(wù)系統(tǒng)。

在國(guó)內(nèi),騰訊于2015年8月率先推出Dreamwriter寫稿機(jī)器人。隨后的一年,今日頭條xiaomingbot、第一財(cái)經(jīng)DT稿王、百度度秘解說相繼浮出水面。騰訊、阿里巴巴、百度、今日頭條,四方割據(jù)的局面正式形成。

在信息流市場(chǎng),第一財(cái)經(jīng)能夠代表阿里巴巴的戰(zhàn)略布局。在于2015年阿里的12億元購(gòu)入第一財(cái)經(jīng)集團(tuán)30%股權(quán),隨后也將旗下的大數(shù)據(jù)價(jià)值挖掘?qū)<覝_智博士調(diào)任至第一財(cái)經(jīng),任其首席數(shù)據(jù)科學(xué)家,為其自動(dòng)/輔助寫稿產(chǎn)品提供技術(shù)支持。

二、四大平臺(tái)的機(jī)器人賽稿

為呈現(xiàn)一個(gè)更加具象的寫稿機(jī)器人市場(chǎng),筆者集中體驗(yàn)了騰訊、今日頭條、百度、第一財(cái)經(jīng)四家產(chǎn)品在用戶界面、內(nèi)容呈現(xiàn)和出稿數(shù)量、效率等方面的表現(xiàn),并對(duì)比分析各家在產(chǎn)品布局和應(yīng)用領(lǐng)域的思路與特點(diǎn)。

1)產(chǎn)品特點(diǎn)與應(yīng)用狀況

機(jī)器人寫稿這事,BAT和今日頭條已打得不可開交!

從上述圖表分析中可以看出,上述四家的“寫稿機(jī)器人”產(chǎn)品主要還處在自研自用階段,主要用于自家媒體平臺(tái)的內(nèi)容產(chǎn)出和分發(fā)。此外,第一財(cái)經(jīng)首席數(shù)據(jù)科學(xué)家湯開智向智東西表示,旗下的DT稿王產(chǎn)品現(xiàn)還應(yīng)用到電商平臺(tái)“千牛”的資訊版塊。

覆蓋領(lǐng)域以體育賽事、和財(cái)經(jīng)類新聞為主,多以短、平、快的處理方式產(chǎn)出賽事戰(zhàn)報(bào)、快訊等。其中騰訊在新聞內(nèi)容覆蓋面上最廣,其產(chǎn)品的對(duì)接平臺(tái)包括騰訊財(cái)經(jīng)、騰訊科技、騰訊體育等。第一財(cái)經(jīng)集團(tuán)因其更強(qiáng)的媒體屬性和廣泛的產(chǎn)品渠道,內(nèi)容分發(fā)領(lǐng)域更更廣,包括媒體產(chǎn)品端、微信內(nèi)容推送、電視新聞等。

在報(bào)道形式上,賽事報(bào)道更傾向于圖文結(jié)合的方式,圖片采用自動(dòng)匹配的模式。當(dāng)然在面向不同終端和產(chǎn)品時(shí),報(bào)道風(fēng)格可能有所調(diào)整,比如在騰訊體育移動(dòng)端中,賽事報(bào)道就是以純文字方式呈現(xiàn);而在騰訊新聞客戶端,則保留了完整的圖文內(nèi)容。

在產(chǎn)稿量方面,各家并沒有給出具體數(shù)值,筆者結(jié)合頁面呈現(xiàn)數(shù)量和參考值進(jìn)行統(tǒng)計(jì)。騰訊因其覆蓋領(lǐng)域最廣,在有效產(chǎn)稿量上占據(jù)一定優(yōu)勢(shì)。“機(jī)器寫稿的機(jī)制是大規(guī)模地寫,最后用不用由人工編輯、CMS(Content Management System、內(nèi)容管理系統(tǒng))進(jìn)行判斷”,騰訊內(nèi)容機(jī)器人項(xiàng)目負(fù)責(zé)人、騰訊財(cái)經(jīng)副總監(jiān)劉康介紹。

第一財(cái)經(jīng)則主要以股市異動(dòng)為新聞切入點(diǎn),報(bào)道更頻繁。”長(zhǎng)報(bào)道的使用頻率相對(duì)低一些,最多一天一篇,或者一個(gè)月一篇”。

需要說明的是,將只是用于“賽事解說”的百度度秘平臺(tái)納入到分析對(duì)象中,主要原因在于度秘的“實(shí)時(shí)圖文內(nèi)容呈現(xiàn)+音頻播報(bào)”的產(chǎn)業(yè)化程度已經(jīng)達(dá)到機(jī)器寫稿的程度,其背后的技術(shù)原理也十分相似?;蛟S是百度平臺(tái)本身缺少媒體屬性,抑或是作為內(nèi)容分發(fā)平臺(tái)不適合自產(chǎn)出內(nèi)容,百度并沒有在前端用新聞的形式呈現(xiàn)。

2)用戶界面特點(diǎn)分析

機(jī)器人寫稿這事,BAT和今日頭條已打得不可開交!

機(jī)器人寫稿這事,BAT和今日頭條已打得不可開交!

以上分別是調(diào)用第一財(cái)經(jīng)“7*24小時(shí)看板”、度秘APP“度秘直播籃球賽”、今日頭條“Xiaomingbot”頭條號(hào)作者專欄、騰訊新聞搜索“Dreamwriter”呈現(xiàn)的不同界面,統(tǒng)一以移動(dòng)用戶端進(jìn)行比較。

從報(bào)道形式和內(nèi)容豐富程度來看,機(jī)器寫稿與人類已經(jīng)無異。在標(biāo)題處理上,“擊敗雄鹿”、“創(chuàng)新高”、“奇才”、“遺憾”等用詞已經(jīng)脫離機(jī)械式的比分呈現(xiàn),帶有個(gè)性化的媒體報(bào)道屬性。

滾動(dòng)式的股票類財(cái)經(jīng)快訊則更強(qiáng)調(diào)時(shí)效性和數(shù)據(jù)準(zhǔn)確性,在這個(gè)維度上,機(jī)器勝過人類。

3)內(nèi)容呈現(xiàn)特點(diǎn)分析

機(jī)器人寫稿這事,BAT和今日頭條已打得不可開交!

機(jī)器人寫稿這事,BAT和今日頭條已打得不可開交!

在報(bào)道形式與風(fēng)格上,各家根據(jù)用戶特點(diǎn)進(jìn)行了不同的呈現(xiàn)。騰訊Dreamwriter、今日頭條Xiaomingbot采用圖文結(jié)合得形式進(jìn)行報(bào)道,Xiaomingbot在圖片與現(xiàn)場(chǎng)感呈現(xiàn)上更為豐富,Dreamwriter則更強(qiáng)調(diào)比分和細(xì)節(jié)。在文章框架上,兩者都對(duì)賽事亮點(diǎn)和整體局勢(shì)進(jìn)行了提煉,而不是簡(jiǎn)單的陳述數(shù)據(jù)。

百度度秘的解說以對(duì)話框的形式呈現(xiàn),能夠?yàn)橛脩籼峁?shí)時(shí)的賽事戰(zhàn)況直播,并且配以部分動(dòng)圖和音頻,表情和語氣詞的也很到位,更加擬人化和形象化。

第一財(cái)經(jīng),作為一個(gè)更加專業(yè)和垂直領(lǐng)域的媒體平臺(tái)。除去中文內(nèi)容呈現(xiàn),同時(shí)進(jìn)行了英化處理,“中文財(cái)經(jīng)模板很大一部分被翻譯成英文模板,省去了內(nèi)容翻譯的成本,在一財(cái)全球使用”,湯開智博士介紹。

總體而言,在寫稿機(jī)器人這塊新業(yè)務(wù)上,BAT三家與今日頭條的技術(shù)和產(chǎn)品差距并不大。比較遺憾的是,百度并沒有將其背后的技術(shù)整合出完整的媒體產(chǎn)品,提到度秘的“賽事直播”功能很多人并不知曉。

究其背后的原因,可能還是百度本身缺少媒體平臺(tái)基因,聚焦在用戶的被動(dòng)搜索與廣告業(yè)務(wù)。不過,另一面,今日頭條的百度化卻比想象中快。

三、外行看熱鬧 內(nèi)行看門道

對(duì)于一個(gè)曾經(jīng)視“人工智能威脅論”為笑話的人,突然間發(fā)現(xiàn),機(jī)器人已經(jīng)侵入到自己所擅長(zhǎng)的領(lǐng)域,內(nèi)心多少有些驚訝和恐慌。不過,人工智能的更大價(jià)值還在于了解之后為人類所用。“我個(gè)人偏向中性的認(rèn)知,機(jī)器寫稿的確能夠取代一部分人力,但只是冗余的、低技術(shù)門檻的人力”,騰訊財(cái)經(jīng)副總監(jiān)劉康認(rèn)為。

在與第一財(cái)經(jīng)湯開智博士的交流中,他認(rèn)為機(jī)器寫作的研究主要圍繞三種典型模式,“邏輯由淺入深,從精確到模糊”:

1)第一類是基于數(shù)字進(jìn)行事實(shí)陳述,并進(jìn)行簡(jiǎn)單邏輯分析的文章,比如二級(jí)市場(chǎng)的監(jiān)控、體育賽事的簡(jiǎn)訊;

2)第二類是根據(jù)每類稿件的信息要點(diǎn),對(duì)信息源進(jìn)行針對(duì)性的信息提取,把非結(jié)構(gòu)化的文本轉(zhuǎn)為結(jié)構(gòu)化及半結(jié)構(gòu)化的數(shù)據(jù),再根據(jù)不同的規(guī)則把信息要點(diǎn)組合寫成單點(diǎn)內(nèi)容;

3)第三類是單點(diǎn)內(nèi)容的關(guān)聯(lián)生成,此類稿件能彌補(bǔ)單點(diǎn)內(nèi)容信息量單一的缺點(diǎn),并為受眾尤其是投資者,及時(shí)關(guān)聯(lián)專家對(duì)基本數(shù)據(jù)的解讀及評(píng)論,生成更有深度、更立體、更綜合的稿件。

在寫稿機(jī)器人產(chǎn)品中,背后技術(shù)支持最為明確和清晰的是今日頭條的“Xiaomingbot”,它是由頭條實(shí)驗(yàn)室與北京大學(xué)計(jì)算所(萬小軍團(tuán)隊(duì))聯(lián)合研發(fā)而成。今年2月今日頭條還挖走了前微軟亞洲研究院副院長(zhǎng)馬維英,擔(dān)任其負(fù)責(zé)人。

在抽取式文本生成研究領(lǐng)域,北大萬小軍老師于關(guān)于采用特征工程抽取句子的論文《Towards Constructing Sports News from Live Text Commentary》在ACL2016引起了廣泛關(guān)注。

今年初,萬小軍老師還以技術(shù)開發(fā)團(tuán)隊(duì)負(fù)責(zé)人的身份,幫助南方都市報(bào)完成了寫稿機(jī)器人“小南”的研發(fā)。

從產(chǎn)品演進(jìn)路徑來看,一代寫稿機(jī)器人語言偏向生硬,句式較為單一。在優(yōu)化后的產(chǎn)品中,具備更高的語言表達(dá)和邏輯思維能力,以及圖文信息處理能力。以下是寫稿機(jī)器人的簡(jiǎn)化版工作流程:

機(jī)器人寫稿這事,BAT和今日頭條已打得不可開交!

現(xiàn)在大家都還處于技術(shù)過渡的過程”,業(yè)內(nèi)人士表述。前期產(chǎn)品以簡(jiǎn)單的結(jié)構(gòu)化自動(dòng)生成為主,將一些數(shù)據(jù)嵌入進(jìn)去,利用人工模板。因?yàn)闄C(jī)器學(xué)習(xí)和數(shù)據(jù)庫(kù)的完善,大家希望能夠借助機(jī)器的自主學(xué)習(xí)功能,“

比如,跑一百萬篇文章,機(jī)器可以自建模板”。但在現(xiàn)實(shí)應(yīng)用中,因?yàn)榇怪?、專業(yè)領(lǐng)域的文章具備鮮明特點(diǎn)。自然語言理解技術(shù)有局限,目前機(jī)器讀取數(shù)據(jù)填充格式化模板是最成熟但也是最沒有技術(shù)水平的方案,寫稿機(jī)器人產(chǎn)品仍主要用于體育和財(cái)經(jīng)類資訊 。

體育和財(cái)經(jīng)文本信息較少,數(shù)據(jù)信息多,“每周幾十場(chǎng)NBA、足球賽、棒球賽等,以及每天全球主要市場(chǎng)上萬家上市公司的各種披露信息和股票漲跌”,從這個(gè)角度上說,人群結(jié)構(gòu)化程度較高,垂直化需求強(qiáng)烈。

四、商業(yè)價(jià)值所在:以一當(dāng)十五

技術(shù)落地的最終訴求來自產(chǎn)業(yè)所向和商業(yè)價(jià)值。“

多、快、好、省”,是騰訊財(cái)經(jīng)總監(jiān)劉康對(duì)于機(jī)器寫稿紅利的提煉。

他并未給出寫稿機(jī)器人準(zhǔn)確的產(chǎn)出效益比。“一般來說,機(jī)器產(chǎn)出的稿件30-50%,會(huì)各個(gè)頻道的采用,最終呈現(xiàn)在頁面端”。實(shí)際上,寫稿機(jī)器人的成效容易量化,基于其產(chǎn)出的稿件量或者字?jǐn)?shù),以量化成普通人力的規(guī)模。其核心的“快”,包含兩個(gè)層面,一是響應(yīng)速度,寫稿機(jī)器人平均可達(dá)到1分鐘甚至更快產(chǎn)出快訊;二是分發(fā)速度快,與后臺(tái)無縫銜接,縮短至各平臺(tái)中間流程。

作為技術(shù)輸出的第三方,面向B端的服務(wù)集成是另一種可循的商業(yè)模式。面向媒體企業(yè)收費(fèi),“例如某科技媒體平臺(tái)一年人工費(fèi)用為900萬,采用自動(dòng)寫作或者輔助寫作的產(chǎn)品,可以提高員工績(jī)效和產(chǎn)出,減少其人力成本”,從業(yè)人士介紹,寫稿機(jī)器人可以24小時(shí)在線,而人工還需要輪班和調(diào)休。

在與阿里巴巴駐第一財(cái)經(jīng)首席科學(xué)家湯開智的交流中,他更為系統(tǒng)地介紹了寫稿機(jī)器人所產(chǎn)生的效益提升,主要包含以下三個(gè)方面:

1)機(jī)器稿件產(chǎn)量的提升。“從去年8月25日開始記錄到現(xiàn)在,”一財(cái)全球“總共產(chǎn)生19604篇稿件。考慮到機(jī)器寫稿的簡(jiǎn)短性,平均每篇稿子64.5字,總字?jǐn)?shù)為1,264,458字, 平均每篇稿件約64.5個(gè)單詞。這相當(dāng)于同時(shí)期一個(gè)15人編輯團(tuán)隊(duì)人工監(jiān)控股市寫稿的總產(chǎn)量。

綜合分析,考慮到目前機(jī)器稿件的單調(diào)與重復(fù)等因素,稿王機(jī)器稿件的加入,相當(dāng)于為一財(cái)全球增加了一個(gè)3個(gè)人的編輯團(tuán)隊(duì)。

2)成本下降和資訊反應(yīng)速度的提升?;跍?040家公司、深市1420家公司的即時(shí)監(jiān)控和異動(dòng)報(bào)道工作,至少需要15名以上的編輯進(jìn)行即時(shí)監(jiān)控,每人要同時(shí)監(jiān)控100多只股票,1名翻譯即時(shí)翻譯。并且,股票的異動(dòng)分成多種情況,人反應(yīng)和分析的時(shí)間將帶來5~10分鐘的延遲。

因?yàn)閷懜鍣C(jī)器人的使用,這些稿件在沒有人工參與的情況下快速生成,延時(shí)也降低到1分鐘。此外,寫稿機(jī)器人還能針對(duì)大盤、板塊進(jìn)行著監(jiān)控和稿件生成。

3)流量的貢獻(xiàn)。根據(jù)Google Analytics匯總報(bào)告中顯示最近1個(gè)星期, 3月20日到3月29日之間機(jī)器稿件流量占到一財(cái)全球全部流量的25%,相對(duì)于之前有顯著提升。

五、新聞之外 更大的文本范式“蛋糕”

利用寫稿機(jī)器人的工作思路:文本分類,文本中的信息提取,文本總結(jié),基于邏輯的自動(dòng)寫作方法在“文本范式”的領(lǐng)域,均具備可遷移的想象空間,如法律、合同、電商數(shù)據(jù)等領(lǐng)域。

電商模式是來錢比較快的”,業(yè)內(nèi)資深人士分析,并提供值得借鑒的方向思路。電商數(shù)據(jù)多而龐雜,對(duì)于當(dāng)下盛行的電商導(dǎo)購(gòu)返利網(wǎng)站而言,UGC(用戶原創(chuàng)內(nèi)容)需要大量的人工審核,雖然編輯自己寫的少,但是仍然需要花大量人力在審查上。

機(jī)器審查又會(huì)過濾掉一些很有價(jià)值的商品推薦。所以建立一個(gè)機(jī)器寫作的導(dǎo)購(gòu)網(wǎng)站,UGC或者機(jī)器只要去發(fā)現(xiàn)一些有價(jià)值的線索就好,“具體的內(nèi)容我們交給機(jī)器去寫,賺流量的同時(shí)也賺眼球”。

綜合以上分析,四大平臺(tái)下的寫稿機(jī)器人最具商業(yè)化前景和可能性。“其平臺(tái)不僅具備完善的財(cái)經(jīng)數(shù)據(jù),同時(shí)得到了阿里巴巴的電商數(shù)據(jù)支持”,前文提及的“千牛”電商平臺(tái)資訊服務(wù)也得益于此。

此外,據(jù)湯開智博士介紹,DT稿王產(chǎn)品的下一側(cè)重方向在于,“為專業(yè)的內(nèi)容生產(chǎn)方提供技術(shù)輸出,建立一套輔助寫作系統(tǒng),能夠和編輯互動(dòng)”。

“語言生成是一個(gè)非常基礎(chǔ)的問題,我們?nèi)绻梢园堰@個(gè)問題解決好,自然語音的理解方面可能還會(huì)有更大的突破,我們很多方法可以把難問題變簡(jiǎn)單,如果能夠設(shè)計(jì)成模型自動(dòng)的做這一步,最后得到的效果會(huì)更好”,今日頭條科學(xué)家、實(shí)驗(yàn)室總監(jiān)李磊表示,可以想象圍繞寫稿機(jī)器人衍生的系列“文本范式”算法,將成為今日頭條后續(xù)的信息流源頭之一。

騰訊方面,則朝著產(chǎn)品化的路徑進(jìn)一步完善。“近期,我們會(huì)有一個(gè)更具體的產(chǎn)品發(fā)布。類似一個(gè)服務(wù)系統(tǒng),可以用于前端展示”,騰訊財(cái)經(jīng)副總監(jiān)劉康向智東西。

六、大數(shù)據(jù)時(shí)代下 高質(zhì)量數(shù)據(jù)源卻“一票難求”

在本月初的IT領(lǐng)袖峰會(huì)上,馬化騰曾提到,就算是騰訊這樣規(guī)模的平臺(tái),在數(shù)據(jù)應(yīng)用上仍面臨難題。“用戶直接產(chǎn)生的數(shù)據(jù)還需要脫敏(保留隱私性)、清理(保留有效數(shù)據(jù))、加標(biāo)簽(分類)等前序工作后才能產(chǎn)生出有價(jià)值的數(shù)據(jù)”。

機(jī)器寫作需要從大量的文字資料中或許稿源信息和文本數(shù)據(jù),然而實(shí)際上互聯(lián)網(wǎng)上的中文信息本來質(zhì)量就不高,清洗難度很大。

此外,稿源信息清洗后需要格式化,然后通過數(shù)據(jù)調(diào)用載入模板的形式生成自動(dòng)化稿件,這里面模板越精細(xì)化,效果就越好。然而實(shí)際上沒有足夠好的信息源來配合模板,同時(shí),編寫模板代碼的工作量,事實(shí)上不小。

以技術(shù)基礎(chǔ)和數(shù)據(jù)庫(kù)為導(dǎo)向。類似NBA、奧運(yùn)會(huì)等大型賽事,大型媒體平臺(tái)本身需要對(duì)接到一個(gè)信息數(shù)據(jù)庫(kù),詳細(xì)的圖文數(shù)據(jù)。“這個(gè)數(shù)據(jù)庫(kù)是非常高質(zhì)量的,包含有很多細(xì)節(jié)的”。但在賽事數(shù)據(jù)和股市數(shù)據(jù)之外,很難再找到這樣結(jié)構(gòu)化、高質(zhì)量的數(shù)據(jù)庫(kù)。

此外,因?yàn)榧兇庖粋€(gè)平面化的機(jī)器寫作很難去做,一般還是要垂直行業(yè)能夠做精細(xì)化,比方說棒球幾只安打怎么報(bào),每個(gè)投手或者擊球手什么特點(diǎn)。對(duì)應(yīng)到法律行業(yè)就是要了解司法體系,以及不同法律條文之間的關(guān)系,這遠(yuǎn)不是一個(gè)普通創(chuàng)業(yè)公司能做的事情。

七、結(jié)語:下一個(gè)“今日頭條”

在你一次不經(jīng)意的推送點(diǎn)擊和頁面瀏覽間,得到的信息很有可能就不再出自人類編輯之手,而是機(jī)敏、不知疲倦的寫稿機(jī)器人產(chǎn)物。如果不是這次深度調(diào)查和數(shù)據(jù)搜集,我也不會(huì)意識(shí)到寫稿機(jī)器人產(chǎn)業(yè)的發(fā)展與落地速度會(huì)如此之快。這一切,正在悄無聲息地發(fā)生在你我身邊。

當(dāng)機(jī)器人和人工智能不再依附于具象的實(shí)體,而是以一種虛擬手段侵入人類生活時(shí),將變得更加莫測(cè)和不可控。同時(shí),也是人類以一種更加理智和客觀的態(tài)度地審視技術(shù)革命的契機(jī)。

當(dāng)新聞編輯室的資源越來越少,重復(fù)無創(chuàng)造性勞動(dòng)力的越來越多,不難想象,在未來的新聞報(bào)道中,人工智能將取代更多的“媒體工作者”。

回到技術(shù)應(yīng)用前景。通過為信息流前端引入算法機(jī)制,今日頭條坐享內(nèi)容市場(chǎng)的技術(shù)紅利。如果將這一思路引入上層級(jí)的信息流源頭呢?在生產(chǎn)模式上進(jìn)行勞動(dòng)力改造和個(gè)性化匹配,勢(shì)必將產(chǎn)生更加劇烈的化學(xué)反應(yīng)。

可以預(yù)見,人工智能所引發(fā)的信息流生產(chǎn)方式顛覆,將成為BAT與今日頭條的下一個(gè)重要戰(zhàn)場(chǎng)。一項(xiàng)由技術(shù)驅(qū)動(dòng)的、更為核心的業(yè)務(wù)比拼。與此同時(shí),龐大的新興市場(chǎng)需求還將催生出一批可期待的技術(shù)領(lǐng)域創(chuàng)業(yè)新秀。

但需要警惕的是,當(dāng)人工智能大戰(zhàn)晉升到寡頭層面,其核心仍是一場(chǎng)數(shù)據(jù)大戰(zhàn)!

責(zé)任編輯:金林舒

最新財(cái)經(jīng)新聞 頻道推薦
進(jìn)入新聞?lì)l道新聞推薦
Temu遭遇亞馬遜“二選一”,有大商家被
進(jìn)入圖片頻道最新圖文
進(jìn)入視頻頻道最新視頻
一周熱點(diǎn)新聞
下載海湃客戶端
關(guān)注海峽網(wǎng)微信
?

職業(yè)道德監(jiān)督、違法和不良信息舉報(bào)電話:0591-87095414 舉報(bào)郵箱:service@hxnews.com

本站游戲頻道作品版權(quán)歸作者所有,如果侵犯了您的版權(quán),請(qǐng)聯(lián)系我們,本站將在3個(gè)工作日內(nèi)刪除。

溫馨提示:抵制不良游戲,拒絕盜版游戲,注意自我保護(hù),謹(jǐn)防受騙上當(dāng),適度游戲益腦,沉迷游戲傷身,合理安排時(shí)間,享受健康生活。

CopyRight ?2016 海峽網(wǎng)(福建日?qǐng)?bào)主管主辦) 版權(quán)所有 閩ICP備15008128號(hào)-2 閩互聯(lián)網(wǎng)新聞信息服務(wù)備案編號(hào):20070802號(hào)

福建日?qǐng)?bào)報(bào)業(yè)集團(tuán)擁有海峽都市報(bào)(海峽網(wǎng))采編人員所創(chuàng)作作品之版權(quán),未經(jīng)報(bào)業(yè)集團(tuán)書面授權(quán),不得轉(zhuǎn)載、摘編或以其他方式使用和傳播。

版權(quán)說明| 海峽網(wǎng)全媒體廣告價(jià)| 聯(lián)系我們| 法律顧問| 舉報(bào)投訴| 海峽網(wǎng)跟帖評(píng)論自律管理承諾書

友情鏈接:新聞?lì)l道?| 福建頻道?| 新聞聚合