熱門文章
算法促進人工智能時代的信息傳播
發(fā)布時間:2019-07-01 分類:趨勢研究
作者:字節(jié)跳動公共政策研究院 袁 祥 王 一
信息智能推薦算法是人工智能技術(shù)在信息傳播領(lǐng)域的應用,它極大地提高了信息的生產(chǎn)和傳播效率,帶來了傳播方式和傳播活動的深刻變革,同時也引發(fā)了監(jiān)管部門和用戶對這一新技術(shù)運用中出現(xiàn)的內(nèi)容質(zhì)量和價值觀問題、算法黑箱和信息繭房風險等多方面的關(guān)切和疑慮。面對這些關(guān)切和疑慮,學界進行了持續(xù)研究分析,互聯(lián)網(wǎng)信息平臺不斷探索問題的解決和風險的防控,推動智能推薦技術(shù)的優(yōu)化創(chuàng)新,以期把握算法的特點、價值和規(guī)律,促進人工智能時代信息傳播的健康發(fā)展、安全發(fā)展。
算法不是信息傳播中社會價值弱化的根源
媒體進入大眾化和市場化時代以來,內(nèi)容的低俗、低質(zhì)和娛樂化傾向就開始顯現(xiàn),給主流價值的傳播帶來挑戰(zhàn)。進入信息智能推薦算法時代,這一趨勢還在延續(xù),并有了新的表現(xiàn)形式。根本原因在于,大眾偏好的內(nèi)容往往不等同于優(yōu)質(zhì)的內(nèi)容,而用戶的需要、市場的要求是媒介技術(shù)發(fā)展的主要推動力,客觀上助長了內(nèi)容生態(tài)的低質(zhì)化。
從算法設計的初衷看,其本身并不會提倡標題黨、煽情和低俗化內(nèi)容,但由于智能推薦算法要經(jīng)由網(wǎng)上海量的數(shù)據(jù)來訓練和生成,而在全網(wǎng)已經(jīng)存在大量低質(zhì)化信息和大眾化審美品位沒有得到根本提升的情況下,加之設計算法的工程師沒有經(jīng)過專業(yè)的新聞倫理訓練,主要關(guān)注內(nèi)容和用戶興趣的匹配度等指標,缺乏社會價值意識,在算法發(fā)展的初期也沒有將對社會價值的導向要求和對低質(zhì)信息的把關(guān)需要內(nèi)化為算法的具體規(guī)則,在客觀上呈現(xiàn)出推薦內(nèi)容的低質(zhì)化傾向。如果說在門戶網(wǎng)站和社交網(wǎng)絡時代,不符合用戶偏好的信息還能經(jīng)由編輯的專業(yè)推薦或關(guān)系鏈中其他人的轉(zhuǎn)發(fā)推薦而有一定的傳播空間,那么在算法時代,不同內(nèi)容之間的“馬太效應”更加凸顯,符合偏好的內(nèi)容可以經(jīng)由算法的逐級放大有更廣泛的影響,而其他內(nèi)容則很難有生存空間。
算法并不必然助長內(nèi)容生態(tài)的低質(zhì)化。這要從算法設計的主要特征分析,分為個體、群體、整體三個層次的特征:對個體用戶,算法一般通過對內(nèi)容特征、人的特征、環(huán)境特征三個維度指標的分析,在特定人和特定內(nèi)容之間做出力求精準的匹配。內(nèi)容特征可能包括領(lǐng)域分類、主題詞、實體詞、來源、質(zhì)量評分、相似文章等指標,人的特征包括興趣、年齡、性別、職業(yè)、使用行為、機型等指標,環(huán)境特征包括時間、地點、天氣和網(wǎng)絡類型等。在群體層面,算法通過尋找不同用戶在興趣分類、主題、實體詞和使用行為上的相似性,將一個用戶感興趣的內(nèi)容推薦給另一個人,這已不是基于用戶自己的歷史行為,而是基于群體隱性關(guān)聯(lián)之上的協(xié)同推薦。就網(wǎng)民整體,算法則基于內(nèi)容的熱度特征,包括全平臺的熱點文章或不同類別、主題和關(guān)鍵詞的熱點內(nèi)容,在“冷啟動”階段對新用戶進行初步推薦。
要扭轉(zhuǎn)社交時代以來內(nèi)容低質(zhì)化的趨勢,需要智能信息分發(fā)平臺將社會責任意識主動地融入算法設計。算法的市場目標分為中短期目標和長期目標,中短期目標是幾個小時、一兩天之內(nèi)用戶的興趣匹配,是為了提升點擊率和收藏、轉(zhuǎn)發(fā)、評論等行為,而長期目標是實現(xiàn)用戶的穩(wěn)定留存和活躍使用。很多時候,短期目標對實現(xiàn)長期目標并沒有幫助,有時候反而起反作用。以標題黨現(xiàn)象為例,劣質(zhì)創(chuàng)作者通過噱頭可以吸引用戶點擊,使點擊率虛高,用戶可能會留下負面評價,表面上提高了參與度,但卻以犧牲用戶體驗和影響留存為代價,類似含水的點擊率和負面的評論率,不符合信息平臺的長遠利益。
當前智能分發(fā)已成為新聞資訊客戶端、瀏覽器等應用的“標配”手段,從行業(yè)實踐看,居于頭部領(lǐng)先位置的App更重視用戶的長期留存,更傾向于主動避免內(nèi)容低質(zhì)化帶來的社會輿論和監(jiān)管風險。字節(jié)跳動公司最早將智能推薦算法應用在信息分發(fā)領(lǐng)域,在發(fā)展早期也存在內(nèi)容質(zhì)量問題和算法偏向市場化的問題,近年通過設置更多元的算法目標,綜合分析用戶瀏覽時長、評論情感傾向來打擊標題黨、煽情化等劣質(zhì)內(nèi)容,通過技術(shù)模型過濾有害信息和黃賭毒等違法違規(guī)內(nèi)容,并基于正能量信息的模型訓練來加強主流價值信息的推薦。例如,信息平臺通過對上百萬篇網(wǎng)信部門宣傳報道指令、黨報黨刊要聞等正能量信息的人工標注,作為機器學習的模型訓練集,模型經(jīng)過不斷優(yōu)化,對新時代建設等主流價值觀內(nèi)容的識別率準確超過93%。算法對識別出的文章進行1.5-2倍的加權(quán)推薦,目前正能量模型識別范圍已涵蓋凡人善舉、行業(yè)榜樣、知識普惠、公益慈善等眾多領(lǐng)域,平臺內(nèi)容日益多元優(yōu)質(zhì),生態(tài)越來越有益健康。而一些“信息流”平臺則表現(xiàn)出打擦邊球的意愿和行動,以對低俗化內(nèi)容的推薦來實現(xiàn)短期用戶量的“沖高”,美女、大尺度、追星、偶像成為內(nèi)容關(guān)鍵詞,這些信息經(jīng)推薦算法進一步放大了對用戶,特別是青少年用戶的影響。這已引發(fā)社會關(guān)切和監(jiān)管層的關(guān)注,已督促改進。但效果尚不明顯,需要加大監(jiān)管力度。
在智能分發(fā)時代,要解決內(nèi)容的低俗化低質(zhì)化和社會價值弱化問題,要從兩方面同時入手、同步加強。一要解決內(nèi)容生產(chǎn)的低質(zhì)化問題,壓實社交平臺、信息平臺和創(chuàng)作者的社會責任,提升全體用戶的道德素質(zhì)和網(wǎng)絡素養(yǎng)。社交網(wǎng)絡極大賦能了用戶的創(chuàng)作權(quán)、表達權(quán)、傳播權(quán),一個個用戶需求和內(nèi)容產(chǎn)出匯聚起來,越發(fā)影響著網(wǎng)上信息的議程設置和導向,如果此時的內(nèi)容生態(tài)不健康,那么“沒有一片雪花是無辜的”,而現(xiàn)實是大多數(shù)用戶基于原始的本能,傾向于好玩的、娛樂的、低俗的內(nèi)容。這不同于傳統(tǒng)媒體時代,新聞機構(gòu)有強大的社會影響力,但也負有高度的責任和使命。社交平臺、信息平臺的海量信息是推薦算法發(fā)揮作用的土壤,在個體賦權(quán)的同時,用戶也需要權(quán)責平衡,要以多種方式有效提升普通人的道德素質(zhì)、媒介素養(yǎng)、算法知識、責任意識和法紀觀念,創(chuàng)作者要確保一開始就生產(chǎn)高質(zhì)量的內(nèi)容,平臺更主動發(fā)揮自我監(jiān)管的責任,才能從源頭上建立優(yōu)質(zhì)的內(nèi)容生態(tài)。
二要實現(xiàn)社會價值融入算法設計,發(fā)揮對內(nèi)容生產(chǎn)和傳播的“獎優(yōu)罰劣”把關(guān)作用,盡快邁向智能管網(wǎng)治網(wǎng)。算法幫助用戶以更智能、更高效的方式行使對內(nèi)容的選擇權(quán)利,客觀上具有對內(nèi)容創(chuàng)作的引導作用,商業(yè)媒體、自媒體等都會研究和分析不同平臺的算法特點,謀求更多的內(nèi)容推薦和傳播。如果算法中融入了社會價值,就會促進內(nèi)容生態(tài)向更健康的方向發(fā)展。如果說落實平臺責任、提升用戶素質(zhì)是為了盡量減少網(wǎng)上的“淤泥”,而對算法的優(yōu)化則是為了做到“出淤泥而不染”。之前是將價值堅守融入專業(yè)媒體人的工作,算法時代要將主流價值觀念、信息傳播倫理融入工程師的設計目標和流程,由于代碼被認為是網(wǎng)絡空間的“法律”,這樣做可以將制度的宏觀原則融入技術(shù)的微觀建構(gòu)之中。作者:字節(jié)跳動公共政策研究院 袁 祥 王 一
信息智能推薦算法是人工智能技術(shù)在信息傳播領(lǐng)域的應用,它極大地提高了信息的生產(chǎn)和傳播效率,帶來了傳播方式和傳播活動的深刻變革,同時也引發(fā)了監(jiān)管部門和用戶對這一新技術(shù)運用中出現(xiàn)的內(nèi)容質(zhì)量和價值觀問題、算法黑箱和信息繭房風險等多方面的關(guān)切和疑慮。面對這些關(guān)切和疑慮,學界進行了持續(xù)研究分析,互聯(lián)網(wǎng)信息平臺不斷探索問題的解決和風險的防控,推動智能推薦技術(shù)的優(yōu)化創(chuàng)新,以期把握算法的特點、價值和規(guī)律,促進人工智能時代信息傳播的健康發(fā)展、安全發(fā)展。
算法不是信息傳播中社會價值弱化的根源
媒體進入大眾化和市場化時代以來,內(nèi)容的低俗、低質(zhì)和娛樂化傾向就開始顯現(xiàn),給主流價值的傳播帶來挑戰(zhàn)。進入信息智能推薦算法時代,這一趨勢還在延續(xù),并有了新的表現(xiàn)形式。根本原因在于,大眾偏好的內(nèi)容往往不等同于優(yōu)質(zhì)的內(nèi)容,而用戶的需要、市場的要求是媒介技術(shù)發(fā)展的主要推動力,客觀上助長了內(nèi)容生態(tài)的低質(zhì)化。
從算法設計的初衷看,其本身并不會提倡標題黨、煽情和低俗化內(nèi)容,但由于智能推薦算法要經(jīng)由網(wǎng)上海量的數(shù)據(jù)來訓練和生成,而在全網(wǎng)已經(jīng)存在大量低質(zhì)化信息和大眾化審美品位沒有得到根本提升的情況下,加之設計算法的工程師沒有經(jīng)過專業(yè)的新聞倫理訓練,主要關(guān)注內(nèi)容和用戶興趣的匹配度等指標,缺乏社會價值意識,在算法發(fā)展的初期也沒有將對社會價值的導向要求和對低質(zhì)信息的把關(guān)需要內(nèi)化為算法的具體規(guī)則,在客觀上呈現(xiàn)出推薦內(nèi)容的低質(zhì)化傾向。如果說在門戶網(wǎng)站和社交網(wǎng)絡時代,不符合用戶偏好的信息還能經(jīng)由編輯的專業(yè)推薦或關(guān)系鏈中其他人的轉(zhuǎn)發(fā)推薦而有一定的傳播空間,那么在算法時代,不同內(nèi)容之間的“馬太效應”更加凸顯,符合偏好的內(nèi)容可以經(jīng)由算法的逐級放大有更廣泛的影響,而其他內(nèi)容則很難有生存空間。
算法并不必然助長內(nèi)容生態(tài)的低質(zhì)化。這要從算法設計的主要特征分析,分為個體、群體、整體三個層次的特征:對個體用戶,算法一般通過對內(nèi)容特征、人的特征、環(huán)境特征三個維度指標的分析,在特定人和特定內(nèi)容之間做出力求精準的匹配。內(nèi)容特征可能包括領(lǐng)域分類、主題詞、實體詞、來源、質(zhì)量評分、相似文章等指標,人的特征包括興趣、年齡、性別、職業(yè)、使用行為、機型等指標,環(huán)境特征包括時間、地點、天氣和網(wǎng)絡類型等。在群體層面,算法通過尋找不同用戶在興趣分類、主題、實體詞和使用行為上的相似性,將一個用戶感興趣的內(nèi)容推薦給另一個人,這已不是基于用戶自己的歷史行為,而是基于群體隱性關(guān)聯(lián)之上的協(xié)同推薦。就網(wǎng)民整體,算法則基于內(nèi)容的熱度特征,包括全平臺的熱點文章或不同類別、主題和關(guān)鍵詞的熱點內(nèi)容,在“冷啟動”階段對新用戶進行初步推薦。
要扭轉(zhuǎn)社交時代以來內(nèi)容低質(zhì)化的趨勢,需要智能信息分發(fā)平臺將社會責任意識主動地融入算法設計。算法的市場目標分為中短期目標和長期目標,中短期目標是幾個小時、一兩天之內(nèi)用戶的興趣匹配,是為了提升點擊率和收藏、轉(zhuǎn)發(fā)、評論等行為,而長期目標是實現(xiàn)用戶的穩(wěn)定留存和活躍使用。很多時候,短期目標對實現(xiàn)長期目標并沒有幫助,有時候反而起反作用。以標題黨現(xiàn)象為例,劣質(zhì)創(chuàng)作者通過噱頭可以吸引用戶點擊,使點擊率虛高,用戶可能會留下負面評價,表面上提高了參與度,但卻以犧牲用戶體驗和影響留存為代價,類似含水的點擊率和負面的評論率,不符合信息平臺的長遠利益。
當前智能分發(fā)已成為新聞資訊客戶端、瀏覽器等應用的“標配”手段,從行業(yè)實踐看,居于頭部領(lǐng)先位置的App更重視用戶的長期留存,更傾向于主動避免內(nèi)容低質(zhì)化帶來的社會輿論和監(jiān)管風險。字節(jié)跳動公司最早將智能推薦算法應用在信息分發(fā)領(lǐng)域,在發(fā)展早期也存在內(nèi)容質(zhì)量問題和算法偏向市場化的問題,近年通過設置更多元的算法目標,綜合分析用戶瀏覽時長、評論情感傾向來打擊標題黨、煽情化等劣質(zhì)內(nèi)容,通過技術(shù)模型過濾有害信息和黃賭毒等違法違規(guī)內(nèi)容,并基于正能量信息的模型訓練來加強主流價值信息的推薦。例如,信息平臺通過對上百萬篇網(wǎng)信部門宣傳報道指令、黨報黨刊要聞等正能量信息的人工標注,作為機器學習的模型訓練集,模型經(jīng)過不斷優(yōu)化,對新時代建設等主流價值觀內(nèi)容的識別率準確超過93%。算法對識別出的文章進行1.5-2倍的加權(quán)推薦,目前正能量模型識別范圍已涵蓋凡人善舉、行業(yè)榜樣、知識普惠、公益慈善等眾多領(lǐng)域,平臺內(nèi)容日益多元優(yōu)質(zhì),生態(tài)越來越有益健康。而一些“信息流”平臺則表現(xiàn)出打擦邊球的意愿和行動,以對低俗化內(nèi)容的推薦來實現(xiàn)短期用戶量的“沖高”,美女、大尺度、追星、偶像成為內(nèi)容關(guān)鍵詞,這些信息經(jīng)推薦算法進一步放大了對用戶,特別是青少年用戶的影響。這已引發(fā)社會關(guān)切和監(jiān)管層的關(guān)注,已督促改進。但效果尚不明顯,需要加大監(jiān)管力度。
在智能分發(fā)時代,要解決內(nèi)容的低俗化低質(zhì)化和社會價值弱化問題,要從兩方面同時入手、同步加強。一要解決內(nèi)容生產(chǎn)的低質(zhì)化問題,壓實社交平臺、信息平臺和創(chuàng)作者的社會責任,提升全體用戶的道德素質(zhì)和網(wǎng)絡素養(yǎng)。社交網(wǎng)絡極大賦能了用戶的創(chuàng)作權(quán)、表達權(quán)、傳播權(quán),一個個用戶需求和內(nèi)容產(chǎn)出匯聚起來,越發(fā)影響著網(wǎng)上信息的議程設置和導向,如果此時的內(nèi)容生態(tài)不健康,那么“沒有一片雪花是無辜的”,而現(xiàn)實是大多數(shù)用戶基于原始的本能,傾向于好玩的、娛樂的、低俗的內(nèi)容。這不同于傳統(tǒng)媒體時代,新聞機構(gòu)有強大的社會影響力,但也負有高度的責任和使命。社交平臺、信息平臺的海量信息是推薦算法發(fā)揮作用的土壤,在個體賦權(quán)的同時,用戶也需要權(quán)責平衡,要以多種方式有效提升普通人的道德素質(zhì)、媒介素養(yǎng)、算法知識、責任意識和法紀觀念,創(chuàng)作者要確保一開始就生產(chǎn)高質(zhì)量的內(nèi)容,平臺更主動發(fā)揮自我監(jiān)管的責任,才能從源頭上建立優(yōu)質(zhì)的內(nèi)容生態(tài)。
二要實現(xiàn)社會價值融入算法設計,發(fā)揮對內(nèi)容生產(chǎn)和傳播的“獎優(yōu)罰劣”把關(guān)作用,盡快邁向智能管網(wǎng)治網(wǎng)。算法幫助用戶以更智能、更高效的方式行使對內(nèi)容的選擇權(quán)利,客觀上具有對內(nèi)容創(chuàng)作的引導作用,商業(yè)媒體、自媒體等都會研究和分析不同平臺的算法特點,謀求更多的內(nèi)容推薦和傳播。如果算法中融入了社會價值,就會促進內(nèi)容生態(tài)向更健康的方向發(fā)展。如果說落實平臺責任、提升用戶素質(zhì)是為了盡量減少網(wǎng)上的“淤泥”,而對算法的優(yōu)化則是為了做到“出淤泥而不染”。之前是將價值堅守融入專業(yè)媒體人的工作,算法時代要將主流價值觀念、信息傳播倫理融入工程師的設計目標和流程,由于代碼被認為是網(wǎng)絡空間的“法律”,這樣做可以將制度的宏觀原則融入技術(shù)的微觀建構(gòu)之中。