<sup id="iwcyi"><tbody id="iwcyi"></tbody></sup>
  • <button id="iwcyi"><input id="iwcyi"></input></button>
    <strike id="iwcyi"><acronym id="iwcyi"></acronym></strike>
    <sup id="iwcyi"><tbody id="iwcyi"></tbody></sup>
    <rt id="iwcyi"></rt>
    您現(xiàn)在的位置:海峽網(wǎng)>新聞中心>IT科技>科技前沿
    分享

    此前一年時(shí)間內(nèi),“靈犬”已陸續(xù)完成兩次迭代。2018年3月28日,今日頭條首次上線“靈犬”,支持檢測文字和文章鏈接。2018年5月16日,“靈犬”完成服務(wù)能力升級,增加反色情短文本模型和反謾罵模型,將準(zhǔn)確率從73%提升至82%。2019年2月20日,“靈犬2.0”正式上線,除了反色情低俗模型,加入反暴力謾罵和反標(biāo)題黨模型,覆蓋了主要的低俗低質(zhì)內(nèi)容類型,整體識別準(zhǔn)確率接近85%。截至2019年6月,靈犬反低俗助手的使用人次已經(jīng)超過了300萬。

    用戶只需要在“靈犬”內(nèi)輸入一段文字或文章鏈接,“靈犬”就可以幫助其檢測內(nèi)容健康指數(shù),返回一個鑒定結(jié)果。對于用戶輸入的內(nèi)容,“靈犬”會先進(jìn)行提取、分詞和語義識別,然后根據(jù)相關(guān)規(guī)則, 輸出對應(yīng)的分?jǐn)?shù)、評級和結(jié)論。這一切都在短短幾秒內(nèi)完成。圖片和圖片鏈接檢測同理,用戶在“靈犬”內(nèi)上傳圖片或圖片鏈接,即可快速獲取鑒定結(jié)果。

    “靈犬”背后的技術(shù)迭代

    據(jù)王長虎介紹,“靈犬”背后的文本分類模型,已經(jīng)經(jīng)過了三次迭代。每個新版本相對于舊版本,在技術(shù)和數(shù)據(jù)集層面,都有一個明顯的躍升。

    第一代“靈犬”,應(yīng)用的是“詞向量”和“CNN(卷積神經(jīng)網(wǎng)絡(luò))”技術(shù),訓(xùn)練數(shù)據(jù)集包含350萬數(shù)據(jù)樣本,對隨機(jī)樣本的預(yù)測準(zhǔn)確率達(dá)到79%。第二代“靈犬”,應(yīng)用的是“LSTM(長短期記憶)”和“Attention”技術(shù),訓(xùn)練數(shù)據(jù)集包含840萬數(shù)據(jù)樣本,準(zhǔn)確率提升至85%。

    新版“靈犬”同時(shí)應(yīng)用了“Bert”和半監(jiān)督技術(shù),并且在此基礎(chǔ)上使用了專門的中文語料,在不犧牲效果的情況調(diào)整了模型結(jié)構(gòu),使得計(jì)算效率能達(dá)到實(shí)用水平。“Bert”是當(dāng)前最先進(jìn)的自然語言處理技術(shù),是該領(lǐng)域近年來重大進(jìn)展的集大成者。這項(xiàng)技術(shù)在常見的閱讀理解、語義蘊(yùn)含、問答、相關(guān)性等各項(xiàng)任務(wù)上,大幅提高了性能。

    這一代“靈犬”訓(xùn)練數(shù)據(jù)集總量是1.2個T,相當(dāng)于20倍百度百科或100倍維基百科的數(shù)據(jù)總量,包含920萬個樣本,準(zhǔn)確率提升至91%。

    不同于文本識別,圖片識別的技術(shù)難點(diǎn)主要在于三方面:非均衡、類內(nèi)方差大和不可窮舉,即,低俗圖片占整體圖片內(nèi)容的比例較低,低俗圖片的種類豐富、繁雜,構(gòu)成低俗圖片的特征千差萬別。

    對此,“靈犬”運(yùn)用的解決方案,是深度學(xué)習(xí)。“我們分別在數(shù)據(jù)、模型、計(jì)算力等方面做了很多優(yōu)化。”王長虎說。數(shù)據(jù)層面,“靈犬”已累積上千萬級別的訓(xùn)練數(shù)據(jù)。模型層面,“靈犬”針對許多困難樣本做了模型結(jié)構(gòu)調(diào)優(yōu),嘗試解決多尺寸、多尺度、小目標(biāo)等復(fù)雜問題。計(jì)算力層面,“靈犬”利用分布式訓(xùn)練算法以及GPU訓(xùn)練集群,加速模型的訓(xùn)練和調(diào)試。

    一些技術(shù)難以搞定的問題,現(xiàn)階段還有賴于人工判斷。比如技術(shù)暫時(shí)難以制定標(biāo)準(zhǔn)的案例:世界名畫中常常出現(xiàn)裸體女子,如果完全交由機(jī)器判斷,機(jī)器通過識別畫中人物的皮膚裸露面積,就會認(rèn)為這幅畫是色情低俗的;而某些拍攝芭蕾舞的圖片,以機(jī)器的視角來看,其實(shí)類似于裙底偷拍。

    此外是因?yàn)槭褂脠鼍啊⑷巳翰煌鴮?dǎo)致標(biāo)準(zhǔn)變動的案例:內(nèi)衣和內(nèi)衣模特出現(xiàn)在購物平臺上,會被默認(rèn)為正常,但如果頻繁出現(xiàn)在新聞資訊平臺上,就可能被認(rèn)為有低俗嫌疑;正常的熱舞內(nèi)容,提供給成年人看,符合常規(guī)標(biāo)準(zhǔn),但如果開啟了青少年模式,這些內(nèi)容就不應(yīng)該出現(xiàn)。

    王長虎說,針對低俗判斷問題的復(fù)雜性和不同判斷方式的局限性,一方面需要不斷進(jìn)化技術(shù)模型,一方面需要有效結(jié)合技術(shù)和人工判斷兩種方式。

    當(dāng)前,“靈犬”建設(shè)了比較完善的模型迭代系統(tǒng)。通過“數(shù)據(jù)收集—數(shù)據(jù)標(biāo)注—數(shù)據(jù)清洗—模型訓(xùn)練—模型評估—badcase分析”這一套完整的流程,持續(xù)做優(yōu)化。

    責(zé)任編輯:楊林宇

           特別聲明:本網(wǎng)登載內(nèi)容出于更直觀傳遞信息之目的。該內(nèi)容版權(quán)歸原作者所有,并不代表本網(wǎng)贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé)。如該內(nèi)容涉及任何第三方合法權(quán)利,請及時(shí)與ts@hxnews.com聯(lián)系或者請點(diǎn)擊右側(cè)投訴按鈕,我們會及時(shí)反饋并處理完畢。

    最新科技前沿 頻道推薦
    進(jìn)入新聞頻道新聞推薦
    馬克龍:英法對歐洲安全擔(dān)負(fù)特殊責(zé)任
    進(jìn)入圖片頻道最新圖文
    進(jìn)入視頻頻道最新視頻
    一周熱點(diǎn)新聞
    下載海湃客戶端
    關(guān)注海峽網(wǎng)微信
    ?

    職業(yè)道德監(jiān)督、違法和不良信息舉報(bào)電話:0591-87095414 舉報(bào)郵箱:service@hxnews.com

    本站游戲頻道作品版權(quán)歸作者所有,如果侵犯了您的版權(quán),請聯(lián)系我們,本站將在3個工作日內(nèi)刪除。

    溫馨提示:抵制不良游戲,拒絕盜版游戲,注意自我保護(hù),謹(jǐn)防受騙上當(dāng),適度游戲益腦,沉迷游戲傷身,合理安排時(shí)間,享受健康生活。

    CopyRight ?2016 海峽網(wǎng)(福建日報(bào)主管主辦) 版權(quán)所有 閩ICP備15008128號-2 閩互聯(lián)網(wǎng)新聞信息服務(wù)備案編號:20070802號

    福建日報(bào)報(bào)業(yè)集團(tuán)擁有海峽都市報(bào)(海峽網(wǎng))采編人員所創(chuàng)作作品之版權(quán),未經(jīng)報(bào)業(yè)集團(tuán)書面授權(quán),不得轉(zhuǎn)載、摘編或以其他方式使用和傳播。

    版權(quán)說明| 海峽網(wǎng)全媒體廣告價(jià)| 聯(lián)系我們| 法律顧問| 舉報(bào)投訴| 海峽網(wǎng)跟帖評論自律管理承諾書

    友情鏈接:新聞頻道?| 福建頻道?| 新聞聚合
    主站蜘蛛池模板: 平罗县| 达尔| 洛南县| 区。| 湛江市| 南汇区| 叙永县| 科技| 扎鲁特旗| 西安市| 阿拉善左旗| 唐山市| 杭州市| 郴州市| 井冈山市| 红安县| 阳西县| 中阳县| 和龙市| 岫岩| 大石桥市| 汉沽区| 武宣县| 宾川县| 左云县| 铜鼓县| 宾阳县| 赤壁市| 马尔康县| 兴文县| 札达县| 仙桃市| 阳城县| 山阴县| 贵港市| 斗六市| 惠安县| 上饶市| 萍乡市| 定远县| 保靖县|