您當(dāng)前的位置：首頁 >> 滾動 > >> 正文

當(dāng)前速讀：多角度、真實(shí)用戶標(biāo)注，人大 & 華為推出可解釋推薦數(shù)據(jù)集 REASONER

來源: ZAKER科技時間：2023-05-16 13:24:35

機(jī)器之心專欄

【資料圖】

機(jī)器之心編輯部

推薦算法的可解釋性近年來受到工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。盡管人們提出了很多模型，但如何合理地評價算法產(chǎn)生的推薦解釋一直是人們討論的焦點(diǎn)。

目前可解釋推薦算法的評價有諸多限制，如解釋的真值不是由真實(shí)用戶標(biāo)注，通常只基于單一的某個方面評估解釋質(zhì)量，評估策略難以統(tǒng)一等。

為了進(jìn)一步推動可解釋推薦領(lǐng)域的發(fā)展，來自中國人民大學(xué)和華為的研究者聯(lián)合構(gòu)建了一個新的可解釋推薦數(shù)據(jù)集—— REASONER ( Real Users Labeled Multi-aspect Explanations for Explainable Recommendation ) 。

論文地址：https://arxiv.org/pdf/2303.00168.pdf

項(xiàng)目主頁：https://reasoner2023.github.io/

GitHub 地址：https://github.com/REASONER2023/reasoner2023.github.io

聯(lián)系郵箱：reasonerdataset@gmail.com

該數(shù)據(jù)集構(gòu)建于視頻推薦場景，包含了多種推薦解釋目的的真值，例如，增強(qiáng)推薦說服力、解釋信息量以及用戶滿意度等?？蓮V泛應(yīng)用于可解釋推薦、推薦系統(tǒng)糾偏以及基于心理學(xué)的推薦等領(lǐng)域。同時，該研究也開發(fā)了一個可解釋推薦工具包，包含了十個知名的可解釋推薦模型方便大家使用。

可解釋推薦數(shù)據(jù)集

亮點(diǎn)介紹

REASONER 數(shù)據(jù)集具有以下幾個亮點(diǎn)：

多模態(tài)的候選解釋：用戶可以根據(jù)自身偏好為每個推薦的視頻選擇文本解釋或視覺解釋。

多方面的解釋真值：從推薦說服力、解釋信息量和用戶滿意度三個方面提供推薦解釋真值。

真實(shí)用戶標(biāo)注：數(shù)據(jù)集中的解釋真值的標(biāo)注者正是產(chǎn)生交互記錄的人。

豐富的用戶特征：該研究收集了參與用戶的多方面的特征信息（已脫敏）。

數(shù)據(jù)集構(gòu)建

數(shù)據(jù)集的構(gòu)建主要有以下三步：

1. 搭建視頻推薦平臺，設(shè)計(jì)有關(guān)推薦可解釋性的關(guān)鍵問題

推薦平臺的元素

由于視頻內(nèi)容豐富，可以提供充足的解釋候選項(xiàng)，該研究選擇視頻作為平臺的推薦項(xiàng)目?？紤]到較長的標(biāo)注時間會降低用戶的注意力，因此該研究將視頻時長控制在三分鐘以內(nèi)。

該研究挑選了一些視頻特征作為推薦解釋的候選項(xiàng)，其中最重要的特征是標(biāo)簽和預(yù)覽。標(biāo)簽提取于視頻作者所附原始標(biāo)簽、觀看者實(shí)時評論和看后評論，屬于文本特征；預(yù)覽是從視頻中提取出最具代表性的五個畫面，屬于視覺特征。

為獲得多方面的解釋真值，該研究為標(biāo)注者設(shè)計(jì)了一系列的問題：

Q1: 哪些特征是您想觀看該視頻的原因？（推薦說服力）

Q2: 哪些特征最能體現(xiàn)該視頻的信息？（解釋信息量）

Q3: 哪些特征您最感興趣？（用戶滿意度）

Q4: 請根據(jù)您的喜好進(jìn)行評分（范圍 1~5）

Q5: 您怎樣評價該視頻？（對視頻的詳細(xì)觀點(diǎn)）

2. 招募標(biāo)注者使用上述平臺，收集他們的行為和回答

數(shù)據(jù)集的完整標(biāo)注過程如圖所示：

Step1: 用戶注冊

用戶提供個人基礎(chǔ)信息進(jìn)行平臺注冊，并完成大五人格測試題。

Step2: 平臺推薦

用戶登錄平臺，系統(tǒng)為其隨機(jī)推薦三個短視頻。

Step3: 用戶選擇和觀看之前問題回答

用戶查看推薦視頻的特征并選擇是否想要觀看該視頻，若決定觀看，則需回答讓其選擇觀看該視頻的特征（Q1），否則用戶需要選擇令其不想觀看該視頻的特征。

Step4: 觀看視頻

用戶觀看完整視頻。

Step5: 觀看之后問題回答

用戶觀看過視頻后，進(jìn)行評分和評價（Q4 和 Q5），回答最能體現(xiàn)視頻內(nèi)容的特征（Q2）和最能反應(yīng)用戶興趣的特征（Q3）。

每個用戶需完成 Step1 一次，并重復(fù) Step2~Step5 六次，因此，在完整的標(biāo)注過程中，每位用戶會接收到 18 個推薦視頻并對其進(jìn)行標(biāo)注。

3. 數(shù)據(jù)質(zhì)量控制

相比于圖像識別、實(shí)體標(biāo)注等傳統(tǒng)標(biāo)注任務(wù)中真值都是客觀的，REASONER 數(shù)據(jù)集旨在收集用戶主觀的個性化的偏好，無嚴(yán)格對錯之分，這給質(zhì)量控制增添了難度。

為此，該研究精心設(shè)置了一系列的規(guī)則判斷標(biāo)注結(jié)果的合理性，并移除不合理的樣本。規(guī)則的設(shè)計(jì)主要依據(jù)標(biāo)注時間、不同問題的一致回答、同一問題的矛盾回答和不同問題的矛盾回答等方面。

數(shù)據(jù)集內(nèi)容

REASONER 數(shù)據(jù)集包含了 2997 個用戶，4672 個視頻，6115 個標(biāo)簽以及 58000 多條用戶與視頻的交互記錄，這些信息存儲在下列文件中：

REASONER-Dataset │── dataset │ ├── interaction.csv │ ├── user.csv │ ├── video.csv │ ├── bigfive.csv │ ├── tag_map.csv │ ├── video_map.csv │── preview │── README.md

1. Interaction.csv 字段說明

2. user.csv 字段說明3. video.csv 字段說明4. bigfive.csv 說明

標(biāo)注人員需完成大五人格測試 ( Big Five Personality Test ) ，bigfive.csv 包含標(biāo)注者對 15 個問題的回答，其中 [ 0, 1, 2, 3, 4, 5 ] 分別對應(yīng)于 [ 完全不符合，大部分不符合，有點(diǎn)不符合，有點(diǎn)符合，大部分符合，完全符合 ] 。

5. tag_map.csv 字段說明

6. video_map.csv 字段說明7. preview 說明

包含了每個視頻的五個圖片預(yù)覽。

可解釋推薦工具包

連同 REASONER 數(shù)據(jù)集，該研究還開發(fā)了一個可解釋推薦算法工具包方便大家使用。該代碼庫提供了兩類廣泛研究的可解釋推薦模型，分別是基于特征的可解釋推薦模型和基于自然語言解釋的推薦模型。

現(xiàn)有模型

1. 基于特征的模型

EFM from Yongfeng Zhang et al.: Explicit Factor Models for Explainable Recommendation based on Phrase-level Sentiment Analysis ( SIGIR 2014 ) .

TriRank from Xiangnan He et al.: TriRank: Review-aware Explainable Recommendation by Modeling Aspects ( CIKM 2015 ) .

LRPPM from Xu Chen et al.: Learning to Rank Features for Recommendation over Multiple Categories ( SIGIR 2016 ) .

SULM from Konstantin Bauman et al.: Aspect Based Recommendations: Recommending Items with the Most Valuable Aspects Based on User Reviews. ( KDD 2017 ) .

MTER from Nan Wang et al.: Explainable Recommendation via Multi-Task Learning in Opinionated Text Data ( SIGIR 2018 ) .

AMF from Yunfeng Hou et al.: Explainable recommendation with fusion of aspect information ( WWW 2019 ) .

DERM: 區(qū)別于以上基于矩陣分解的淺層模型，該研究實(shí)現(xiàn)了不同形式的深度可解釋推薦模型 ( Deep Explainable Recommendation Models ) .

2. 基于自然語言解釋的模型

Att2Seq from Li Dong et al.: Learning to Generate Product Reviews from Attributes ( ACL 2017 ) .

NRT from Piji Li et al.: Neural Rating Regression with Abstractive Tips Generation for Recommendation ( SIGIR 2017 ) .

PETER from Lei Li et al.: Personalized Transformer for Explainable Recommendation ( ACL 2021 ) .

快速使用

1. 下載源代碼

git clone https://github.com/REASONER2023/reasoner2023.github.io.git

2. 快速運(yùn)行

運(yùn)行基于特征的模型：

python tag_predict.py --model= [ model_name ] --dataset= [ dataset ] --config= [ config_files ]

運(yùn)行基于自然語言解釋的模型：

python review_generate.py --model= [ model_name ] --dataset= [ dataset ] --config= [ config_files ]

適配 RecBole

RecBole ( 伯樂 ) 是一個基于 PyTorch 開發(fā)的統(tǒng)一、全面和高效的推薦算法框架，目前已有 2.6k star。REASONER 數(shù)據(jù)集已經(jīng)有適配 RecBole 數(shù)據(jù)格式的版本，接下來該研究會將目前的可解釋推薦算法工具包遷移到 RecBole 上，方便大家使用 RecBole 中豐富、便捷的各項(xiàng)功能。

展望

研究團(tuán)隊(duì)相信 REAONER 數(shù)據(jù)集將為可解釋推薦領(lǐng)域帶來以下新機(jī)會：

多方面的可解釋推薦：通過 REASONER 數(shù)據(jù)集，人們可以同時考慮不同的解釋方面，并學(xué)習(xí)更全面的可解釋模型來為線上用戶服務(wù)。

多模態(tài)的可解釋推薦：在現(xiàn)實(shí)場景中，用戶總是需要感知多模態(tài)信息。借助 REASONER 數(shù)據(jù)集，人們可以圍繞多模態(tài)解釋展開研究。

具有全面人物信息的可解釋推薦：通過 REASONER 數(shù)據(jù)集，人們可以獲取脫敏的用戶信息，有助于很多方向的研究。例如，解釋的公平性，以及利用用戶特征增強(qiáng)解釋預(yù)測的準(zhǔn)確性。

推薦系統(tǒng)其他方向：推薦系統(tǒng)糾偏、基于心理學(xué)的推薦算法等。

Reference

[ 1 ] Xu Chen, Jingsen Zhang, Lei Wang, Quanyu Dai, Zhenhua Dong, Ruiming Tang, Rui Zhang, Li Chen and Ji-Rong Wen. REASONER: An Explainable Recommendation Dataset with Multi-aspect Real User Labeled Ground Truths Towards more Measurable Explainable Recommendation. arXiv preprint arXiv:2303.00168 ( 2023 ) .

[ 2 ] Zhao W X, Mu S, Hou Y, et al. Recbole: Towards a unified, comprehensive and efficient framework for recommendation algorithms [ C ] //Proceedings of the 30th ACM International Conference on Information & nowledge Management. 2021: 4653-4664.

THE END

轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)

投稿或?qū)で髨蟮溃篶ontent@jiqizhixin.com

標(biāo)簽：

資訊

安徽新增本土無癥狀感染者12例 2022-05-20

河南省新增本土確診病例11例新增本土無癥狀感染者9例 2022-05-20

杭州糾偏柳樹移栽背后城市綠植更換，要注意些什么？ 2022-05-20

一瓶漢帝茅臺起拍價相當(dāng)于13輛法拉利誰在拍？誰在炒？ 2022-05-20

X 關(guān)閉

研究

科技

西寧衛(wèi)健委：盡早實(shí)現(xiàn)“動態(tài)清零”

西寧衛(wèi)健委：盡早實(shí)現(xiàn)“動態(tài)清零” 2022-05-20

科技阻截縱深防范解碼全民反電詐“密碼”
疫情期間騙子猖獗上海警方精準(zhǔn)“隔離”涉疫類詐騙
山西交城縣一化肥廠鍋爐房發(fā)生爆炸造成3死2傷
“試衣員”兼職騙局：賺的幾百元沒焐熱就被騙走幾萬元
大連警方探索打擊整治養(yǎng)老詐騙新思路
北京通州：31個快遞網(wǎng)點(diǎn)未嚴(yán)格落實(shí)防疫措施被責(zé)令整改
西寧衛(wèi)健委：盡早實(shí)現(xiàn)“動態(tài)清零”
四川廣安19日零時起實(shí)施全市交通管控

亚洲男人一区二区三区,免费成人午夜大片,成人女人在线观看,裸体xxxx免费,午夜大片在线观看视频,亚洲av欧洲av国产av,午夜免费69性视频爽爽爽,一区二区乱码在线观看,国产精品久久久久蜜臀

資訊

研究

科技