协同过滤中显性反馈与隐性反馈的区别（附ALS最优化）

协同过滤中显性反馈与隐性反馈的区别

1. 特质上的区别

显性反馈行为：用户明确表示对物品喜好的行为。
隐性反馈行为：不能明确反映用户喜好的行为。

隐性反馈的特性

没有负反馈。隐性反馈无法判断是否不喜欢。而显性反馈，明显能区分是喜欢还是不喜欢。
先天性具有噪声。用户购买了某物品，并不代表他喜欢，也许是送礼，也许买了之后发现不喜欢。
显性反馈数值代表偏好程度，隐性反馈数值代表置信度。隐性反馈的数值通常是动作的频次，频次越多，并不代表偏好值越大。比如一个用户经常看某部连续剧，可能该用户对该连续剧的喜好值一般，只是因为每周都播，所以动作频次很大，假如该用户对某部电影超级喜欢，但可能就看过一次，因此动作频次大并不反应偏好值大。从这个用户经常看这部连续剧这个行为，只能推断出该用户喜欢这连续剧有很大的置信度，但这个用户对这个连续剧的偏好值是多少我们无法评估。
隐性行为需要近似评估。

2. 两反馈在数据在处理上的区别

case 1 [参考《recommender Systems Handbook》第五章]

损失函数：

R M S E = \sum ( u , i ) \in T e s t S e t ( r u i - r ^ u i ) 2 | T e s t S e t | - - - - - - - - - - - - - - - - - - - \sqrt

其中

r^ui 如下：

r^u i = μ + b i + b u + q T i (p u + | R (u) | - 1 2 \sum j \in R (u) y j)

其中：
1.

Pu 为显性反馈所代表的部分
2.

|R(u)|−12∑j∈R(u)yj 为隐性反馈所代表的部分
3.

R(u) 用户u评价过的商品集合
3.

y 是一个item行rank列的矩阵

• bu←bu+γ⋅(eui−λ5⋅bu)
• bi←bi+γ⋅(eui−λ5⋅bi)
• qi←qi+γ⋅(eui⋅(pu+|R(u)|−12∑j∈R(u)yj)−λ6⋅qi)
• pu←pu+γ⋅(eui⋅qi−λ6⋅pu)
• ∀j∈R(u) :
　　 yj←yj+γ⋅(eui⋅|R(u)|−12⋅qi−λ6⋅yj)

该情景中同时有隐性反馈和显性反馈的数据

case2：[参考Collaborative Filtering for Implicit Feedback Datasets ]

Loss function：

L = \sum u, i c u, i (p u, i - x T u y i) 2 + λ (\sum u | | x u | | 2 + \sum i | | y i | | 2)

其中：

p u i = {10 (r u i > 0) (r u i = 0)

c u i = 1 + α r u i

与显性反馈的处理有两个重要区别：
1. 需要计算置信度 c
2. 计算时需要计算所有可能的 u,i 对，而不仅是数据中出现的 u,i 对。

ALS最优解推导：

\partial L \partial x u r = \partial \sum i c u , i ( p u , i - \sum r a n k 1 x u r y r i ) 2 + λ ( x 2 u r ) \partial x u r = 2 λ x u r - \sum i 2 c u, i (p u, i - \sum 1 r a n k x u r y r i) y r i 令 x u r = x u r 0 + ε, e u i = (p u, i - \sum 1 r a n k x u r 0 y r i) 得 (p u, i - \sum 1 r a n k x u r y r i) = e u, i - ε y r i \partial L \partial ε = 2 λ (x u r 0 + ε) - \sum i 2 c u, i e u i 0 y r i - \sum i 2 c u, i ε y 2 r i = 0 \Rightarrow ε = \sum i c u , i e u i 0 y r i - λ x u r 0 λ - \sum i c u , i y 2 r i \Rightarrow x u r = x u r 0 + \sum i c u , i e u i 0 y r i - λ x u r 0 λ - \sum i c u , i y 2 r i

Spark的ALS算法Explicit vs. implicit feedback中明确指出隐反馈的处理方式是采用该论文中所使用的处理方式。
该情景中只有隐性反馈。
以下为论文中梯度为0的解
xu=(YTCuY+λI)−1YTCup(u)
yi=(XTCiX+λI)−1XTCip(i)

ALS最优化求解 Nonnegative Matrix Factorization

求解NMF问题：用维度较低的非负矩阵B，C 表示高维矩阵A

A \approx B * C s . t . B; C > = 0

目标函数：
1. Least-squares NMF

m i n 1 2 | | A - B C | | 2 F s . t . B; C > = 0

2. KL-Divergence NMF

m i n \sum i j A i j l o g ( B C ) i j A i j - A i j + (B C) i j s . t . B; C > = 0

AltMin (AM)/AltDesc：
1 初始化 B0,k=0
2 计算 Ck+1s.t.F(A;BkCk+1)<=F(A;BkCk)
3 计算 Bk+1s.t.F(A;Bk+1Ck+1)<=F(A;BkCk+1)
4 k=k+1 , 迭代直到最终精度满足.
ALS （NFM） ：

C = a r g m i n C | | A - B k C k | | 2 F, C k + 1 = m a x (0, C)

B = a r g m i n B | | A - B C k + 1 | | 2 F, B k + 1 = m a x (0, B)

NALS ：

C = a r g m i n C | | A - B k C k | | 2 F, s . t . C > = 0

B = a r g m i n B | | A - B C k + 1 | | 2 F, s . t . B > = 0

Block coordinate descent(BCD)：

高斯迭代法 Gauss-Seidel update

x k + 1 i \leftarrow a r g m i n ε \in χ i f (x k + 1 1, . ., x k + 1 i - 1                d o n e, ε    c u r r e n t, x k i + 1, . ., x k m              t o d o)

更新xi时，xi之前的变量已经更新。
雅可比迭代法 Jacobi update (easy to parallelize)

x k + 1 i \leftarrow a r g m i n ε \in χ i f (x k 1, . ., x k i - 1            d o n' t c l o b b e r, ε    c u r r e n t, x k i + 1, . ., x k m              t o d o)

更新xi时，xi之前的变量使用更新之前的结果。

附录：矩阵的 F-范数：

∥ A ∥ F = (\sum i = 1 m \sum j = 1 n a 2 i j) 1 2

ALS求解最优解

参考：
1. recommender Systems Handbook 第五章
1. Collaborative Filtering for Implicit Feedback Datasets

秒客网

协同过滤中显性反馈与隐性反馈的区别（附ALS最优化）