从 RLT 里推导出
\((\sigma_0, \sigma_1, p)\) 的 preference 数据,其中
\(p\in\{0,0.5,1\}\)