pvldb
2022-2023 Volume16 No.1
- 《C5: Cloned Concurrency Control That Always Keeps Up》: 克隆并发协议会导致并发性的滞后,这种情况下写入复制到备份可能需要任意长的时间,可能会导致生产级别的灾难。本文设计了C5,这是首个提供有界复制滞后的克隆并发协议。实验表明,C5与最快的主数据库能保持同步。
- 《The Case for Distributed Shared-Memory Databases with RDMA-Enabled Memory Disaggregation》:分布式共享内存数据库和RDMA支持的MD实际案例
- 《FlexChain: An Elastic Disaggregated Blockchain》:一种新型的区块链系统
- 《MiCS: Near-linear Scaling for Training Gigantic Model on Public Cloud》:巨型模型训练通信开销巨大,所以提出MiCS降低通信开销,MiCS的系统吞吐量是最先进的大型模型训练系统的2.89倍
- 《Privacy-preserving Cooperative Online Matching over Spatial Crowdsourcing Platforms》:提出保护隐私的合作在线匹配(PCOM),能保护用户和工作者在各自平台上的隐私。设计了一个框架,并提供该框架满足差分隐私属性的理论证明
- 《Coresets over Multiple Tables for Feature-rich and Data-efficient Machine Learning》:深度学习相关,摘要看不懂
- 《STARRY: Multi-master Transaction Processing on Semi-leader Architecture》:多主架构下的事务提交协议,基于Semi-leader,吞吐量是无领导者的1.4倍,是基于领导者的4.21倍
- 《SIFTER: Space-Efficient Value Iteration for Finite-Horizon MDPs》:提出了SIFTER算法,解决FHMDPs问题的同时不需要占用太多的内存
- 《TreeLine: An Update-In-Place Key-Value Store for Modern Storage》:文章认为NVMe SSD上不需要用读性能换取写性能,只要有足够的并行性,NVMe SSD的随机和顺序访问性能就不相上下,文本在名为TreeLine的update-in-plcae原型下实现了这一想法并做出评估,比RocksDB高2.2倍
- 《DPXPlain: Privately Explaining Aggregate Query》:差分隐私中的一些挑战
2022-2023 Volume16 No.2
- 《Efficient Maximum k-Plex Computation over Large Sparse Graphs》:本文针对最大𝑘-plex 问题设计了一种新算法 kPlexS,它有三个新贡献:1.提出了一个计算大型稀疏图上最大𝑘-plex 的新框架,方法是迭代提取其中的小型密集子图,然后通过分支和边界搜索求解每个提取的密集子图。 2. 提出了一种高效的缩减算法 CTCP,通过穷举顶点缩减和边缩减来减小输入图的大小。3. 开发了一种分支与边界算法 BBMatrix,专门针对从输入图中提取的密集子图。文中的算法kPlexS优于最先进的算法BnB、Maplex和KpLeX。
- 《Online Schema Evolution is (almost) Free for Snapshot Databases》:本文介绍的 Tesseract 是一种新的在线事务模式演进方法,Tesseract 能够提供在线事务模式演进,而不会造成服务停机,并在模式演进过程中保持较高的应用性能。
- LIDER: An Efficient High-dimensional Learned Index for Large-scale Dense Passage Retrieval:最近的段落检索算法一般是通过语料库的embedding,然后用高性能的ANN模块进行索引和搜索。另一种是学习索引来提高检索效率。本文提出的高维学习索引LIDER用于大规模语段检索
- Models and Mechanisms for Spatial Data Fairness:数据驱动决策中的公平性研究
- Influence Maximization in Real-World Closed Social Networks:封闭网络信息扩散算法
- Time2Feat: Learning Interpretable Representations for Multivariate Time Series Clustering:多变量时间序列聚类的端到端机器学习系统Time2Feat
- OpBoost: A Vertical Federated Tree Boosting Framework Based on Order-Preserving Desensitization:该文研究FL(垂直联合学习)下的隐私保护树提升算法。现有基于密码学的解决方案网络和计算开销很大且容易被推理攻击。LDP(局部差分隐私)能解决,但是性能也慢,本文提出了这个算法既满足FL下的差分隐私,性能和准确性又优于LDP,代码还开源
- HMAB: Self-Driving Hierarchy of Bandits for Integrated Physical Database Design Tuning:看不太懂,看摘这是一个商业物理数据库设计工具,可以直接观察性能,避免了优化器的成本误估,同时谨慎地利用其知识来修剪不那么有用的探索路径