导言

数据可视化在科研工作中发挥着越来越重要的作用。基于可视化图形,我们可以更好地展示科研数据中的主要特征和规律。以生物医学为例,大多数临床医学学生和初级科研工作者一般需要花费数十天乃至数月的时间去熟悉和掌握常用的数据可视化工具,如 SPSS、Origin 和 Graphpad。之后才有可能去完成部分基础的数据统计分析和可视化。 如果是要专门从事数据分析和建模方向的相关人员则还需额外学习一门甚至数门编程语言(如 MATLAB、R 和 Python )。而要达到能够自由探索数据的水平则还需要额外花费更多时间去深入学习和进阶。

近年来,随着各类云计算平台(如生物医学领域的 Galaxy 和 DNAnexus)、相关 IT 软硬件基础设施的发展(如分布式计算、容器技术、软件包管理器、数据分析流程构建框架等),初级科研工作者已经可以相对比较轻松地获取相关数据的上游分析结果。特别是当常规组学数据的上游分析流程趋于稳定和完善,数据上游分析流程的可自定义程度和可变程度已经大大降低。而数据分析下游流程中的可视化和个性化深度解读已经成为当前用户面临的最大挑战:

  1. 开源用户社区开发的可视化软件或方法大多还没有很好的整合在一个统一的用户接口之下;
  2. 国内缺少活跃的针对科研数据可视化的协作社区,”** 画图群” 成为初级科研用户为数不多的选择;
  3. 国内缺少类似于 Graphpad、MATLAB 核心数据可视化软件和平台,在被美国禁用之后,只能花费额外成本进行流程迁移或重头开始开发;
  4. 相关数据可视化工具仍然相对匮乏,杂志和用户需求旺盛,已发布多年的 Circos 圆圈图可视化,通过封装一些便捷操作就可以发表文章:
    • Rasche H, Hiltemann S. Galactic Circos: User-friendly Circos plots within the Galaxy platform. Gigascience. 2020;9(6):giaa065. doi:10.1093/gigascience/giaa065;
    • Marx H, Coon JJ. MS-Helios: a Circos wrapper to visualize multi-omic datasets. BMC Bioinformatics. 2019;20(1):21. Published 2019 Jan 11. doi:10.1186/s12859-018-2564-9; Yu Y, Ouyang Y, Yao W.
    • shinyCircos: an R/Shiny application for interactive creation of Circos plot. Bioinformatics. 2018;34(7):1229-1231. doi:10.1093/bioinformatics/btx763)
  5. 国内外开发的一些平台和工具用户体验一般:用户界面不够美观;中英文支持的屈指可数;上手仍然有一定难度;部分平台的文件管理不太方便;用户能够主动参与平台建设的屈指可数。

Hiplot 简介

Hiplot 是由 openbiox 社区于 2019 年 10 月发起,并在新冠疫情爆发后快速发展的一个社区开发项目:致力于建立一个快速迭代、支持中英文环境的科研数据可视化平台和协作社区。

目前该平台建设已初具规模,已提供基于 R 语言的 40 余种基础可视化的功能:

  1. area
  2. barplot
  3. barplot-3d
  4. beeswarm
  5. boxplot
  6. bubble
  7. contour-matrix
  8. contour-xy
  9. cor-heatmap
  10. dendrogram
  11. density
  12. donut
  13. dotchart
  14. fan
  15. gantt
  16. half-violin
  17. heatmap
  18. histogram
  19. line
  20. line-errorbar
  21. line-regression
  22. map-china
  23. map-world
  24. parliament
  25. pca
  26. perspective
  27. pie
  28. pie-3d
  29. radar
  30. ribbon
  31. ridge
  32. roc
  33. sankey
  34. scatter
  35. scatter-3d
  36. survival
  37. treemap
  38. tsne
  39. venn
  40. violin
  41. volcano

Hiplot 项目发起的初衷就是为了满足广大临床医学学生和科研工作者科研数据可视化的基础需求:

  1. 基础可视化:覆盖大多数基础的科研可视化功能,参照 SPSS、GraphPad、国内外开发的相关可视化软件和工具
  2. 进阶可视化:包括 Shiny 在内的复杂可视化图形和应用;文献图表的重现和再分析;新的可视化图形展示插件:如基于 Circos、circlize 的二次开发;openbiox 社区贡献的可视化应用(如 UCSCXenaShiny 和 bioshiny)
  3. 其他任务:低计算量的其他任务(如文献数据资源下载、RESTful APIs 访问等)
  4. 文件管理(支持上传、下载、复制、移动、删除、在线预览和编辑等操作)

其他一些我正在收集和考虑纳入 Hiplot 平台中的一些可视化功能:

Hiplot 用户交互界面展示(部分)

登录

注册

基础绘图卡片浏览与检索

绘图示例 | 相关性热图

绘图示例 | 免疫浸润分析

文件上传窗口

文件浏览与管理

文件在线查看和编辑(支持文本文件、XLSX、CSV、TXT 等)

文件在线查看和编辑(支持文本文件、XLSX、CSV、TXT 等)

提交文献原文和附录下载任务(基于 openbiox 社区贡献的 bget 项目)

提交文献原文和附录下载任务(基于 openbiox 社区贡献的 bget 项目)

Hiplot 的后续功能开发计划

  1. 覆盖大部分科研工作者的日常可视化需求;
  2. 部署一些临床相关的机器学习模型供用户使用;
  3. 病毒和微生物组数据的在线分析和可视化;
  4. 文本数据的分析和挖掘;
  5. 其他:输入数据支持格式的扩充;绘图参数的进一步扩充和完善;异常处理代码的完善,自动纠错;RESTful APIs;无缝衔接各大云存储平台;数据结果文件存储格式可选择(如 .Rdata)

申请 Hiplot 内测资格

目前,Hiplot 项目仍然处于 BETA 开发阶段,并主要依托于合作伙伴(科研猫平台)提供的相关资源进行 Web 服务的部署和推广。如果你想申请参与我们的内测计划,请扫描下方二维码进行报名登记:

在社区运维和社区项目建设上有较大贡献的 openbiox 社区成员将可永久免费使用 Hiplot 平台。

如何贡献 Hiplot 项目

  1. 加入我们的用户社区: Discord.. ),并贡献任何你觉得有用的建议和反馈;
  2. 提出任何科研数据可视化相关方面的需求;
  3. 提供任何科研数据可视化相关方面的代码;
  4. 帮助我们进行项目的推广;
  5. 帮助我们完善用户文档;
  6. 为 openbiox 社区和 Hiplot 项目提供经费或计算资源赞助或其他形式的支持。

写在最后

长风破浪会有时,直挂云帆济沧海。希望 Hiplot 项目可以一直长久维护下去,不骄不躁,持续稳步发展。