From bdb6568ae5be4ad40c08abcc3a61142a8404fbbe Mon Sep 17 00:00:00 2001 From: alikia2x Date: Mon, 10 Feb 2025 23:48:01 +0000 Subject: [PATCH] doc: GitBook - Chinese version --- doc/zh/README.md | 10 ++--- doc/zh/SUMMARY.md | 21 +++++----- doc/zh/about/scope-of-inclusion.md | 19 ++++++++- doc/zh/about/this-project.md | 39 ++++++++++++++++++- doc/zh/api-doc/catalog.md | 4 +- doc/zh/api-doc/songs.md | 3 +- .../architecture/artificial-intelligence.md | 13 +++++++ .../architecture/database-structure/README.md | 10 +++++ .../database-structure/type-of-song.md | 24 ++++++++++++ doc/zh/architecture/overview.md | 18 +++++++++ doc/zh/architecure/overview.md | 18 --------- 11 files changed, 142 insertions(+), 37 deletions(-) create mode 100644 doc/zh/architecture/artificial-intelligence.md create mode 100644 doc/zh/architecture/database-structure/README.md create mode 100644 doc/zh/architecture/database-structure/type-of-song.md create mode 100644 doc/zh/architecture/overview.md delete mode 100644 doc/zh/architecure/overview.md diff --git a/doc/zh/README.md b/doc/zh/README.md index 88bed9b..7c7f8e0 100644 --- a/doc/zh/README.md +++ b/doc/zh/README.md @@ -13,12 +13,12 @@ layout: visible: false --- -# Welcome +# 欢迎 -Welcome to the CVSA Documentation! +欢迎阅读CVSA文档! -This doc contains various information about the CVSA project, including technical architecture, tutorials for visitors, etc. +该文档包含有关中V档案馆项目的各种信息,包括本项目的有关信息、技术架构、访客指南、API文档等。 -### Jump right in +### 导航 -
About CVSASome information you might want to know about..
ArchitectureThe technical details about how CVSA was built.broken-reference
API DocDocumentation about APIs provided by CVSA.broken-reference
+
关于本项目一些你可能想知道的…this-project.md
技术架构关于本项目的技术细节Broken link
API 文档 中V档案馆公开 API 的文档Broken link
🇺🇸 English VersionHint: There's a language switcher on the top-left corner, just to the right of the logo.CVSA Doc English
diff --git a/doc/zh/SUMMARY.md b/doc/zh/SUMMARY.md index 3c3cbd3..037203f 100644 --- a/doc/zh/SUMMARY.md +++ b/doc/zh/SUMMARY.md @@ -1,17 +1,20 @@ # Table of contents -* [Welcome](README.md) +* [欢迎](README.md) -## About +## 关于 -* [About CVSA Project](about/this-project.md) -* [Scope of Inclusion](about/scope-of-inclusion.md) +* [关于本项目](about/this-project.md) +* [收录范围](about/scope-of-inclusion.md) -## Architecure +## 技术架构 -* [Overview](architecure/overview.md) +* [概览](architecture/overview.md) +* [数据库结构](architecture/database-structure/README.md) + * [歌曲类型](architecture/database-structure/type-of-song.md) +* [人工智能](architecture/artificial-intelligence.md) -## API Doc +## API 文档 -* [Catalog](api-doc/catalog.md) -* [Songs](api-doc/songs.md) +* [目录](api-doc/catalog.md) +* [歌曲](api-doc/songs.md) diff --git a/doc/zh/about/scope-of-inclusion.md b/doc/zh/about/scope-of-inclusion.md index a32d1a1..c985544 100644 --- a/doc/zh/about/scope-of-inclusion.md +++ b/doc/zh/about/scope-of-inclusion.md @@ -1,2 +1,19 @@ -# Scope of Inclusion +# 收录范围 +中V档案馆收录许多有关中文歌声合成的内容,包括歌曲、专辑、艺术家(发布者、调校师、编曲者等)、歌手以及引擎/声库。 + +对于一首**歌曲**,必须满足以下条件才能被收录到中V档案馆中: + +#### VOCALOID·UATU 分区 + +原则上,中V档案馆中收录的歌曲必须包含在哔哩哔哩 VOCALOID·UTAU 分区(分区ID为30)下的视频中。在某些特殊情况下,此规则可能不是强制的。 + +#### 至少一行中文 + +歌曲的歌词必须包含至少一行中文。这意味着,即使使用了仅支持中文的声库,如果歌曲的歌词中没有中文,也不会被收录到中V档案馆中(例如,跨语种调校)。 + +#### 使用歌声合成器 + +歌曲的至少一行必须由歌声合成器生成(包括和声部分),才能被收录到中V档案馆中。 + +我们将歌声合成器定义为通过算法建模声音特征并根据输入的歌词、音高等参数生成音频的软件或系统,包括基于波形拼接的(如 VOCALOID、UTAU)和基于 AI 的(如 Synthesizer V、ACE Studio)方法,**但不包括仅改变现有歌声音色的AI声音转换器**(例如 [so-vits svc](https://github.com/svc-develop-team/so-vits-svc))。 diff --git a/doc/zh/about/this-project.md b/doc/zh/about/this-project.md index 6db29ee..9459d8e 100644 --- a/doc/zh/about/this-project.md +++ b/doc/zh/about/this-project.md @@ -1,2 +1,39 @@ -# About CVSA Project +# 关于本项目 +「中V档案馆」是一个旨在收录与展示「中文歌声合成作品」及有关信息的网站。 + +### 创建背景与关联工作 + +纵观整个互联网,对于「中文歌声合成」或「中文虚拟歌手」(常简称为中V或VC)相关信息进行较为系统、全面地整理收集的主要有以下几个网站: + +* [萌娘百科](https://zh.moegirl.org.cn/): 收录了大量中V歌曲及歌姬的信息,呈现形式为传统维基(基于[MediaWiki](https://www.mediawiki.org/))。 +* [VCPedia](https://vcpedia.cn/): 由原萌娘百科中文歌声合成编辑团队的部分成员搭建,专属于中文歌声合成相关内容的信息集成站点[^1],呈现形式为传统维基(基于[MediaWiki](https://www.mediawiki.org/))。 +* [VocaDB](https://vocadb.net/): [一个围绕 Vocaloid、UTAU 和其他歌声合成器的协作数据库,其中包含艺术家、唱片、PV 等](#user-content-fn-2)[^2],其中包含大量中文歌声合成作品。 +* [天钿Daily](https://tdd.bunnyxt.com/):一个VC相关数据交流与分享的网站。致力于VC相关数据交流,定期抓取VC相关数据,选取有意义的纬度展示。 + +上述网站中,或多或少存在一些不足,例如: + +* 萌娘百科、VCPedia受限于传统维基,绝大多数内容依赖人工编辑。 +* VocaDB基于结构化数据库构建,由此可以依赖程序生成一些信息,但**条目收录**仍然完全依赖人工完成。 +* VocaDB主要专注于元数据展示,少有关于歌曲、作者等的描述性的文字,也缺乏描述性的背景信息。 +* 天钿Daily只展示歌曲的统计数据及历史趋势,没有关于歌曲其它信息的收集。 + +因此,**中V档案馆**吸取前人经验,克服上述网站的不足,希望做到: + +* 歌曲收录(指发现歌曲并创建条目)的完全自动化 +* 歌曲元信息提取的高度自动化 +* 歌曲统计数据收集的完全自动化 +* 在程序辅助的同时欢迎并鼓励贡献者参与编辑(主要为描述性内容)或纠错 +* 在适当的许可声明下,引用来自上述源的数据,使内容更加全面、丰富。 + + + +*** + +本文在[CC BY-NC-SA 4.0协议](https://creativecommons.org/licenses/by-nc-sa/4.0/)提供。 + + + +[^1]: 引用自[VCPedia](https://vcpedia.cn/%E9%A6%96%E9%A1%B5),于[知识共享 署名-非商业性使用-相同方式共享 3.0中国大陆 (CC BY-NC-SA 3.0 CN) 许可协议](https://creativecommons.org/licenses/by-nc-sa/3.0/cn/)下提供。 + +[^2]: 翻译自[VocaDB](https://vocadb.net/),于[CC BY 4.0协议](https://creativecommons.org/licenses/by/4.0/)下提供。 diff --git a/doc/zh/api-doc/catalog.md b/doc/zh/api-doc/catalog.md index 7038934..a2b70ae 100644 --- a/doc/zh/api-doc/catalog.md +++ b/doc/zh/api-doc/catalog.md @@ -1,3 +1,3 @@ -# Catalog +# 目录 -* [**Songs**](songs.md) +* [歌曲](songs.md) diff --git a/doc/zh/api-doc/songs.md b/doc/zh/api-doc/songs.md index d62d620..fd3d99c 100644 --- a/doc/zh/api-doc/songs.md +++ b/doc/zh/api-doc/songs.md @@ -1,2 +1,3 @@ -# Songs +# 歌曲 +暂未实现。 diff --git a/doc/zh/architecture/artificial-intelligence.md b/doc/zh/architecture/artificial-intelligence.md new file mode 100644 index 0000000..8d08f07 --- /dev/null +++ b/doc/zh/architecture/artificial-intelligence.md @@ -0,0 +1,13 @@ +# 人工智能 + +CVSA 的自动化工作流高度依赖人工智能进行信息提取和分类。 + +我们目前使用的 AI 系统有: + +#### Filter + +位于项目根目录下的 `/filter/`,它将 [30 分区](../about/scope-of-inclusion.md#vocaloiduatu-fen-qu) 中的视频分为以下类别: + +* 0:与中文人声合成无关 +* 1:中文人声合成原创曲 +* 2:中文人声合成的翻唱/混音歌曲 diff --git a/doc/zh/architecture/database-structure/README.md b/doc/zh/architecture/database-structure/README.md new file mode 100644 index 0000000..15d0a59 --- /dev/null +++ b/doc/zh/architecture/database-structure/README.md @@ -0,0 +1,10 @@ +# 数据库结构 + +CVSA 使用 [PostgreSQL](https://www.postgresql.org/) 作为数据库。 + +CVSA 的所有公开数据(不包括用户的个人数据)都存储在名为 `cvsa_main` 的数据库中,该数据库包含以下表: + +* songs:存储歌曲的主要信息 +* bili\_user:存储 Bilibili 用户信息快照 +* all\_data:[分区 30](../../about/scope-of-inclusion.md#vocaloiduatu-fen-qu) 中所有视频的元数据。 +* labelling\_result:包含由我们的 AI 系统 标记的 `all_data` 中视频的标签。 diff --git a/doc/zh/architecture/database-structure/type-of-song.md b/doc/zh/architecture/database-structure/type-of-song.md new file mode 100644 index 0000000..22aef46 --- /dev/null +++ b/doc/zh/architecture/database-structure/type-of-song.md @@ -0,0 +1,24 @@ +# 歌曲类型 + +**不相关** 特指不在我们的 [收录范围](../../about/scope-of-inclusion.md) 中的视频。 + +#### 表格:`songs` + +`songs` 表格中使用的 `type` 列。 + +| 类型 | 说明 | +| -- | ---------- | +| 0 | 不相关 | +| 1 | 原创 | +| 2 | 翻唱 (Cover) | +| 3 | 混音 (Remix) | +| 4 | 纯音乐 | +| 10 | 其他 | + +#### 表格:`labelling_result` + +| 标签 | 说明 | +| -- | ----------- | +| 0 | AI 标记:不相关 | +| 1 | AI 标记:原创 | +| 2 | AI 标记:翻唱/混音 | diff --git a/doc/zh/architecture/overview.md b/doc/zh/architecture/overview.md new file mode 100644 index 0000000..33dbe0d --- /dev/null +++ b/doc/zh/architecture/overview.md @@ -0,0 +1,18 @@ +--- +icon: globe-pointer +layout: + title: + visible: true + description: + visible: false + tableOfContents: + visible: true + outline: + visible: true + pagination: + visible: true +--- + +# 概览 + +自动化是 CVSA 技术设计的最大亮点,为了实现自动化,我们使用BullMQ驱动的消息队列来并发处理数据采集生命周期中的各项任务。 diff --git a/doc/zh/architecure/overview.md b/doc/zh/architecure/overview.md deleted file mode 100644 index d80036e..0000000 --- a/doc/zh/architecure/overview.md +++ /dev/null @@ -1,18 +0,0 @@ ---- -icon: globe-pointer -layout: - title: - visible: true - description: - visible: false - tableOfContents: - visible: true - outline: - visible: true - pagination: - visible: true ---- - -# Overview - -Automation is the biggest highlight of CVSA's technical design. To achieve this, we use a message queue powered by [BullMQ](https://bullmq.io/) to concurrently process various tasks in the data collection life cycle.