Răsfoiți Sursa

:memo: 建立文档CSCD4 巴利语文献语料库

visuddhinanda 4 ani în urmă
părinte
comite
38fcdb6ac7
1 a modificat fișierele cu 71 adăugiri și 0 ștergeri
  1. 71 0
      palihtml/README.md

+ 71 - 0
palihtml/README.md

@@ -0,0 +1,71 @@
+# CSCD4 巴利语文献语料库
+
+语料库文件提取自PCED软件。原始数据来自于[CSCD v4](https://www.vridhamma.org/Tipitaka-Project#TipitakaCD)。
+数据来源于缅甸第六次结集。
+
+
+## 文件名:
+
+- 根本: *.mul.htm
+- 义注: *.att.htm
+- 复注: *.tik.htm
+- 其他: *.nrf.htm
+
+## 段落
+段落被`<p>`包裹
+
+## 段落编号
+
+第六次结集段落编号与被<p>包裹的自然段并不完全相同。有些段落编号被分为若干个自然段。这并非电子版制作者所为。缅文字母版纸质书即是如此。
+
+以[s0103m.mul.htm](s0103m.mul.htm)为例:
+- 可显示的段落编号:`<span class="paranum">11</span>`
+- 段落编号锚点:`<a name="para11"></a>`
+- 段落编号+书号 `<a name="para12_dn3"></a>` dn3 = 长部第三本
+两种方式同时使用
+
+## 页码
+
+对应的纸质书页码。
+页码嵌入在文本中`<a name="V3.0004"></a>`。
+`V`版本代号。共五种 
+1. `V` 印度内观中心版
+1. `P` PTS
+1. `M` 缅文版
+1. `T` 泰文版?
+1. `O` 不知道
+
+`第一个数字` 卷号,如长部分为三个卷,卷号分别为1,2,3
+
+`第二个数字` 页码
+
+>页码提取程序 app/install/
+
+## 目录层级
+根据`<p>`class可以大致知道层级
+`<p class="book">` 书名
+有时一个文件里会有多个书名。这代表多本书被放到一起(一本纸质书里)。
+
+有时一本书被分为多个文件:如长部被分为三本书(三个文件)。这种情况发生在书的内容比较多的情况。如长部、中部、相应部
+
+其余的class还有
+- `nikaya` 尼科耶
+- `book` 书名
+- `chapter` 段落名
+- `title`
+- `subhead`
+- `subsubhead`
+- `bodytext` 正文
+- `centered` 正文居中
+- `gatha1` 偈诵第一行
+- `gatha2` 偈诵第二行
+- `gatha3` 偈诵第三行
+- `gathalast` 偈诵最后一行
+- `hangnum` 偈诵编号
+- `indent` 未知
+- `unindented` 未知
+
+以上顺序按照目录层级顺序。但是并不准确。有些书的目录层级与此不同。需要人工校对。人工校对的结果在pali_title目录下*_title.csv
+
+
+>参考pali_text.db3数据库 class字段