语料库文件提取自PCED软件。原始数据来自于CSCD v4。 数据来源于缅甸第六次结集。
段落被<p>包裹
第六次结集段落编号与被
包裹的自然段并不完全相同。有些段落编号被分为若干个自然段。这并非电子版制作者所为。缅文字母版纸质书即是如此。
以s0103m.mul.htm为例:
<span class="paranum">11</span><a name="para11"></a><a name="para12_dn3"></a> dn3 = 长部第三本
两种方式同时使用对应的纸质书页码。
页码嵌入在文本中<a name="V3.0004"></a>。
V版本代号。共五种
V 印度内观中心版P PTSM 缅文版T 泰文版?O 不知道第一个数字 卷号,如长部分为三个卷,卷号分别为1,2,3
第二个数字 页码
页码提取程序 app/install/
根据<p>class可以大致知道层级
<p class="book"> 书名
有时一个文件里会有多个书名。这代表多本书被放到一起(一本纸质书里)。
有时一本书被分为多个文件:如长部被分为三本书(三个文件)。这种情况发生在书的内容比较多的情况。如长部、中部、相应部
其余的class还有
nikaya 尼科耶book 书名chapter 段落名titlesubheadsubsubheadbodytext 正文centered 正文居中gatha1 偈诵第一行gatha2 偈诵第二行gatha3 偈诵第三行gathalast 偈诵最后一行hangnum 偈诵编号indent 未知unindented 未知以上顺序按照目录层级顺序。但是并不准确。有些书的目录层级与此不同。需要人工校对。人工校对的结果在pali_title目录下*_title.csv
参考pali_text.db3数据库 class字段