sql.php 4.5 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154
  1. <?php
  2. /*
  3. * 该脚本用于生成 SQL 语句, 将三藏语料 CSV 数据 (如:abh01a.att.csv)
  4. * 转换为 SQL 语句插入到 PostgreSQL 内,数据表结构参见 fts.sql
  5. * 由于懒惰,没有优化脚本,占用了较多内存,所以执行时请多给 PHP 一些内存:
  6. * php -d memory_limit=1024M sql.php
  7. *
  8. */
  9. function is_pali_word ($str) {
  10. $pali_word_exp = "/^[āīūṅñṭḍṇḷṃṁŋĀĪŪṄÑṬḌṆḶṂṀŊabcdefghijklmnoprstuvyABCDEFGHIJKLMNOPRSTUVY-]+$/";
  11. return preg_match($pali_word_exp, $str) === 1;
  12. }
  13. /*
  14. *
  15. * 通过黑体字数组来计算黑体字连续出现的次数
  16. * 参数样例: ['a', '', '', 'b', 'c', 'd', '','','e','f', '', 'g','h']
  17. * 函数返回值样例:
  18. *
  19. * Array
  20. * (
  21. * [bold_single] => a
  22. * [bold_double] => e f , g h
  23. * [bold_multiple] => b c d
  24. * )
  25. *
  26. * */
  27. function count_bld ($bld_array) {
  28. $prev = '';
  29. $bag = [];
  30. $result = [];
  31. // 添加最后一个空白结束占位符
  32. array_push($bld_array, '');
  33. foreach($bld_array as $v) {
  34. if (empty($v)) {
  35. $prev = $v;
  36. if (!empty($bag)) {
  37. array_push($result, $bag);
  38. $bag = [];
  39. }
  40. continue;
  41. } else {
  42. array_push($bag, $v);
  43. }
  44. }
  45. $final_result = [];
  46. foreach($result as $v) {
  47. $cnt = count($v);
  48. $content = join(' ', $v);
  49. if ($cnt == 1) {
  50. $key = 'bold_single';
  51. } else if ($cnt == 2) {
  52. $key = 'bold_double';
  53. } else if ($cnt > 2) {
  54. $key = 'bold_multiple';
  55. }
  56. if (empty($final_result[$key])) {
  57. $final_result[$key] = $content;
  58. } else {
  59. $final_result[$key] .= (' , ' . $content);
  60. }
  61. }
  62. return $final_result;
  63. }
  64. // 查找 tmp/palicsv/ 目录下的语料数据
  65. $palicsv_path = '../../tmp/palicsv/';
  66. $scan = scandir($palicsv_path);
  67. foreach($scan as $foldername) {
  68. if (is_dir("$palicsv_path/$foldername")) {
  69. $csv_file = "$palicsv_path/$foldername/$foldername.csv";
  70. // DEBUG
  71. // if ($foldername != 'abh01m.mul') continue;
  72. if (is_file($csv_file)) {
  73. echo '正在处理文件: ' . PHP_EOL . $csv_file . PHP_EOL;
  74. // 存放当前正在处理的 CSV 文件生成的所有 SQL
  75. $sql_from_csv = '';
  76. // 初始化段落为 0 (没有这种段落)
  77. $paragraph = 0;
  78. // 初始化当前段落的黑体字数组
  79. $bold_text = [];
  80. if (($handle = fopen($csv_file, "r")) !== FALSE) {
  81. while (($data = fgetcsv($handle, 1000, ",")) !== FALSE) {
  82. $current_word = $data[5];
  83. $style = $data[15];
  84. if ($style == 'paranum') {
  85. // 如果是段落编号,则保留数字
  86. $current_word = $data[4];
  87. } else if (!is_pali_word($current_word)) {
  88. /*
  89. * 如果当前单词不是巴利语单词,则忽略,当作它不存在
  90. * TODO 这样的处理方式,可能不合适,如下面场景:
  91. * bld1 - bld2
  92. * bld1 和 bld2 是否应该分开对待呢?
  93. */
  94. continue;
  95. }
  96. if ($paragraph == $data[3]) {
  97. // 如果是同一段落,那么合并段落中的内容,中间加入空格
  98. $content .= ' ' . $current_word;
  99. // wid 取最后一个不为空的值 TODO (不一定合适)
  100. $wid = empty($data[1]) ? $wid : $data[1];
  101. array_push($bold_text, $style == 'bld' ? $current_word : '');
  102. } else {
  103. // 如果是不同段落
  104. if ($paragraph !== 0) {
  105. // 如果刚才已经记录有数据,则转换为 SQL
  106. $bold_result = count_bld($bold_text);
  107. $bold_single = $bold_result['bold_single'];
  108. $bold_double = $bold_result['bold_double'];
  109. $bold_multiple = $bold_result['bold_multiple'];
  110. $sql_from_csv .=
  111. "INSERT INTO fts VALUES ($paragraph, '$book', '$wid', '$bold_single', '$bold_double', '$bold_multiple', '$content');" . PHP_EOL;
  112. // 转换后,重置黑体字数据
  113. $bold_text = [];
  114. }
  115. // 如果是不同段落,则赋新的值
  116. $content = $current_word;
  117. $paragraph = $data[3];
  118. $book = $data[2];
  119. $wid = $data[1];
  120. array_push($bold_text, $style == 'bld' ? $current_word : '');
  121. }
  122. }
  123. fclose($handle);
  124. }
  125. file_put_contents("./sql/$foldername.sql", $sql_from_csv);
  126. // DEBUG 仅生成一个文件,测试用
  127. // exit;
  128. }
  129. }
  130. }
  131. echo "Done. Amitābha \n";
  132. ?>