|
Modern Linguistics 2024
基于“讲述中国故事”日语文本的专用分词词表构建研究——以《人民网日文版》为例
|
Abstract:
用日语讲述中国故事、传播中国声音是面向日本构建中国国际形象的重要一环,也是国内日语教育的主要目标之一。《人民网日文版》正是国家对日宣传的重要媒介,可用作培养讲述中国故事日语人才的教学资源。为分析该媒体的对日新闻文本中国形象宣传现状,充分挖掘其教育教学功能,收集《人民网日文本》的新闻文本并构建语料库开展量化分析,是较为有效的研究路径。准确的分词结果是量化分析日语语料的前提,但研究发现,目前的日语分词工具难以处理中国故事日语文本的精确分词,将严重影响分析结论的可靠性。因此,本研究抽取《人民网日文版》新闻文本中与中国社会、经济、文化和科技等相关的日语表述,构建适用于中国故事日语文本的专用分词词表,并评测该词表的实用效果。
Telling China’s story and spreading China’s voice in Japanese are crucial for shaping China’s international image in Japan and are also one of the primary goals of domestic Japanese language education. The People’s Daily Japanese Edition is an important medium for China’s stories towards Japan and can serve as a valuable resource for training Japanese language talents to tell China’s story. To analyze the current state of China’s image publicity in this media’s news texts and to fully exploit its educational functions, collecting and constructing a corpus of these news texts for quantitative analysis is an effective research approach. Accurate word segmentation is a prerequisite for the quantitative analysis of Japanese corpora. However, research has found that current Japanese word segmentation tools struggle to precisely segment texts related to China’s story, which significantly affects the reliability of the analysis results. Therefore, this study extracts Japanese expressions related to Chinese society, economy, culture, and technology from the People’s Daily Japanese Edition news texts, constructs a custom segmentation word dictionary for these texts, and evaluates the accuracy and practicality of this dictionary.
[1] | 尤芳舟. 新文科背景下日语课程思政建设的思考[J]. 外语学刊, 2021(6): 78-82. |
[2] | 毛文伟. 日语自动词性赋码器的信度研究[J]. 外语电化教学, 2012(3): 10-14. |
[3] | 工藤拓. 形態素解析の理論と実装[M]. 京都: 近代科学社, 2018. |
[4] | 伝康晴, 小木曽智信, 小椋秀樹, 山田篤, 峯松信明, 内元清貴, 小磯花絵. コーパス日本語学のための言語資源―形態素解析用電子化辞書の開発とその応用―[J]. 日本語科学, 2007(22): 101-123. |
[5] | 坂本美保, 川原典子, 久本空海, 高岡一馬, 内田佳孝. 形態素解析器『Sudachi』のための大規模辞書開発[C]//言語資源活用ワークショップ発表論文集. 東京: 国立国語研究所, 2018: 118-129. |
[6] | 伝康晴.多様な目的に適した形態素解析システム用電子化辞書[J].人工知能学会誌.2009(24):640-646. |
[7] | 小木曽智信, 小椋秀樹, 近藤明日子. 近代文語文を対象とした形態素解析辞書の開発[C]//言語処理学会第14回年次大会発表論文集. 東京: 言語処理学会, 2008: 225-228. |
[8] | 小木曽智信, 伝康晴, 渡部涼子, 近藤明日子. 現代語コーパスの利用による近代語形態素解析の精度向上[C]//言語処理学会第15回年次大会発表論文集. 神戸: 言語処理学会, 2009: 801-804. |
[9] | 小木曽智信, 小町守, 松本裕治. 歴史的日本語資料を対象とした形態素解析[J]. 自然言語処理, 2013(20): 727-748. |
[10] | 小木曽智信, 小椋秀樹, 田中牧郎, 近藤明日子, 伝康晴. 中古和文を対象とした形態素解析辞書の開発[J]. 情報処理学会, 2010(4): 1-5. |