地域の貴重な言葉(方言)や歴史を、お年寄りへのインタビューなどを通じて記録する「聞き書き」。最近は録音した音声をAIで自動文字起こしできるようになり、作業が劇的に楽になりました。
一方、AIの文字起こしでは、方言が勝手に標準語に直されてしまったり、肝心なところが抜けてしまうことがしばしばあります。AIは「綺麗な文章」を作るのは得意ですが、ありのままの「生の音声」を忠実に拾うのは苦手っぽい。
この記事では、AIの弱点をカバーしながら原文文字起こしを実現し、そこから「方言辞書のたたき台」を作るまでのプロセスをメモしています。地域の言葉を記録する活動に、ご活用ください。
AIによる音声認識の精度は、録音時の「音のクリアさ」に直結する。以下の基準で機材と環境を準備する。
- マイクの選定
- 【推奨】ピンマイク(ラベリアマイク)
インタビュアーと話し手の襟元にそれぞれ装着する。声の輪郭がクリアになり、誰が話しているかの区別(話者分離)が確実に行える。 - 【代替】ICレコーダー
机に直置きせず、必ず小さな三脚を立てるか、下に厚手のタオルを敷いて机の振動音を吸収させる。
- 【推奨】ピンマイク(ラベリアマイク)
- 録音環境の整備
- 体育館や広い和室など、声が響く(反響する)場所は避ける。適度に音が吸収される一般的な居間が望ましい。
- エアコンや扇風機の風がマイクに直接当たらないようにし、テレビやラジオは必ず電源を切る。
マイクを前にすると「よそ行き言葉」になりやすいため、事前の世間話でリラックスさせ、「いつもの言葉で話してほしい」と明確に伝える。録音中はAIを混乱させないため、以下のルールを遵守する。
- 相槌は「声」ではなく「目と表情」で打つ
声が重なるとAIは文字起こしを欠落させる。話の最中は「へえ」などの発声を堪え、深い頷きなどのボディランゲージで共感を示す。 - 相手が話し終わったら「心の中で2秒数えてから」話す
話し手が言葉を探す沈黙と、発言の終了をAIに区別させるため、すぐに話し始めず必ず「間」を空ける。 - わからない言葉は、クリアな声で「オウム返し」する
小さな声の方言はAIが誤変換しやすい。聞き取れなかった言葉は「あ、今〇〇と仰ったんですね」とインタビュアーがはっきり復唱し、音声データに記録を残す。 - 固有名詞は「タイムスタンプ付き」で手書きメモを残す
AIはローカルな地名、人名、昔の道具名などを高い確率で誤変換する。「単語」と「録音時間(例:15分30秒頃)」を手元のメモに残し、後工程の修正に備える。 - 沈黙やフィラー(言い淀み)もそのまま許容する
「あのー」「えーっと」等の言葉も生きた会話の一部である。綺麗な文章にする必要はない旨を伝え、ゆったりとしたペースで進行する。
録音した音声データを、音声認識AI(または文字起こしソフト)に入力する。
- テキスト化の指示(プロンプト):AIに文字起こしを依頼する際は「標準語に翻訳したり、意味を推測して漢字に変換したりせず、聞こえた音声をそのまま一言一句ひらがなで書き起こすこと。言い淀みも含めること」と強力に指示を出す。
【指示】
あなたはプロの文字起こし専門家です。 添付された音声データは、[〇〇県〇〇市]の地域の言葉(方言)による会話です。 この音声を、以下の【絶対ルール】に厳密に従ってテキスト化してください。【絶対ルール】
- 発音への忠実性: 聞こえた「音」をそのまま一言一句、すべて「ひらがな(またはカタカナ)」で書き起こしてください。意味を推測して標準語の漢字に変換しないでください。
- 標準語化(翻訳)の禁止: 方言特有の語彙、語尾、訛りによる音の変化を、絶対に標準語の綺麗な文章に修正・翻訳しないでください。
- フィラーの保持: 「あー」「えーっと」「そのー」などの言い淀み(フィラー)、相槌、言い間違い、笑い声なども一切省略せず、聞こえた通りにすべて文字にしてください。
- 推測補完の禁止: 音声が不鮮明で聞き取れない箇所は、無理に文脈から推測して言葉を当てはめず、
[聞き取り不能: 〇〇分〇〇秒]と記載してください。【出力フォーマット】
インタビュアーと話し手の発言を分け、以下のように出力してください。話者A(インタビュアー):[ひらがなでの文字起こしテキスト]
話者B(話し手):[ひらがなでの文字起こしテキスト]
手順3で出力された「ひらがな・カタカナ主体のテキスト」を、Gemini等の生成AIに入力し、辞書のたたき台を作成させる。以下の [ ] 部分を埋め、プロンプトとして実行する。
【指示】
あなたは優秀な言語学者であり、方言研究の専門家です。
以下の【会話テキスト】は、[〇〇県〇〇市]の言葉(方言)を、発音通りに忠実に文字起こししたものです。このテキストを読み込み、標準語にはない独特の語彙や言い回しを抽出して、辞書形式で出力してください。
【ルール】
- 抽出対象: 標準語と異なる単語、独特の語尾(助動詞・終助詞)、感嘆詞、フィラーなどをすべて抽出すること。
- 意味の推測: 前後の文脈から、その言葉の「標準語訳」と「品詞」を推測すること。
- ハルシネーション(嘘)の禁止: 文脈から意味が推測できない場合や、確証が持てない場合は、決して嘘の意味を創作せず、標準語訳の欄に「要確認」と記載すること。
- 用例の抽出: その言葉が実際に使われていた【会話テキスト】内の「一文」を、そのまま一言一句変えずに「用例文」として抜き出すこと。
【出力フォーマット】
以下の項目を持つMarkdown形式の表で出力すること。
- 見出し語(地域の言葉):ひらがな・カタカナ表記
- 標準語訳(推測):推測した意味(不明な場合は「要確認」)
- 品詞:名詞、動詞、助詞、語尾など
- 用例文(元の発言):会話テキストからそのまま抜粋
- 用例文(標準語訳):用例文の標準語訳
- 備考:推測の根拠となった文脈や、特記事項など
【会話テキスト】
[ここに文字起こししたテキストを貼り付ける。インタビュアーの相槌やオウム返しした言葉もすべて含めること。]
AIが出力した辞書は、あくまで「たたき台」なので、手順2の手書きメモを参照しながら、最終的な答え合わせを行う。
- 「要確認」となっている単語の意味を補完する。
- 推測された標準語訳のニュアンスが違っている場合は、地域のネイティブ話者や専門家の知見を元に修正を行う。
- この推測と修正のサイクルを回すことで、精度の高い「地域の言葉辞書」を完成させる。
最後に
AIは万能ではないですが、「AIが苦手なこと」を織り込みながら使うことで、情報の欠落を減らしながら省力化が可能になります。まずは対話と録音から。
