異文化間におけるあやとりの類似性解析に関する研究論文の紹介
「A global crosscultural analysis of string figures reveals evidence of deep transmission and innovation」(Roope Oskari Kaaronen, Matthew J. Walsh, Allison K. Henrich, Isobel Wisher, Elena Miu, Mikael A. Manninen, Jussi T. Eronen, and Felix Riede : 2024) というあやとりに関する研究論文が、2024年の1月にWeb上で公開されました。(補足資料を含めると約80ページの論文)
またYoutubeにて、論文筆頭著者のRoope Oskari Kaaronen氏による、この研究内容に関する講演動画が今年6月に公開されました。
Kaaronen氏はISFA会員で、フィンランドにあるヘルシンキ大学の博士研究員です。
Kaaronen氏の研究対象は、認知科学、(認知)人類学、文化の進化、複雑性科学、持続可能性科学であり、過去と現在、異文化間の境界を越えて、テクノロジーや文化がどのように進化していったかに興味があるとのことです。(ヘルシンキ大学のKaaronen氏紹介ページや氏の個人サイトより)
あやとりは、世界中の文化の境界を越えて最も普及している遊びの一つであり、数学的に記述することが可能であることから、文化の伝達を研究するための優れた媒体である、とKaaronen氏は講演で述べています。
この度Kaaronen氏に確認し、論文紹介の許諾をいただきました(*1)。以下拙訳で恐縮ですが、論文の内容を紹介したいと思います(講演の内容も一部参考にしています)。
論文紹介の都合上、実際の論文とは異なる構成で紹介していますこと、ご了承ください。(この論文は、「プレプリントサーバー」という、査読の過程を経ないで素早く論文をネットに公開できる環境で公開されているため、データや方法の質、結果の信頼性などには注意を払う必要があります)
【どんな研究論文?】
- あやとりの類似性を調べる数学的な変換手法を考案した
- 世界中の92の異なる文化圏で記録された826のあやとり作品を対象に、作品の類似性に関する解析を行った
- 近隣の文化地域内では、類似するあやとり作品がより見つかる可能性が高い結果が得られ、これまで直感的に観察していたことを世界規模のデータセットで実証した
【過去の研究と比較して、この研究のすごいところは何?】
- 過去に提案された、あやとり作品を数字や記号の情報に変換する手法(*2)は、他の作品と類似性を比較できる手法ではない
- この研究では、2本の紐が交差している箇所に着目し、あやとり作品の類似性を比較することが可能な変換手法を考案した
【研究結果は?】
- 826のあやとり作品を解析して類似性を調べた結果、異文化間で同一する作品として、380作品を83の同一作品に分類することができた
- 近隣の異文化地域では、類似するあやとり作品がより見つかる確率が高い
- 異文化間で同一する作品のうち幾つかは、位置も全く異なる世界中の様々な文化地域で見られる作品もあった
【データ、方法、結果の整合性において留意すべき点はある?】
- インターネットによって文化伝達の性質が根本的に変化したと推測されるため、原則として1990年以前に記録されたあやとり作品を調査対象とした
- 研究実施の制約上、各文化地域から最大25の数のあやとり作品を調査対象とした(最大25作品数の国・地域は、日本、カッパー・イヌイット、ティコピア、ユピクなど)
- 2本の紐が明らかに交差している状態のみ数学的な変換ができるため、数学的な変換が可能でないあやとり作品もあり、全てのあやとり作品に適用した手法ではない
- 作品が描かれたイラストから数学的な変換を行っているため、イラストが不正確に描かれていたり、紐を引っ張る力によって完成形の形状が大きく変わる場合、作品の類似性の結果に影響を与える
【得た結果に対して議論すべき点はある?】
- 近隣の文化地域内では、類似するあやとり作品がより見つかる確率が高いという結果は、距離の近さが文化の伝達における重要な要素である考えを裏付けている
- 4段ばしごの作品は世界中の様々な文化地域でみられる結果であったが、作り方が多くの異文化地域で一致していたり、比較的複雑な作品であることなどから、4段ばしごの起源はもっと昔まで遡った共通の起源がある可能性を示唆している
【今後の課題は?】
- 調査対象であるあやとり作品数を増やす
- 個々の文化地域に対象を絞って局所的に類似性を調べる
以下、あやとり作品の数学的な変換手法と、類似性の調査方法をメインに、論文の内容について詳しく解説したいと思います。
〈あやとり作品の数学的な変換手法について〉
論文では、「String Figure Bibliography(*3)」に記載のいくつかの資料から、世界中の92の異なる文化圏で記録された826のあやとり作品を解析対象としています。類似性の解析を行うために、あやとり作品を“数字の並び”に変換する必要があり、あやとり作品の完成形のイラストから以下のステップに従って変換を行っています。(論文では、下図の4段ばしごの作品を例に変換手順について説明しています)
- 適当な場所(下図の左上の黒丸)から、時計回り・反時計回りのどちらか一方向に紐をたどる(下図では時計回り)
- 2本の紐の交差に当たったら、交差する箇所に数字を順に割り当てていく(既に割り当てた交差を再度通っても、数字は再度割り当てない)
- 全ての交差に数字を割り当てたら、再度黒丸の箇所から紐をたどっていき、交差に当たったら割り当てた数字を列記していく。このとき、交差する紐の上を通ったら正の数、紐の下を通ったら負の数とする
- スタート位置(黒丸)に戻るまで数字を列記していく
4段ばしごの例では、列記した“数字の並び”は以下のようになります。
-1, 2, -3, 4, 5, -6, 7, -8, -9, 10, -11, -12, 13, 14, -15, 16, -17, 18, -4, 3, 19, -20, -2, 1, 21, -22, 23, 24, -25, -26, 27, 17, -16, -13, 12, 11, -10, 9, 8, -7, -14, 15, 6, -5, -18, -27, 26, -19, 20, 25, -24, -23, 22, -21
この方法は「Gauss code」や「Gauss notation」と呼ばれ、結び目理論の分野で用いられる手法の一つになります。このGauss codeの手法によって作品を数字に変換することができ、人間の目による感覚で判断するのではなく、変換した“数字の並び”によってあやとりの類似性を調査する試みをこの研究では行なっています。
しかしながら、4段ばしごの作品をGauss codeの手法により数字に変換した時、必ずしも上記の数字の並び方だけになるとは限りません。なぜならスタートの黒丸の地点が色々考えられたり、紐をたどる方向も時計回りと反時計回りの2パターンあることや、作品を手前側から見るか向こう側から見るかによっても数字の並び方が変わってくるためです。そのため、そうした“数字の並び”の様々な条件を全て網羅し列記したもの(ここでは便宜的に“網羅した数字の並び”と呼びます)に変換する新たな手法が考案され、類似性の調査を可能にしました。詳細について興味のある方は論文をご覧ください。
しかし、例えば下図の「ナバホの蝶」の作品の中央下部では紐が多重に巻き付いており、そこでは複雑な紐の交差を持つため、このGauss codeの手法を用いて“数字の並び”に変換することができません。そのため、全てのあやとり作品に適用可能な手法ではないことが論文では触れられています。
ちなみにこの“網羅した数字の並び”が記載されたデータは、あやとり作品の複雑さの直感的な推定にも使用することができる、と述べられています。
また作品に対称性があると、非対称性の作品と比べて、“網羅した数字の並び”の中に重複した数字の並びがより多く出現します。例えば下図の4段ばしごの例では、上記の4段ばしごの“数学の並び”への変換時とは、スタート地点と紐をたどる方向が異なりますが、変換した“数字の並び”同士を比較すると、18の交差部分(下記“数学の並び”の太字箇所)を除いて一致していることが分かります。
-1, 2, -3, 4, 5, -6, 7, -8, -9, 10, -11, -12, 13, 14, -15, 16, -17, -18, -4, 3, 19, -20, -2, 1, 21, -22, 23, 24, -25, -26, 27, 17, -16, -13, 12, 11, -10, 9, 8, -7, -14, 15, 6, -5, 18, -27, 26, -19, 20, 25, -24, -23, 22, -21
理想的にはあやとり作品の複雑度は、その作品の構造をできるだけ簡潔に記述するためのコンピュータプログラムの最短長さの尺度で測定できる、とあり、そうした尺度ではデータ内に重複したものがあると「再度繰り返す」といった言葉で簡潔に記述することになります。
この論文ではそうした複雑度の概算として、簡易的にZIPのDEFLATEアルゴリズムを用いることで、対称性のある作品の“網羅した数字の並び”内の重複データは圧縮され、ZIPにより圧縮されたファイルサイズ(kB)を複雑度の推定値として使用しています。
〈あやとり作品の類似性の解析手法について〉
とある二つの“あやとり作品”の類似性を調べることは、上述した数学的変換を行うことで得られる、二つの“網羅した数字の並び”がどれだけ似ているかを調べることに対応します。こうした“網羅した数字の並び”の類似性を調べる方法として、論文では「q-gram」(q-gramsやn-gramとも呼ばれます)と「コサイン距離(cosine distance)」の手法を用いています。これらは、自然言語学分野において、文字列がどの程度似ているかを調べる手法として知られています。
論文には、「q-gram」「コサイン距離」を用いたあやとり作品の類似性解析に関する詳細の解説がありません。ただ、あやとり作品の“網羅した数字の並び”への変換や、q-gramを用いたコサイン距離の算出は、Rというプログラミング言語を用いて行われており、この論文が公開されたサーバー上に、解析データやプログラミングコードも一緒に公開されています。そのコードを見ると、Rのstringdistパッケージ(文字列の類似性を調べる関数群をまとめたもの)を用いて、q-gramによるコサイン距離の算出がされていることが確認できます。そのため、このstringdistパッケージについて説明している資料(*4)を参考に、以下、論文にはない例を挙げて、「q-gram」「コサイン距離」を用いた類似性解析の説明をします。
例えば、あやとり作品AとBをそれぞれ“網羅した数字の並び”に変換し、以下のようになったとします。(あくまで例のため、“網羅した数字の並び”自体は正確でなはく適当です)
作品A: |
作品B: |
「q-gram」とは、q個の数で文字列を分割していく手法のことで、例えば q=2 とすると、
作品A: |
作品B: |
のようになります。
そして「コサイン距離」とは、二つのベクトルの向きがどの程度近いかによって、比較対象がどのくらい似ているかを調べる指標で、ベクトル 、 のコサイン距離は以下の式により求めることができます。
文字列の類似性解析においては、二つのベクトルの向きが近いほど(つまり二つのあやとり作品が似ているほど)0の値に近づき、向きが異なるほど(二つの作品が似ていないほど)1の値に近づきます。
コサイン距離を求めるためには、作品AとBをそれぞれベクトルに変換する必要があります。
例で挙げた作品AとBにおいて、q=2のq-gramで分割した組み合わせを全て記載すると、 になります。この3つの組み合わせのうち、各作品が持っている組み合わせの数をカウントしていくことで、各作品をベクトルに変換することができます。
例えば作品Aでは、上記3つの組み合わせのうち、左から1番目と2番目 を1つずつ持っており、左から3番目 は持っていないので、作品Aのベクトルは となります。同様に作品Bを考えると、左から1番目、2番目、3番目の全てを1つずつ持っているので、作品Bのベクトルは となります。
これら二つのベクトルを用いて、上の式によりコサイン距離を計算すると、作品AとBの例では、コサイン距離は約0.18と求められます。
もし、比較するあやとり作品の数字の並びがともに だとすると、ベクトルはともに となり、コサイン距離を算出すると0になります。これは同一作品という結果であり、ともにベクトルの向きが一致しています。また、比較作品の“網羅した数字の並び”がそれぞれ と だとすると、ベクトルはそれぞれ 、 となり、コサイン距離は1になります。これは非同一作品という結果であり、ベクトルの向きは90°となって全く同じ方向を向いていません。
上記の例は3次元のベクトルでしたが、論文では“網羅した数字の並び”の数字の数はもっと沢山あるため、多次元ベクトルで考えることになります。そうした多次元でも上の式に当てはめてコサイン距離を求めることができ、このコサイン距離によって、あやとり作品から変換した“網羅した数字の並び”を解析して類似性を調べることができます。
ここまで、類似性の解析手法を説明するため論文にはない例を挙げました。
実際の論文のq-gramの解析ではq=3が使用されています。これは3つの連続する交差が最小の関心構造であるからだと論文では述べられています。
この算出したコサイン距離の値に基づいて、クラスター分析の最長距離法(最遠隣法や完全連結法とも呼ばれる)という手法を用いて、世界中の92の異なる文化圏で記録された826作品をグループ分けし、下図のようなツリー構造が図示されています。ただ図のサイズが大き過ぎるため、拡大して見たい場合はこの図のファイルが格納されているこちらをご覧ください。
この826作品のうち580作品が、異文化間でほぼ同一の作品として83のグループに分類されており、ツリー構造の最下部(最も似ている作品群)に下から 1, 2, 3, …, 83 と番号が振られています。グループ分けされた83の作品群の詳細は、論文のSupplementaryの表1に記載されています。
ここで、もし比較する二つの作品が全く同じイラストで描かれていたなら、それらのコサイン距離は0になるはずです。しかし、イラストの交差部分が不正確に描かれていたり(交差部分で交わる紐の上下の位置が逆になっているなど)、紐を引っ張る力によって完成形の形状(交差の数や並び)が大きく変わって、同じ作品であってもコサイン距離が0にならない、といったことが解析上起こりました。その結果、ツリー構造の最下部(最も似ている作品群)にある各83グループ間での作品の類似性の解析ではコサイン距離は完全に0にはならず、0から0.1程度の値になっています(この結果はプログラミングコードを実行することで得られます)。そのため類似性解析の結果、コサイン距離が0.1未満だった作品群を同一作品とみなしているそうです(0.1を閾値に設定した明確な根拠が論文には記載されていなかったので、直接Kaaronen氏に確認しました)。
類似性を比較する際は二つの作品を比べますが、その際にそれぞれの作品が記録された国・地域間の距離を算出し、その距離を区間ごとに区切った度数分布表(ヒストグラム)も論文で示されています。ヒストグラムでは、コサイン距離が0.1未満(同一作品)だった作品群と0.1以上(非同一作品)だった作品群の二つに分けて図示されています(下図のA・B)。しかし、非同一作品同士の類似性比較の数の方が多く縦軸の度数の桁が合わないため、確率密度分布として縦軸を揃えて同一・非同一作品を比べています(下図のC)。そのCの図から、作品が記録された国・地域が近いほど同一作品の度数が多いため、近隣の異文化地域ほど類似するあやとり作品がより見つかる可能性が高いことを示唆している、と述べられています。
また作品が記録された地域は、上図ツリー構造の作品の背景色、つまり図中央の地図にある地域の色に対応しています。この作品が記録された地域の分布から、以下に述べる作品の起源についても考察されています。
例えばツリー構造の最下部のうち、異なる文化地域で記録された、例えば「Ten men(10人の男)」(地域によっては「Mat」などとも呼ばれる)の作品を見ると、下図のように記録場所はどこもオセアニアの地域であることが分かります。
しかし、4段ばしごの作品を見ると、世界中の様々な国・地域で記録された作品であることが分かります。
この4段ばしご作品の複雑性は、変換した“数字の並び”のzipファイルサイズから3.77と算出され、826作品の中央値である2.11と比べると、比較的複雑な作品であると述べられています。そして作品の作り方の側面から考えると、4段ばしごは、多くの異文化地域間で同じ作り方が記録されていることにも触れられています。このように同じ作り方による複雑な作品が異なる地域で別々に生み出されたというのは考えにくく、また4段ばしごの網目状の特徴的な模様が、先史時代の史料に見られる模様に非常に似ていることなどから、4段ばしご作品はもっと昔まで遡った共通の起源がある可能性を示唆している、と考察されています。
以上、論文の紹介でした。こうしたあやとりに関する学術的な研究が行われたことを大変嬉しく思います。あやとりにまつわる研究を通じて、様々な議論や新たな研究の種が生まれ、更なるあやとりの発展に繋がることを期待しています。
今回の紹介にあたって、Kaaronen氏に複数回に渡り論文内容の確認をさせていただきました。ご対応いただいたこと、この場をお借りして改めて感謝申し上げます。
(*1) | この論文はCC BY 4.0ライセンスのため、著者のクレジットを表記すれば、著者からの許諾必要なしに翻訳や内容紹介が可能な論文ですが、Kaaronen氏への論文内容確認の際に紹介許諾を改めていただいた、という経緯になります。 |
(*2) | Storer, T. (1988). String Figures. Bulletin of String Figure Association 16 Special Issue 1-231. |
(*3) | Storer, T. & ISFA. (2023). String Figure Bibliography (abridged). |
(*4) | MPJ van der Loo (2014). The stringdist package for approximate string matching. The R Journal 6(1) 111-122. |