多言語化

Squeak-devメーリングリストで、再び多言語化のデザインについて盛り上がりを見せている。のだが、いつも「あまり分かっていない人」ががんばりがちなんだよなあ。過去何年かにわたっての経験から、この議論の中でよく出てくるパターン化されたメールがある。それは、

UTF-8Unicodeに関するWikipediaへのリンクを書き、「UTF-8とというのは可変長でバイトストリーミング指向のエンコーディングなのですよ、みなさん」と、そういうことを知らない読者を想定して書く。

というものである。そういう人々からは、非常に高い頻度で

  • Squeakの内部表現はUnicodeではない。
  • SqueakUnicodeを扱えない。
  • Unicodeを内部表現に使えば、レンダリングも含めてすべての問題が解決すると主張する。
  • 16-bitのコードポイントからグリフを決めるのは簡単である。
  • Unicode標準は16-bit固定長だと思っている。
  • VisualWorksの方が良いのだから、全部VisualWorksのものをぱくればすむ。

という類の意見が出てくる。

俺がやった今のSqueakの多言語化も決して最善解ではないというのは間違いないのだが、「UTF-8について説明が必要なレベル」からはなかなか有意義な議論をするところまでたどり着かないのは間違いないところである。