統計用言語Rの問題2023年02月15日 09:56

 AIの活用の重要資産であるPythonやRでは、関数のパッケージ化が進んでおり、簡単に複雑な関数を利用できる。
 これは非常に便利で時間節約にもなり、通常は使い勝手が良い。

 ただ、計算時にエラーが出るとその原因追及が難しいことがある。
現在、Rによりある特殊で複雑な統計解析を行っているが、その際に原因不明なエラーがランダムに発生した。

 そのため、使用しているパッケージの解説を読むのだが、難解で悪名高いFACTOR関数や関連する説明部分の十分な分析ができない。どうやら対数関数の真が負になるためのエラーらしいと分かっても、そのデータがそうなっているか、データケースを系統的に作って何度か解析したが、エラーが発生するケースは系統性がないように見える。

 いろいろトライしているうちに、実引数を一部削除するとエラーがでなくなることが分かったが、今度はこれまで結果が出ていたケースでの影響係数が微妙にシフトする。

 そのシフトがなぜ起こるのかもまだ分析ができていない。

 それもこれも、Rでは多くの関数を複雑に取り込み、短いスクリプト行で、非常に高度な分析ができるように言語文法とパッケージ群が作られているためである。即ち、エラーが発生するケースというのはパッケージ作成者も予想しなかった特殊なデータの組み合わせを対象とする場合に生じるということで、意外にも応用範囲が狭いということである。

 パッケージ作成者はボランティア的に整備しているので、解説書を更に詳細に整備するのは大変だろうが、もう少し素人でも解読、修正が容易なスクリプトとして公開していただけると有難い。また、当該パッケージの利用上のQ&Aにおいては、コンサルタント料をとっても良いようにも思う。
 勿論、これは贅沢な悩みであるが、AI技術進展のためにも配慮していただけると有難い。