MNTSQ & UbieでVertical AI Startup Meetupを開催しました
2021-08-11

2021/8/10にリーガルテックのMNTSQさんとヘルステックのUbieの2社で"Vertical AI Startup Meetup"というイベントを開催しました。Ubieからは私が登壇したので、当日のイベントの様子や感想をご紹介します。

【MNTSQxUbie】Vertical AI Startup Meetup - connpass

Vertical AI Startupとはなにか @YotaroKatayama

まずはじめにMNTSQ 堅山さんから、イベントのタイトルにもなっているVertical AI Startupの紹介と開催 趣旨の説明がありました。このイベントが企画されるまで私はVertical AI Startupという概念を知らなかったのですが、まさにMNTSQさんやUbieのようなスタートアップを表すのにふさわしい単語だと思います。

リーガルテックやヘルステックといった「Xテック」といった表現で形容されることも多い領域ですが、ただAIや機械学習を使ったピンポイントのソリューションではなく、分野全体をVerticalにカバーする形で課題を解決しにいくんだというところが、Vertical AIという表現のいいところですね(AIという表現に目を瞑れば 笑)。

Vertical AI製品の品質管理 @kzinmr

MNTSQの稲村さんからは製品の品質管理についての発表がありました。少し難しいトピックではありましたが、私自身もぼんやりと考えている概念が簡潔にまとまっており、とても勉強になりました。

教師データを元に学習を行う機械学習においては、機械学習のロジックや特徴量といった要素に加えて、教師データの質も同様に重要です。スライドの中で登場するデータ品質保証というのはまさに予測精度やモデルの質の根幹となる大事な要素ですが、その質を数値として客観的に判断する手段はまだまだ発展途上でかつ、対象ドメインやデータの中身によっても大きく異なります。Uberの事例の引用ではETLのテストで欠損値の割合や重複率といった品質項目が挙げられていましたが、それはデータの質の一つの側面でしかありません。データが生成される背後にある潜在的な分布の変化やデータドリフトをどう捉えるかが重要といった話をされており、MNTSQさんでもかなり苦労されながら品質担保のための項目を充実させているとのことでした。

Ubieの医療においても、入ってくるデータの質が変わるというのは当たり前に起こります。具体のタスクではないですが、例えばインフルエンザは夏に比べて冬の方が多いとか、熱中症は夏によく起きるとか、病気には季節性があります。年単位で見なければデータの傾向を見逃してしまい、夏のデータで何らかの予測モデルを作ったら冬に全然性能が出ないとなってしまうことも考えられます。究極にはデータを見るということが大事という話ですが、人間の事前知識でカバーできない予想外のデータの変化なども含めて、データやそこから作られる機械学習プロダクトの品質に向き合っていく必要がありますね。

医者の言葉、患者の言葉、エンジニアの言葉 @yag_ays

私からはUbieでの実事例を交えながら、医療ドメインにおける言語処理についてお話させていただきました。前回の記事で書いたこの1年の振り返り内容とも少し重複しますが、医療という1つのドメインの中にある複雑さをご紹介できたのではないかと思います。

内容はスライドを見ていただくとして、ここではsli.doで頂いた質問に対して改めてお答えできればと思います。

医者言葉と患者言葉のマッピングに興味を持ちました。特に患者言葉の曖昧性解消はかなり難しいタスクだと思います(患者自身がどういう現象を表現しているのか理解できずに発した言葉が多そう)が,どういう問題設定でアプローチされているのでしょうか?素朴に文脈を見ても解消できない気がします。

なかなかガチめの質問で、その場では結構回答するのに苦労しました(笑)。

発表冒頭でも話したように、患者表現の「顔が赤い」を医師は「顔面紅潮」と表現することがあり、同じ対象や現象に対しても話す人によって言い方が異なります。それらを結びつけるためには、エンジニア観点では両者を一旦エンジニアの言葉であるID:42みたいなDB上の一つの項目(エンティティ)に紐付けることになりますが、では自然文からのID変換の名寄せをどうするかが次の課題になってきます。名寄せは前職を含めてここ数年ずっと自分の中で取り組んでいる課題ではあるんですが(昔書いたblog記事)、辞書を拡充させるといった方法以外で解くのは難しい印象です。つまりID:42に対して「顔が赤い」「顔面紅潮」「顔が赤みがかる」「顔が発赤している」みたいな表現をたくさん集めておくという方法ですね。自然言語処理的には単語の分散表現などから意味的な類似度を元に名寄せできると嬉しいのですが、それをするためにはたくさんの学習データを集めて対応関係を学習させるしかなくて、結局やっていることは辞書拡充と同じというのが実情だと思います。近年ではBERTに代表される大規模コーパスでpretrainさせたモデルがどのタスクにも有用な情報を学習できるという話もあり、そこから発展して人間の常識(common knowledge)のようなものが学習できて名寄せにも利用できるといいなと、ぼんやり思っています。

一方、いま現在は曖昧性解消をどうしているかというと、どうもしていないというのが率直な答えになります。今は目の前のタスクをいかに精度高く解くかに注力しており、その上で曖昧性解消を解く必要が出てこない限りは取り組まないです。小枝を切るのにチェーンソーを使う必要がないのと同様に、解きたいタスクに適した最小の技術を当てはめること、それと同時に不必要に難しいタスクを解かないことを意識して取り組んでいます。と、抽象的な話で若干煙に巻いている感はありつつも、実はそろそろ向き合わなければいけなくなってきた雰囲気がするので、今後の進展であったり私が苦労している様子にご期待ください(笑)

We Are Hiring

さて、今回はVertical AI Startupという軸でイベントを開催しましたが、MNTSQさんもUbieも機械学習や自然言語処理などの各種エンジニアを募集しております。どちらも採用サイトにてカジュアル面談のフォームがあるので、今回の発表がちょっとでも面白いと思ったら、ぜひ一度お声がけください。お待ちしております!

MNTSQ, Ltd. | リーガルテックカンパニー

Ubie Discovery 採用サイト

このエントリーをはてなブックマークに追加