DeNAにおけるOpenStack Upgrade

はじめに

こんにちは。IT基盤部でOpenStackの運用をしています酒井です。
弊社では先日社内のOpenStackのアップグレードを行いました。今回は弊社で実施したアップグレード手順についてできるだけ詳しく紹介させていただきます。

なぜアップグレードするのか

OpenStackのリリースサイクルはこちらにあるように約半年ごとに新しいバージョンがリリースされ新機能が追加されます。弊社ではkiloとlibetyを利用していましたが、mitakaで導入された新しい機能を使いたいため、ひとまず両環境をmitakaにアップグレードすることをターゲットとしました。また、弊社ではSDNとしてBig Cloud Fabric(以下BCF)を使用していますが、BCFのサポートするOpenStackバージョンが決まっているため、OpenStackをアップグレードしないとBCFをアップグレードできない、という事情もありました。

OpenStackの構成

弊社のOpenStackの構成としては以下の通りです。

OSUbuntu 14.04
OpenStack Versionkilo/liberty
OpenStack ComponentKeystone, Glance, Nova, Neutron, Cinder, Ironic
HypervisorKVM
Cinder BackendCeph
Neutron mechanism_driversopenvswitch, bsn_ml2, networking_bigswitch_l3_pe
(l3-agentは無し)

OpenStack環境が2環境あり、それぞれkiloとlibertyを利用していました。kiloからmitakaへのアップグレードは一度には行わず、kiloからliberty、libertyからmitakaと2回に分けてアップグレードしました。これは当時使っていたBCFのバージョンではkiloとlibertyのみをサポートしており、mitakaをサポートしているバージョンのBCFではkiloをサポートしていなかったため、このような段階的なアップグレードをする必要があったためです。

アップグレード手順

基本的な手順としては以下のようになります。

  1. 事前準備
    1. 新バージョンのController Nodeを新規で構築する。(DB, rabbitmqはController Node上で動作する構成)
  2. メンテナンス期間: 各コンポーネント毎に以下の作業を行う
    1. 旧バージョンのController Nodeのサービス停止
    2. DBを新バージョンに対応させるためマイグレーション
    3. 新バージョンのController Nodeのサービス起動
    4. 動作確認
    5. DNS更新してエンドポイント切り替え
    6. Compute Node上で動作するサービスがあれば(弊社のケースではNovaとNeutron)新バージョンにアップグレード

各コンポーネントのAPIの停止を伴うため、社内の関係者と調整しメンテナンス期間を設けてアップグレード作業を行いました。コンポーネントのアップグレードはKeystone, Glance, Nova, Neutron, Cinder, Ironicの順に行いました。各コンポーネントごとの詳細な手順を以下に説明します。なお、kiloからlibertyへのアップグレードとlibertyからmitakaへのアップグレードでは手順はほぼ同様でしたが、一部異なる箇所がありましたのでそこは個別に説明します。

Keystone

旧バージョンのController Nodeのkeystoneを停止します。

service apache2 stop

次にkeystone DBを新バージョンに対応させるためスキーマのマイグレーションします。

mysqldump -uroot -h$OLD_DB_SERVER -p --opt --add-drop-database --single-transaction --master-data=2 keystone > keystone-db-backup.sql
mysql -uroot -h$NEW_DB_SERVER -p -f keystone < keystone-db-backup.sql
sudo su -s /bin/sh -c "keystone-manage db_sync" keystone

新バージョンのController Nodeでサービス再開します

service apache2 start

以下のような動作確認をします。

# 35357ポートの確認
TOKEN=$(openstack --os-url http://$MY_IP:35357/v2.0 token issue -f json | jq -r .id)
openstack --os-url http://$MY_IP:35357/v2.0 --os-token $TOKEN user list
# 5000ポートの確認
openstack --os-url http://$MY_IP:5000/v2.0 token issue

問題なければDNSを更新してendpointを新バージョンに切り替えます。

Glance

旧バージョンのController Nodeのglanceを停止します。

stop glance-registry
stop glance-api

次にglance DBを新バージョンに対応させるためスキーマのマイグレーションします。

mysqldump -uroot -h$OLD_DB_SERVER -p --opt --add-drop-database --single-transaction --master-data=2 glance > glance-db-backup.sql
mysql -uroot -h$NEW_DB_SERVER -p -f glance < glance-db-backup.sql
sudo su -s /bin/sh -c "glance-manage db_sync" glance

旧バージョンのController Node上に保存されているimageファイルを新バージョンのController Nodeにコピーします。

rsync -av $OLD_CONTROLLER_NODE:/var/lib/glance/images/
/var/lib/glance/images/

新バージョンのController Nodeでサービス再開します

start glance-api
start glance-registry

以下のような動作確認をします。

MY_IP=`hostname -i`
# glance image-listの確認
glance --os-image-url http://$MY_IP:9292/ image-list
# glance image-createの確認
echo dummy | glance --os-image-url http://$MY_IP:9292/ image-create --disk-format raw --container-format bare --name dummy_image
# glance image-downloadの確認
glance --os-image-url http://$MY_IP:9292/ image-download <新規イメージのID> > dummy_image
cat dummy_image # dummyと表示されればOK
# glance image-deleteの確認
glance --os-image-url http://$MY_IP:9292/ image-delete <新規イメージのID>

問題なければDNSを更新してendpointを新バージョンに切り替えます。

Nova(Controller Node)

旧バージョンのController Nodeのnovaを停止します。

stop nova-cert
stop nova-consoleauth
stop nova-novncproxy
stop nova-conductor
stop nova-scheduler
stop nova-compute
stop nova-api

nova DBを新バージョンに対応させるためスキーマのマイグレーションします。

mysqldump -uroot -h$OLD_DB_SERVER -p --opt --add-drop-database --single-transaction --master-data=2 nova > nova-db-backup.sql
mysql -uroot -h$NEW_DB_SERVER -p -f nova < nova-db-backup.sql
sudo su -s /bin/sh -c "nova-manage db sync" nova
# mitakaへのアップグレードの場合は nova-api DBのマイグレーションも必要です。
sudo su -s /bin/sh -c "nova-manage api_db sync" nova

新バージョンのController Nodeでサービス再開します

start nova-api
start nova-compute
start nova-scheduler
start nova-conductor
start nova-novncproxy
start nova-consoleauth
start nova-cert

以下のような動作確認をします。

MY_IP=`hostname -i`
PROJECT_ID=$(openstack project show $OS_PROJECT_NAME -f json | jq -r .id)
TOKEN=$(openstack token issue -f json | jq -r .id)
curl -i http://$MY_IP:8774/v2/$PROJECT_ID/servers/detail  -H "Accept: application/json" -H "X-Auth-Token: $TOKEN"
curl -i http://$MY_IP:8774/v2/$PROJECT_ID/images/detail  -H "Accept: application/json" -H "X-Auth-Token: $TOKEN"

問題なければDNSを更新してendpointを新バージョンに切り替えます。

Nova(Compute Node)

最初にneutron-ovs-cleanupが起動していることを確認します。neutron-ovs-cleanupが停止しているとnova-compute再起動時にneutron-ovs-cleanupが実行され、インスタンスの通信が途切れてしまうためです。

status neutron-ovs-cleanup

新バージョンのaptリポジトリを追加します。kiloからlibertyへのアップグレードの場合は以下のようになります。

OLD_OS_VERSION=kilo
NEW_OS_VERSION=liberty
echo "deb http://ubuntu-cloud.archive.canonical.com/ubuntu trusty-updates/$NEW_OS_VERSION main" > /etc/apt/sources.list.d/cloudarchive-$NEW_OS_VERSION.list
mv /etc/apt/sources.list.d/cloudarchive-$OLD_OS_VERSION.list /tmp
apt-get update

まずnova, neutron, openvswitch以外のパッケージをアップグレードします。

apt-mark hold nova-compute
apt-mark hold openvswitch-common openvswitch-switch
apt-mark hold neutron-plugin-openvswitch-agent neutron-plugin-ml2
apt-get dist-upgrade

nova.confを必要に応じて修正した後、novaをアップグレードします。

apt-mark unhold nova-compute
apt-get dist-upgrade

当該Compute Nodeのnova-computeがupしていることを確認します。

nova service-list

Neutron(Controller Node)

旧バージョンのController NodeのNeutronを停止します。neutron-dhcp-agentを止める前にstate downにすることによりdnsmasqプロセスを終了させることができます。またその後state upにすることにより、新バージョンのneutron-dhcp-agentが各ネットワークに自動的にbindされるようになります。

neutron agent-update --admin-state-down $DHCP_AGENT_ID
# dnsmasqプロセスがいないことを確認した後neutron-dhcp-agentを停止する
stop neutron-dhcp-agent
neutron agent-update --admin-state-up $DHCP_AGENT_ID
stop neutron-metadata-agent
stop neutron-plugin-openvswitch-agent
stop neutron-server

Neutron DBを新バージョンに対応させるためスキーマのマイグレーションします。

mysqldump -uroot -h$OLD_DB_SERVER -p --opt --add-drop-database --single-transaction --master-data=2 neutron > neutron-db-backup.sql
mysql -uroot -h$OLD_DB_SERVER -p -f neutron < neutron-db-backup.sql
sudo su -s /bin/sh -c "neutron-db-manage --config-file /etc/neutron/neutron.conf --config-file /etc/neutron/plugins/ml2/ml2_conf.ini upgrade head" neutron

新バージョンのController Nodeでサービス再開します

start neutron-server
start neutron-plugin-openvswitch-agent
start neutron-metadata-agent
start neutron-dhcp-agent

以下のような動作確認をします。

TOKEN=$(openstack token issue -f json | jq -r .id)
curl -i http://$MY_IP:9696/v2.0/networks.json -H "Accept: application/json" -H "X-Auth-Token: $TOKEN"

問題なければDNSを更新してendpointを新バージョンに切り替えます。

Neutron(Compute Node)

openvswitch、Neutronの順にアップグレードを行います。 まずopenvswitchのアップグレードについてですが、kiloからlibertyへのアップグレードの場合、qvo Portのother_configに設定を追加する必要があります。以下のようにkiloではother_configが空になっているため、libertyへアップグレード後neutron-openvswitch-agentを再起動するとtagの情報が失われtagの再割り当てが行われます。その結果インスタンスの通信が数秒程度途絶えることになります。

# kiloではother_configは空になっている
ovs-vsctl --columns=name,other_config list Port qvoe97fb5a8-67
name                : "qvoe97fb5a8-67"
other_config        : {}
# libertyでは各種コンフィグが保存されている
ovs-vsctl --columns=name,other_config list Port qvoe97fb5a8-67
name                : "qvoe97fb5a8-67"
other_config        : {net_uuid="83b7bfb1-0b2f-406a-8725-fdaa7daf563f", network_type=vlan, physical_network="physnet1", segmentation_id="113", tag="5"}

これを避けるため、アップグレード前に全Portに対し以下のようなコマンドを実行し手動でother_configを設定しました。

ovs-vsctl set Port qvoe97fb5a8-67 other_config='{net_uuid="83b7bfb1-0b2f-406a-8725-fdaa7daf563f", network_type=vlan, physical_network="physnet1", segmentation_id="113", tag="5"}'

またkiloからlibertyの場合、conntrack zoneの対応もする必要があります。libertyではportごとに個別のconntrack zoneを使ってコネクションを管理するようになりました。kiloではconntrack zoneの指定はされておらず全てのportがデフォルトのzone 0で管理されていました。そのままlibertyにアップグレードするとzoneが新規に割り当てられてしまい(ソースコードはこちら)、割り当てられたzoneにはコネクションがないためそのコネクションのパケットがドロップしてしまうということがわかりました。これを回避するため、neutron-openvswitch-agentがzone 0を使い続けるよう、まず以下のようなルールを追加設定しました。

iptables -t raw -A neutron-openvswi-PREROUTING -m physdev --physdev-in $dev -j CT --zone 0

また、既存のiptables-saveコマンドのwrapperを以下のように作成しました。

cat <<EOF | sudo tee /usr/local/sbin/iptables-save
#!/bin/sh
/sbin/iptables-save "\$@" | sed 's/ -j CT$/ -j CT --zone 0/'
EOF
chmod +x /usr/local/sbin/iptables-save

vi /etc/neutron/rootwrap.conf
# /usr/local/sbin/を優先するよう以下のように修正
exec_dirs=/usr/local/sbin,/sbin,/usr/sbin,/bin,/usr/bin,/usr/local/bin

この二つの対応により各portがzone 0を使い続けるようになります。

以上で準備ができましたのでopenvswitchのアップグレードを行います。openvswitch-switchパッケージインストール時にopenvswitch-switchサービスが再起動されるのですが、そのタイミングでネットワークが不通になることがありました。それを避けるためにここではopenvswitch-switchサービスを再起動しないようにしています。

# ダミーの何もしないinvoke-rc.dで本物のinvoke-rc.dを隠すことでopenvswitch-switchを再起動しないようにする
ln -s `which true` /usr/local/sbin/invoke-rc.d
apt-mark unhold openvswitch-common openvswitch-switch
apt-get dist-upgrade -s
apt-get dist-upgrade
# invole-rc.dを元に戻す
rm /usr/local/sbin/invoke-rc.d

パッケージのアップグレードが終わった後で手動でモジュール再読込を実施します。弊社の環境ではこのタイミングでインスタンスの通信が0.5秒程度途切れました。

/usr/share/openvswitch/scripts/ovs-ctl force-reload-kmod

次にNeutronのアップグレードです。まずアップグレードの前にneutron-openvswitch-agentを停止します。

stop neutron-plugin-openvswitch-agent

kiloからlibertyへのアップグレード時にはNeutronのアップグレードの前にOVSブリッジにfail_mode: secureを設定する必要があります。Neutronのバージョン7.2.0からOVSブリッジにfail_mode: secureが設定されるようになりました。fail_mode: secureでない状態でneutron-openvswitch-agentを起動するとneutron-openvswitch-agentによりOVSブリッジにfail_mode: secureが設定されるのですが、この処理にはフロー情報のクリアが伴いインスタンスのネットワーク断が発生してしまいます。 これを避けるため、事前にfail_mode: secureの設定、フロー情報のリストアを行います。

ovs-ofctl dump-flows br-ex | grep -v NXST_FLOW > br-ex.flow; ovs-vsctl set-fail-mode br-ex secure; ovs-ofctl add-flows br-ex - < br-ex.flow

Neutronのコンフィグを必要に応じて修正した後、neutronをアップグレードします。

apt-mark unhold neutron-plugin-openvswitch-agent neutron-plugin-ml2
apt-get dist-upgrade

当該Compute Nodeのneutron-plugin-openvswitch-agentがupしていることを確認します。

neutron agent-list

Cinder

旧バージョンのController Nodeのcinderを停止します。

stop cinder-volume
stop cinder-scheduler
stop cinder-api

次にcinder DBを新バージョンに対応させるためスキーマのマイグレーションします。

mysqldump -uroot -h$OLD_DB_SERVER -p --opt --add-drop-database --single-transaction --master-data=2 cinder > cinder-db-backup.sql
mysql -uroot -h$NEW_DB_SERVER -p -f cinder < cinder-db-backup.sql
sudo su -s /bin/sh -c "cinder-manage db sync" cinder

弊社の場合cinder DBのvolumesテーブルのhostカラムを更新する必要がありました。このカラムには以下のようにcinder-volumeを動かしていた旧Controller Nodeのホスト名が含まれていました。Controller Nodeのホスト名が変わる度にこのカラムを更新するのは手間なので、弊社ではcinder.confにhostパラメタとして別名を定義し、その値をこのカラムに使用するようDBを更新しました。

mysql> select distinct(host) from volumes;
+-------------------------------+
| host                          |
+-------------------------------+
| CONTROLLER_HOSTNAME@ceph#CEPH |
+-------------------------------+

新バージョンのController Nodeでサービス再開します

start cinder-api
start cinder-scheduler
start cinder-volume

以下のような動作確認をします。

MY_IP=`hostname -i`
PROJECT_ID=$(openstack project show $OS_PROJECT_NAME -f json | jq -r .id)
TOKEN=$(openstack token issue -f json | jq -r .id)
curl -i http://$MY_IP:8776/v2/$PROJECT_ID/volumes/detail?all_tenants=1 -H "Accept: application/json" -H "X-Auth-Token: $TOKEN"

問題なければDNSを更新してendpointを新バージョンに切り替えます。

Ironic

旧バージョンのController Nodeのironicを停止します。

stop ironic-conductor
stop ironic-api

次にironic DBを新バージョンに対応させるためスキーマのマイグレーションします。

mysqldump -uroot -h$OLD_DB_SERVER -p --opt --add-drop-database --single-transaction --master-data=2 ironic > ironic-db-backup.sql
mysql -uroot -h$NEW_DB_SERVER -p -f ironic < ironic-db-backup.sql
sudo su -s /bin/sh -c "ironic-dbsync --config-file /etc/ironic/ironic.conf upgrade" ironic

弊社の場合nova DBのinstancesテーブルのhost/launched_onカラムを更新する必要がありました。これらには旧バージョンのController Nodeのホスト名が保存されていたのですが、以下のようにこれらの値を新バージョンのController Nodeのホスト名に更新しました。なお、cinder DBの場合と同様に別名を使うということも検討したのですが、BCF環境ではホスト名を使ったほうが安全にアップグレードが行えるということがわかり(詳細は割愛しますが)、ホスト名を使い続けることとしました。

mysql> update instances set host = '$NEW_CONTROLLER_NODE' where host = '$OLD_CONTROLLER_NODE';
mysql> update instances set launched_on = '$NEW_CONTROLLER_NODE' where launched_on = '$OLD_CONTROLLER_NODE';

旧バージョンのController Node上に保存されているtftp関連のファイルやimageファイルを新バージョンのController Nodeにコピーします。

mkdir /tftpboot
chown ironic.ironic /tftpboot
rsync -av $OLD_CONTROLLER_NODE:/tftpboot/ /tftpboot/
rsync -av $OLD_CONTROLLER_NODE:/var/lib/ironic/images/ /var/lib/ironic/images/
rsync -av $OLD_CONTROLLER_NODE:/var/lib/ironic/master_images/ /var/lib/ironic/master_images/

新バージョンのController Nodeでサービス再開します

start ironic-api
start ironic-conductor

以下のような動作確認をします。

MY_IP=`hostname -i`
TOKEN=$(openstack token issue -f json | jq -r .id)
curl -g -i -X GET http://$MY_IP:6385/v1/nodes -H "X-OpenStack-Ironic-API-Version: 1.9" -H "User-Agent: python-ironicclient" -H "Content-Type: application/json" -H "Accept: application/json" -H "X-Auth-Token: $TOKEN"

問題なければDNSを更新してendpointを新バージョンに切り替えます。 最後にaggregateに新しいController Nodeを追加、古いController Nodeを削除して終了です。

nova aggregate-add-host $AGGREGATE_ID $NEW_CONTROLLER_NODE
nova aggregate-remove-host $AGGREGATE_ID $OLD_CONTROLLER_NODE

その他

インタフェース構成の改善

一連のアップグレード作業を通じて、いくつか改善したいことが見つかりました。一つはCompute Nodeのインタフェース構成です。現状は以下の図の「現状の構成」のようにbr-exにIPアドレスを割り当てています。この構成だとopenvswitchのアップグレードに何らかの理由で失敗しbr-exがdownしたままになるとCompute Node自体が通信できなくなります。弊社ではCompute NodeはCephのStorage Nodeを兼ねているため、インスタンスのI/Oが詰まってしまうことになります。

これを以下の図の「改善案」のようにbr0というlinux bridgeを追加しそこにbr-exを接続しIPアドレスはbr0に割り当てる構成にすることを検討しています。これにより、openvswitchのアップグレードを仮に失敗したとしてもCompute Node自体はbr0のIPアドレスを使って通信できCephには影響を与えなくすることができます。linux bridgeが一つ増えることで性能面では不利になると思われますが、その辺りを検証した後に本番環境に適用していきたいと考えています。 interfaces.png

まとめ

弊社で行ったOpenStackアップグレードの手順について紹介させていただきました。弊社では6月、7月にkiloからlibertyへのアップグレードを1回、libertyからmitakaを2回行ったのですが、アップグレード作業中もその後も障害は発生していません。newton以降へのアップグレードは今のところ未定ですが、アップグレードを行った際にはまたその手順を公開したいと考えています。

ツイート
シェア
あとで読む
ブックマーク
送る
メールで送る

Google機械学習系API勉強会レポート

AIシステム部の奥村(@pacocat)です。AIシステム部では、AI研究開発グループに所属しており、主に強化学習を用いたゲームAIの研究開発を行っています。 DeNAでは、様々な事業ドメインのデータを実際に使いながら機械学習を使ったサービス開発を推進しており、中でもゲームは豊富なデータ・シミュレーターがあるため、最先端のアルゴリズムを動かすための環境を自前で持っているのが特徴です。

全社的にも機械学習サービスのニーズが高まっている背景の中、7/5にGoogle様による機械学習系API勉強会が当社セミナールームにて開催されました。今回は、勉強会の内容をブログでレポートしたいと思います。

Googleといえば、先日開催されたGoogle I/O 2017でも"AI first"というメッセージが改めて強調されていましたが、実際にGoogle LensやGoogle Homeなど機械学習を活用したサービス・プロダクトが次々と登場し、注目が集まっています。

[最近話題になっていた"Democratizing AI(AIの民主化)"についてなど、AI関連の取り組みについてはこちらのGoogle Cloud Next'17の動画をご覧ください]

このセミナーでは、Google Cloud, ソリューションアーキテクトの中井悦司さんにお越しいただき、

  • Googleでどのようにディープラーニングを活用しているのか
  • Google Cloud Platform(GCP)が提供する機械学習サービス
  • 機械学習のビジネス適用における考え方

といったテーマについてお話いただきました。

昨今「人工知能」を利用したビジネス期待が急激に高まっていますが、中井さんはそうした期待値と実際の機械学習ソリューション開発のギャップを適切に埋めるため、機械学習の啓蒙やGCPを使った技術支援全般を行っています。

google_ai_api2.png

セミナーの様子(100名程度の社内エンジニアが参加していました)

※以下、主にディープラーニングに関連した学習技術を含め「機械学習」という用語を使いますが、「機械学習」と「ディープラーニング」の区別が必要な場合は明示的に「ディープラーニング」と記載します。

Googleでなぜ機械学習を活用するか

そもそも、Googleではどのように機械学習が取り入れられているのでしょうか。 「1クリックで世界の情報へアクセス可能にする」という企業ミッションを耳にすることもありましたが、モバイル市場の拡大に伴い、情報へのアクセス手段もクリックに限らなくなってきました(※参考:Searching without a query)。

そうした背景のもと、音声や画像入力に対応するため、サービスを支える機械学習技術が強くなっていったのは必然的な変化だったのでしょう。実際、Googleでは様々な機械学習(特にディープラーニングを使った)技術が開発されています。セミナーでは、そうした技術の中でもホットなものを紹介していただきました。

Wavenet(DeepMind社による音声合成技術)

Wavenetは、ニューラルネットワークを使って音声のデジタルデータを直接出力するモデルです。従来の、音素に分解してつなぎ合わせるパラメトリックな手法に比べて音声生成精度が飛躍的に向上しました。いずれは、人間の発話と区別がつかなくなってくるようになるかもしれません。 また、人間の音声に限らず、楽器の音を集めてトレーニングすることで、自動作曲が出来ることも話題になりました。

google_ai_api3.png

DeepMind Technologies Limited, "Wavenet",
https://deepmind.com/blog/wavenet-generative-model-raw-audio/
(accessed: 2017-07-13)

Gmail Smart Reply

自然言語処理の分野でも新しいサービスが提供されています。現在は英語モードのGmailのみが対象となっていますが、スマホでGmailを開くとメールの文脈を理解して、返答文の候補を生成してくれるサービスです。ここにも文脈理解のためのディープラーニング技術が活用されています。
※現在はモバイルGmailアプリからの返信の20%程度で、この機能が利用されているそうです。

google_ai_api4.png

Google, "Save time with Smart Reply in Gmail",
https://www.blog.google/products/gmail/save-time-with-smart-reply-in-gmail/
(accessed: 2017-07-13)

データセンターの冷却効率改善(DeepMind社によるソリューション)

Google社内向けのソリューションも開発されています。DeepMind社は昨年、ディープラーニングと強化学習を組み合わせた技術でデータセンターの電力消費効率を最大40%削減することに成功しました。(※参考:DeepMind AI reduces energy used for cooling Google data centers by 40%
※この事例における技術の詳細は公開されていませんが、こちらに中井さんによる機械学習を使ったエネルギー効率予測についての解説があります。

他にも、Google Photosの一般物体画像認識技術など、様々な機械学習サービスが生み出されており、Google社内では機械学習のバックグラウンドを持っていないサービスエンジニアも社内トレーニングコースなどを活用して、機械学習モデルを使いこなしているそうです。

GCPが提供する機械学習サービス

さて、Googleでは一般ユーザーがこうした機械学習技術を活用できるためのサービスを提供しており、目的別に以下の二つの方向性に大別されます。

  • 学習済みモデルのAPIサービスを使う
    ⇒ ディープラーニング技術を今すぐに活用してみたい人向け
  • TensorFlowやCloud Machine Learning Engineのような環境を使って開発を行う
    ⇒ 独自モデルを作りたい人向け

google_ai_api5.png

Google社講演資料より

①学習済みモデルのAPIサービスを使う

Cloud Vision API

google_ai_api6.png

Google, "CLOUD VIDEO API",
https://cloud.google.com/vision/?hl=ja
(accessed: 2017-07-13)

Cloud Vison APIは、画像を渡すことで様々なラベル情報を取得することが出来ます。 上の例では、顔の検出だけでなく、顔が向いている方向・感情分析の結果が返ってくるAPIとなっています。

Cloud Natural Language API

Cloud Natural Language APIは、自然言語を分析するサービスです。文章の感情分析を行うことも可能で、お問い合わせメールの自動分類でカスタマーサポート業務を効率化するなど、導入事例が増えてきているそうです。

Cloud Video Intelligence API(β版)

google_ai_api7.png

Google, "CLOUD VIDEO INTELLIGENCE API",
https://cloud.google.com/video-intelligence/?hl=ja
(accessed: 2017-07-13)

現在はβ版が提供されていますが、Cloud Video Intelligence APIは、動画解析・検索が出来るサービスです。 動画のフレームを解析し、場面の切れ目を検知したり、場面ごとに何が映っているかを検出することが可能です。
※上の例では、"Elephant", "Elephants", "Animal", "African elephant"とったラベルが検出されています。

他にも様々なAPIが公開され、導入事例も増えてきているそうなので、気になる方はこちらをご覧ください。

②独自にモデルを1から作成する

上述のAPIは、既に学習が済んでいるモデルをそのまま使うパターンになりますが、自社のデータを使って独自にモデルを開発したい場合もあります。その場合は、TensorFlowのような機械学習フレームワークとCloud Machine Learning Engineのような(TensorFlowのGPU・分散学習機能に対応している)計算リソースを利用する方法があります。

③学習済みの公開モデルを利用して独自モデルを作成する

①と②を折衷したパターンです。独自モデルを作る場合、既存で提供されているAPIレベルのものを1から作るのは大変です。そこで、公開されているフレームワークや学習済みデータを活用することで独自モデルを作成する方法もあります。これは転移学習と呼ばれている手法で、既に学習されたネットワークを独自にチューニング・カスタマイズすることで、1から学習をするよりも効率的に開発が行えるメリットがあります。 セミナーでは、TensorFlow Object Detection APIを使った簡単なアプリのデモが行われていました。(※デモアプリの作成方法は、こちらの記事で公開されています。)

google_ai_api8.png

https://github.com/tensorflow/models/tree/master/object_detection
(accessed: 2017-07-13)

機械学習のビジネス適用における考え方

セミナーの後半では、機械学習を実ビジネスに適用する際、どのような点に気をつけないといけないか、リアルなプロジェクト視点で講演を行っていただきました。

まず、ディープラーニングは非構造化データ(画像・動画・音声・自然言語)に高い性能を発揮する特性がある一方で、適応領域はまだ限定的です。データが不十分だったり、まだ実証されていない事を実現する場合のハードルは高いと考えたほうがいいという話がありました。 ディープラーニングはあくまでツールの一つでしかなく、それだけで凄いサービスが作れるかというとそうではありません。あくまでビジネスの中でディープラーニングが上手くハマるところを見つけていく、という関わり方が大事という話が印象的でした。

続いて、(ディープラーニング以外の)従来の機械学習をサービスに導入する際には、データアナリストによるデータとビジネスに対する知見が必要、というポイントが紹介されました。従来の一般的な機械学習では、構造化データによる予測処理がサービス適用の中心となります。そうした予測は、一般的な統計分析(いわゆるBI)が出発点になるため、あらかじめデータを整備しサービス分析が出来ていることが前提になる、というニュアンスです。

ここで、データ分析に対する考え方を整理しましょう。データ分析のプロセスについて、次のような理解をされることがあるそうです(下図の矢印のサイクル)

  • 手元にデータが存在しており、データアナリストはそこからインサイトを得るために様々な集計や機械学習モデルの実験を繰り返す
  • そうして作られた機械学習モデルによって、未知のデータに対する予測が出来るようになる
  • データ予測がビジネスに使えないか検討する

google_ai_api9.png

Google社講演資料より

しかし、本来のゴールである「ビジネス判断」を考えると、このループを逆にたどる必要があります。

  • まず、ビジネスゴールを明確にする(一番大事な出発点)
  • ビジネスゴールを実現するために、何を予測すべきかを決める
  • 予測に必要な機械学習モデルやデータを洗い出す
  • そうしたデータを集め、分析するためにはどのような活動をしないといけないのか

当たり前じゃないかと思われる方がほとんどだと思いますが、改めて大事な視点だと感じました。

話はさらに機械学習エンジニアとビジネスのコミュニケーションにも踏み込んでいきました。 機械学習はやってみないとどれくらいの精度が出るか分からない、という不確実な要素が強い領域です。ただ、だからといって素直に「やってみないと分からない」とコミュニケーションするだけでは何も進められないのも現実です。

機械学習は実験的な要素を含んでいるんだとエンジニアとビジネスサイドで共通認識を持った上で、影響範囲を適切に見極めながら実際にサービスに機械学習を組み込んでみて、リアルに実験をしていくのが重要だというのが中井さんの主張です。そうして知見が溜まることで、機械学習をビジネスで使う勘所をサービスメンバー全体で持てるようになるのではないでしょうか。

google_ai_api10.png

Google社講演資料より

まとめ

最新の機械学習系APIの紹介から、ビジネス適用まで、様々な観点から機械学習サービスについてのエッセンスをまとめていただきました。特に後半の機械学習サービス開発の注意点については、なかなかこうした形でまとめて聞く機会も少ないので、改めて機械学習を使ったサービスについて考えるきっかけになったのではないでしょうか。AIシステム部では、様々なAI案件でビジネスメンバーと一緒にサービスをデザインして組み立てていくことが多く、機械学習に対する共通認識や社内文化の作り方など、参考になる観点が多かったように思います。

今回カバーしきれなかった内容を扱った第二回も検討されているそうなので、楽しみです!

ツイート
シェア
あとで読む
ブックマーク
送る
メールで送る

ICLR2017読み会を開催しました

はじめに

こんにちは、AIシステム部の内田(@yu4u)です。 大分時間が経ってしまいましたが、先日、深層学習に関する論文が多数発表された国際学術会議、International Conference on Learning Representations (ICLR'17) の論文読み会をSakuraカフェにて開催したのでその報告です。 ICLRは、オープンレビューを採用しているので、リジェクトされたものも含め全ての論文およびレビューを読むことができるので、こういう読み会には丁度良いかもしれません。

ICLR'17ウェブサイト

オープンレビューサイト

読み会のConnpass

読み会のTogetter

当日の様子

IMG_3694.JPG

懇親会の様子

IMG_3708.JPG

背景

私自身はコンピュータビジョンが専門ですが、その中で利用するニューラルネットのモデルやその学習方法、モデル圧縮等に興味があり、ICLRの論文は良く読んでいました(ICLRの論文を読むというよりは、気になる論文を読んでいたらそれがICLRの論文であるケースがあるという方が正確)。

そんな折、同僚がICLRに参加するらしいということでふと調べてみると、ICLRに関しては過去国内で読み会が開催されていない (to the best of my knowledge) ことに気づき、使命感(?)から開催を企画する運びとなりました。 Twitterで発表者を募ったところ、Connpassでは発表者の募集ができないくらい多くの方に手を上げて頂けたので、当初15時くらいから開催しようかと思っていたのですが、半日フル開催というボリュームにすることができました。

感想とか

こういう勉強会の企画・運営は初めてだったのですが、会場はもとより、コーヒーブレークや懇親会まで会社的にフルバックアップしてもらえたので、スムーズに開催することができました。あとConnpassは良いサービスですね!

発表者の方々がその道のプロばっかりだったので、発表内容のクオリティが高かったのが凄かったです。当日はずっと司会だったのですが、内容がかなり学術的であることもあり、たまに質問が途切れると専門ではない内容でも質問をしなければという使命感から、学会の座長をしている気分でした。おかげで、実はコンピュータビジョンとか個別の分野よりも、こういうより抽象的なレイヤーの研究のほうが面白いのではないかと思い始めてきました。

機会があれば、またこういう勉強会は企画してみようと思います。あと、来年のICLR読み会も開催したいと思います。

当日の発表内容

以降の内容は当日の各発表の解説です。当日何となく理解したつもりになった発表も、厳密に分かっていないところもあるので、結局元の論文を読み返したりしてしまいました。専門ではない内容も多いため、間違いがあればご指摘ください!

ICLR2017紹介

[ICLR2017読み会 @ DeNA] ICLR2017紹介 from Takeru Miyato

最初の発表では、PFNの宮戸さんにICLR2017を俯瞰できるようなご講演をして頂きました。 実は大学の研究室の先輩であるPFNの @sla さんから、宮戸さんがICLRで発表されるということを聞き、ICLRという会議自体を俯瞰できるようなご講演をお願いしたところ、ご快諾頂きました。 現場の盛り上がりを感じられる内容で、ポスター会場の混み具合はもとより、夜は企業がパーティーみたいな場を設けているということで、もはやお祭りですね。 本会議の採録率は39%らしく(去年は28%)、間口を広げる方向にシフトしているのかもしれません。来年は是非発表者として参加してみたいですね。

医療データ解析界隈から見たICLR2017

医療データ解析界隈から見たICLR2017 from RIKEN, Medical Sciences Innovation Hub Program (MIH)

次に、理化学研究所の川上さんに、医療データ解析をされている立場からICLRという会議を振り返って頂きました。 川上さんは医師免許を持っておられるお医者さんでもあり、同僚の @pacocat がICLRの現地でお会いした際に読み会に興味を持って頂けたとのことで、なかなか聞けない切り口でご講演頂けるのではと思いお願いさせて頂きました。 弊社もヘルスケア事業にも力を入れており、医療領域における機械学習の活用は非常に興味があります。個人的にはパーソナライズドな医療に期待しています。 論文の実験の再現性が低いという話があり、再現しなかったからと言って直ちに間違っているということも言えないので、なかなか新しい手法が出てきて一気に変化が起こるような領域ではないのだろうと考えさせられました。 自分の分野だと、話題の手法はあっという間に再実装や追試がされていくので、対照的だと感じました。最近だと、例えばSELUs (scaled exponential linear units) という手法が話題になって、あっという間に追試された結果が色々Twitterに流れてきたのは印象的でした。

Data Noising as Smoothing in Neural Network Language Models

ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena from Takanori Nakai

@Quasi_quant2010 さんのご発表。 これまでn-gramを用いた言語モデル (language modeling) では、Kneser-Neyに代表されるスムージングが非常に重要な役割を果たしていた。他方、RNNによる言語モデルでは、単語(列)の頻度を明示的に扱っているわけではないので、そのようなスムージングを直接的に行うことはできなかった。 そこで、n-gramから導出される確率を利用して、RNN言語モデルを学習する訓練データに対し、単語を置き換えたりするノイズを加えることで、スムージングと同様の正則化を実現することを提案し、経験的にperplexityが低下することを示した。

レビューでも経験的と言われていますが、アイディアは面白いですね。画像でいうと、ちょっと賢いData Augmentationをしているようなイメージでしょうか。 ちなみにKneserの発音は「k N AI z uh r」らしいです。

http://d.hatena.ne.jp/tkng/20100426/1272266900

On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima

170614 iclr reading-public from Katsuhiko Ishiguro

石黒さん(みらい翻訳/NTTドコモ)のご発表。 DNNは多数のlocal minimumがあり、それらの局所解はどれもglobal minimumと遜色ないと言われている。この論文では、そのlocal minimumにはsharp minimumとflat minimumがあり、大きなバッチサイズを使うとsharp minimumに、小さなバッチサイズを使うとflat minimumに収束すると主張している。 Flat minimumは、局所解から多少パラメータを変動させても、ロスがあまり増加しないような局所解であり、訓練データとテストデータの分布の違いによりロス関数がずれたとしても、あまり精度が変わらない汎化された理想的な局所解と定義される。

大きいバッチサイズと小さいバッチサイズそれぞれで得られたパラメータを結ぶ直線上にあるパラメータを内挿・外挿により求め、ロスを算出することで、sharp minimumとflat minimumを可視化しているのが面白く、説得力があります。 ちなみにその後、バッチサイズの大小ではなく、SGDのパラメータ更新回数こそが重要であるという主張の論文が出ています。

論文:https://arxiv.org/abs/1705.0874

解説:https://www.slideshare.net/JiroNishitoba/20170629

Q-Prop: Sample-Efficient Policy Gradient with An Off-Policy Critic

Q prop from Reiji Hatsugai

@Reiji_Hatsu さんのご発表。 強化学習において最適な方策を見つける手法は、直接方策をモデル化する方策ベースの手法と、状態の価値をモデル化する価値ベースの手法に大別できる。 方策ベースの手法は、現在推定している方策と学習に利用しているサンプルが同じである方策オン型であり、安定した学習が可能である一方、方策がアップデートされるとこれまでの学習サンプルが利用できないためサンプル効率が悪い。 価値ベースの手法(Q学習)は、常に価値が最大となる方策を選択するため、サンプルの方策とは異なる方策に基づく方策オフ型である。このため、任意の方策でサンプリングされたデータで学習できる一方、学習が安定しない、複数ステップ法への拡張が難しいという問題がある。 この論文では、これらの手法のいいとこ取りをするというのがポイントである。具体的には、方策勾配の関数に、criticのTaylor展開したものを加えて数式コネコネすると、actor-criticの手法に似たアップデートの式が出てきて、criticが方策オフ型で学習できるようになる。

何となく雰囲気は分かるが、導出がトリッキーなので、時間があるときにAppendix Aの数式を追ってみたいです。上記のいいとこ取りという観点では、同じくICLR'17に下記のような論文もあります。 PGQ: Combining Policy Gradient And Q-learning

論文:https://arxiv.org/abs/1611.01626

解説:https://www.slideshare.net/sotetsukoyamada/pgq-combining-policy-gradient-and-qlearning

Tying Word Vectors and Word Classifiers: A Loss Framework for Language Modeling

言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling- from Takahiro Kubo

@icoxfog417 さんのご発表。 機械学習である単語を表現する場合には、その単語のIDに該当する次元が1でそれ以外が0となるone-hotなベクトルが利用される。学習時のロスもこのone-hotなベクトルをベースに計算されるので、推論結果が、正解の単語とほぼ同じような単語であろうと全く違う単語であろうと同じロスが発生する。 本論文では、これに対し、単語間の類似度に基づき、正解をone-hotではなく広がりのある分布として表現し、その分布を用いてロスを計算することを提案している。 具体的には、元々のone-hotのベクトルと、単語の埋め込みベクトル間の内積により算出される類似度をsoftmax通すことで作られるベクトルの重み付き和により、この広がりのある分布を定義している。 また、one-hotのベクトルをdenseなベクトルにする埋め込み行列Lについても、出力時の射影Wと本質的に対応しているべきであり、それらを個別に学習しないような手法を提案している。具体的には、LがWの転置であるという制約を導入している。

読み会では、LとWの対応について逆行列で求めているのかという質問がありましたが、フルランクではないのでどのようにしているのかと思いましたが、論文を読むと上記のように転置であるという制約を入れているようです。

Stochastic Neural Networks for Hierarchical Reinforcement Learning

ICLR読み会 奥村純 20170617 from Jun Okumura

奥村さん(DeNA)のご発表。 迷路を解くような問題では、報酬がゴールにたどり着いた時にしか発生しない(報酬がsparse)。このようなケースでは、探索時にゴールに全く辿り着かずに学習が進まないという問題がある。これに対し、中間的なタスクを設定し、そこで汎用的なスキルを身に付けさせることで、報酬がsparseである問題を解決しつつ、身につけた汎用的なスキルを他の問題にも適用できるようにできれば嬉しいよねという問題提起。 本論文では、迷路を解く問題に対し、取り敢えず移動するというタスク(蛇のような関節モデルを想定しており、移動すらランダムだと難しい)を設定し、更に様々な方向に移動する多様性もあるように学習させるために、確率的ニューラルネットの利用と、色々な動きをした際に報酬にボーナスを与える相互情報量ボーナスを導入している。

やっていることは理解できるのですが、背景でなるべく中間タスクはhandcraftedにならないようにと言っている割に、えらくタスクに依存する手法となっているのがちょっとモヤモヤします。

Optimization as a Model for Few-Shot Learning

Optimization as a Model for Few-Shot Learning - ICLR 2017 reading seminar from Hokuto Kagaya

@_hokkun_さんのご発表。 Deep learningは大量の訓練データが存在する場合には威力を発揮するが、例えば鳥というクラスの中で細かい鳥の種類を分類するようなfine-grainedなタスクなどにおいて、各クラスに十分な訓練データが準備できないケース(few-shot learning)がある。そのようなケースでも高精度な認識をするための手法。 SGDの更新式ってLSTMのセルの更新式に似ているよねという発想から、SGDのパラメータの更新の方法をLSTMで学習するというメタ学習を提案している。

枠組みとしては通常の学習でも活用できそうな気がしますが、自動的にドメイン特化した更新式を獲得する枠組みがポイントなので、ドメインが決まっている通常の学習では単に学習率とかを色々単純に試したほうが良いかもしれません。 つまり、問題設定として、メタ学習データでメタ学習を行い、メタテストデータで先ほど獲得した学習方法を利用して学習を行う(ややこしいがメタテストデータに学習データとテストデータがさらに存在する)という前提があり、そもそも学習データで学習率を調整できない(ドメインが変わるので意味がない)のでこのようなアプローチが重要になるのだと思います。

Autoencoding Variational Inference for Topic Models

@nzw0301 さんのご発表。 Latent Dirichlet Allocation (LDA) をNeural Variational Inference (NVI) で行う(明示的にDirichlet分布は利用していないのでLDAと言うのは語弊がある?)。VAEではガウス分布のパラメータをニューラルネットが出力し、そのガウス分布からサンプルを生成する。この際、backpropができるような計算グラフを構築するreparameterization trickを利用する。LDAでは、ディリクレ分布のパラメータを生成し、多項分布(トピック分布)を生成したいが、そのままでは上記のtrickは利用できない。そこで、事後分布をガウス分布で近似するLaplace近似を利用し、ガウス分布からのサンプルにsoftmax(σ())を適用することで、多項分布をサンプルすることを可能とする。 上記のトピック分布θとトピック毎の単語生成確率行列σ(β)との積によって、最終的な文書の単語分布が得られる。ここで、σ(β)は、トピック毎の多項分布であり、最終的な単語分布はそれらのθによる重み付き和となる。このようなケースでは、生成される単語分布は、トピック毎の単語分布よりシャープにならず、幾つかのトピックにおいて主観品質の悪い結果をもたらすことがある。これに対し、本論文では、得られる単語分布をσ(βθ)とするProdLDAを提案している。この場合、βは多項分布であるような正規化がされていないため、上記の問題を解決できるとしている。また、学習方法もBNとDropoutを利用するなど工夫しているらしい。

とても勉強になりました。σ(βθ)としてしまうのは乱暴なようだけど、この定式化でもσ(β)はちゃんとトピック毎の単語性生成行列になるのですね。下記の論文のように、reparameterization trickにもいろいろな種類があって面白いです。

https://arxiv.org/abs/1611.00712

Variational Lossy AutoEncoder

@crcrpar さんのご発表。 VAEでは、潜在変数の事前分布p(z)を正規分布に、事後分布p(z|x)をガウス分布とすることが多い。このような単純な分布は表現能力が低く、真の事後分布にうまくfitしない問題が発生する。この問題に対し、Normalizing Flow、Inverse Autoregressive Flow (IAF) といった、より複雑な事後分布を生成できる手法が提案されている。これらの手法では、単純な分布を徐々に複雑な分布にする可逆変換を利用している。本論文では、IAFで事後分布を複雑な分布にするのではなく、Autoregressive Flow (AF) を用いて事前分布を複雑な分布にすることを提案し、AF事前確率とIAF事後確率のエンコーダ処理は同一であることを示した。

AFを事前確率に入れるほうがIAFを事後確率に入れるより表現能力が高いという主張が良く分かりませんでした。事前知識が足りず、normalizing flow辺りの論文から理解しないといけないですね。

Semi-Supervised Classification with Graph Convolutional Networks

Semi-Supervised Classification with Graph Convolutional Networks @ICLR2017読み会 from 英爾 関谷

関谷さん(DeNA)のご発表。 隣接行列で表現される重み付き無向グラフが与えられ、各ノードには特徴信号が紐付いている。一部ノードにはクラスラベルも付いており、残りのノードにはクラスラベルは付いていない。このような前提で、クラスラベルの付いていないノードのクラス分類を行う、graph-based semi-supervised learningの問題をグラフ畳み込みネットワークで解く手法。 グラフに対する畳み込みは、各ノードの特徴信号を並べたベクトルに対し、グラフラプラシアンの固有ベクトル行列を利用してグラフフーリエ変換を行うことでフーリエドメインに変換し、そこで畳み込みカーネルとの要素積を行い、最後に逆フーリエ変換する処理として定義される。 上記の処理は行列演算と固有値分解の計算量が大きいため、畳み込みカーネルをグラフラプラシアンの固有値の関数と定義し、1次までのチェビシェフ近似を用いることでノード数に線形なグラフ畳み込みを行うことを提案している。

チェビシェフ近似の辺りから、何でそれで良いのか理解が難しいです。ちなみに特徴ベクトルは独立に周波数ドメインに変換されて畳み込みが行われるようですが、次元間の関係をうまく捉えるような拡張とかできないかな、と思いました。

ツイート
シェア
あとで読む
ブックマーク
送る
メールで送る

Google I/O 2017 ショートレポート

昨年よりHRをやってますtachikeiです。

ちまたのI/O熱が冷めた頃合いを狙ってHR観点でショートレポートを投下します。

次回 DeNA TechCon のネタ探しも含めて Google I/O 2017へ行きました。
プロダクトや技術的なトピはたくさんの方が書かれているので、それ以外で。

IMG_3881.jpg

持ち帰ったのは以下2点。
・Google I/Oはトッププライオリティのアジェンダ
・おもしろい技術でおもしろいモノを作る、以上

1点目は
・トップが語る
・IOにリリースをあわせる
・ムーブメントを起こす
エンジニアが好きにやってるカンファレンスじゃなくて全体がそこに向かっている印象です。

2点目は
物作りの会社。おもしろい技術でおもしろいものを作ろうと。テクノロジーとプロダクト。
エンジニアが本来やりたいのは、これだと思います。

当然利益は出さなければならないと思いますが、
ここのシンプルな点の追求こそが競争力のベースになっているように感じました。

それ以外の点としては
・物作りに集中できる環境作り
・AIの応用スピード早い
・オフィスアワーのAIニーズ高い
・ライブ配信、メディア対応手厚い

以上です。
必要なものを組織にジワジワとインストールしたいと思います。
早速、ラズパイ用のマイクロフォンを買いに行きましたとさ w

ツイート
シェア
あとで読む
ブックマーク
送る
メールで送る

golang.tokyo #6 を開催しました

こんにちは、オープンプラットフォーム事業本部の@pospomeです。
普段は GAE/Go の環境でサーバサイドエンジニアとして働いています。
(´・ω・`)

DeNA といえば、 Perl の印象が強いかもしれませんが、
AndApp というPCゲームプラットフォームの開発に GAE/Go を採用したこともあり、
AndApp以外の新規プロジェクトでも Go を採用するケースが増えてきました。

そういった経緯もあり、golang.tokyo #6 が 6/1 に DeNA にて開催されました。

当日の様子

DSCN2043.JPG DSCN2044.JPG DSCN2041.JPG

当日の資料

こちらにまとまっているので是非覗いてみて下さい。

発表に対する感想

ここからは pospome が当日の発表に対する感想をつらつらと書いていこうかと思います。

Gopher Fest 2017 参加レポート

Alias Declarations は面白い機能ですね。
「sync.Map」「環境変数の上書き」「go test の vendoring 無視」も嬉しいですね。

初めてGolangで大規模Microservicesを作り得た教訓

「非対称暗号が遅いから別サービスとして PHP で実装した」というのは
Microservices ならではの特徴ではないでしょうか。

regex, reflection が遅いというのは皆さんご存知かもしれませんが、
多用すると影響が出るくらい遅くなるケースがあるんですね。
ちなみに、PHP で実装したのは GAE/SE で利用可能で、サクっと
実装できそうだったからです。

ゲーム開発には欠かせない?!あれをシュッと見る

CSVはよく使いますよね。
こーゆーCLIツールをサラッと作れるのは Go の魅力の1つではないでしょうか。

Go Review Commentを翻訳した話

以下の記事を書いた方だったんですね。
「いいね」が100を超えたみたいです。
http://qiita.com/knsh14/items/8b73b31822c109d4c497

僕も読みましたが、Indent Error FlowInitialisms みたいな
個人の好みによってバラつきが出るものは
このようにルール化されると統一できていーですよね。

ScalaからGo

Sacla と副作用のお話でしたが、最終的に Scala の方が好きっていうw
と言いつつ、僕は個人的に DDD, クラス設計 とか好きなので、
実は Scala, Swift のように色々できる多機能な言語に魅力を感じたりします・・・。
もちろん、Go も好きですよ。

Crypto in Go

LTでセキュリティ系の話は珍しいですね。
勉強になりました。

まとめ

ということで、参加者の皆様、勉強会お疲れ様でした。
予想以上の来場者に、我々も改めて golang の人気の高さを感じました。
今回の勉強会で得られた知見を仕事や趣味で活かしていけるといいですね。

参加者並びに運営の皆様、弊社へお越しいただき、ありがとうございました。
また機会があれば弊社で開催させていただければと思っております。

ツイート
シェア
あとで読む
ブックマーク
送る
メールで送る

Selenium Conf2017 Austin に参加してきました

システム本部SWETグループのグループリーダの沖田(@okitan)です。SWET(スウェットと読む)はE2Eテストの自動化やCI/CDの整備等を通じてDeNAの事業の開発生産性と品質の向上をミッションとするチームです。

SWETチームはその前身となるMobageのオープンプラットフォームのテスト自動化とCIをミッションとしていた時代からSeleniumによるEnd to Endテストに取り組んできていました。今回、そのSeleniumの国際カンファレンスであるSelenium Conf 2017 Austinに参加してきたので、Seleniumを取り巻く最新の動向を紹介したいと思います。

Selenium Conf Austin 2017

Selenium Conf 2017 Austinは4月3日〜4月5日までの3日間開催され、約500人の参加者があったようです。初日はワークショップが開催され、2日目と3日目がカンファレンスでした。私は、日程の都合上、2日目と3日目のカンファレンスだけの参加となりました。

2017-05-23 10.01.11.png

日本からの参加者は私だけだったようなので、昼食だとかレセプションだとかで積極的にいろいろな人に話しかけたのですが、カンファレンス参加者の所属は大手企業からスタートアップまでバラエティーに富んでいて、その中でSeleniumやAppiumを使った自動テストを元にどういうようなことをやっているかというのを色んな立場の人から聞けたのはすごくいい経験になりました。

日本でも最近ではかなりDevOpsが当たり前になってきていますが、今回個人的に話を聞いた人たちの多くも当然のようにDevOpsでの開発サイクルを回していて、その中でいかに継続的かつサイクルのいろんなところにQAを分解再構築したものをいれていき、それにより品質と生産性をあげていくかといった、DevOpsQA的な取り組みを模索している最中といった感じでした。

SWETでもDeNAの事業のサイクルに寄り添い、その中でいかに品質と生産性をあげていくかに日々取り組んでいて、非常に参考になりました。

今回カンファレンスで心に残った発表も、そういったDevOpsQA的なものを目指し、CIの中でいかにSelenium特有のflaky(安定しない)なテストにチームとして立ち向かっていくかといった発表が多かったです。

Transformative Culture - The Shift From QA To Engineering Productivity

そのような発表の中で、個人的に一番よかったのは、Ashley HunsbergerさんによるTransformative Cultureでした。

ストーリーとしては、400件のテストケースのうち370件がflakyでかつ全部の実行に2時間かかるような悲惨な状況から、チームや全社的なカルチャーをいかに変えていったかといったよくある系ではあるのですが、その際の具体的な目標設定だとか、施策が非常に参考になりました。特に、作成していくテストスイートに対して、その「Goal(目的)」、「Trigger(実行タイミング)」、「Gate(失敗したときに何が起きるか)」、「Requirements(テスト実行に関わる要求)」を定義していくということがきちんと整理されていて、今携わっているプロジェクトにおいてはどうなっているだろうかとかいろいろ考えさせられました。Seleniumに関してのテクニカルなことはほぼ触れられていませんでしたが、このような自動テストを作りメンテしていく上で必要なことが一杯つまった発表だったと思います。

詳しくは、動画スライドがあがっているので、是非そちらを参照してください。

Zalenium: Use A Disposable And Flexible Selenium Grid Infrastructure

一方、Seleniumの技術的なトピックで印象に残ったのは、Diego MolinaさんとLeo Gallucciさんによる、"Zalenium: Use A Disposable And Flexible Selenium Grid Infrastructure"という発表です。

Zalenium(発表者はサレニウムと発音していました)は、Selenium Grid(CI環境でよく使われるSeleniumの複数ブラウザを並列的に動作させるための仕組み)を拡張していろいろな機能を足したもので、実はこのカンファレンス参加前からSWETグループではZaleniumの利用の検討をしていました。もっといえば、Zaleniumとほとんど同じような機能をSWET内独自に実装していて、当初はその取り組みを発表しようとSelenium ConfにCFPを送っていました(CFP送った当時はZaleniumが本当に出たてのことで全くその存在を知らなくて、CFPの時点でこれと競合していたのであればrejectもある意味納得です)。

Zaleniumがもつ機能でSWETで行いたかった取り組みは、テスト実行状況の可視化とその録画でした。というのも、特にJenkinsのようなCI環境で大量に分散したテスト実行状況をリアルタイムに確認可能にし、またその動作状況を録画しておくことにより、何かあったときのフィードバックを高速化したり、何かあったときのデバッグを非常に簡単にできます。

そのうえ、Zaleniumはリンク先の図のような仕組みにより、Selenium Gridにおけるnode(実際のブラウザが動く環境)のdockerコンテナがオートスケールします。SWETでやっているSeleniumの自動テストは、1つのテストケースに複数のブラウザを動作させることが必要となるテストが多く、そのためテスト実行時に必要なブラウザセッションの数が不定でした。nodeがオートスケールするような仕組みと我々のSeleniumの自動テストはかなり相性が良いと感じました。

なお、Zaleniumが利用しているSeleniumのdockerイメージは公式のものではなくdocker-seleniumを利用しています。このdocker-seleniumは公式のdockerイメージのgood alternativesという目的で開発されていて、例えば録画機能はこのdocker-seleniumの機能によるものです。このdocker-seleniumはつい最近まで、日本語や中国語だといったフォントが表示ができない問題があったのですが、我々が最近送ったPRにより、表示できるようになりました。以前Zaleniumを試してこの問題にあたった方も再度試していただけるといいなと思います。

Zaleniumに関しても、動画スライドがあがっているので、是非そちらもご参照ください。

まとめ

発表は基本的に、YouTubeですべて動画でみられるのですが、何よりも中の人達といろいろな話ができたのが収穫であり、刺激になりました。

例えば、Zaleniumの中の人たちは、DeNAがZaleniumを使い始めようとしていることを知っていたり、今度PRを送るねーとかやりとりをしたりしました。

また、Seleniumコミッタ陣とも、今年の7月1日に日本で行われる予定のSelenium Comitter Day 2017に関する話をしたりだとか、共著で書いたSelenium実践入門プレゼントしたりだとかのやりとりをしました。

Selenium Committer Day 2017はSeleniumのコアメンバー3人がそれぞれトークをしてくれ、同時通訳までついてます。絶賛参加募集中ですので、ぜひぜひご参加ください!DeNAもこのイベントのスポンサーをしておりますし、SWETメンバーもトークする予定となっています。

ツイート
シェア
あとで読む
ブックマーク
送る
メールで送る

実写のVRのストーリーテリングに関する調査

こんにちは。

アイドルやスポーツのライブストリーミングを行なっているSHOWROOMで、番組のVR化を進めております、エンジニアの小倉と申します。DeNAの技術開発という、メンバー個々人が研究開発をした技術をそれぞれに適合しそうなサービスに持ち込む、ちょっと変わった部署に所属しています。

今回は社内の国際学会カンファレンス支援制度という、有望な若者を世界に送り出す制度(を、おっさんが使ってしまった罪悪感を噛み締めながら)で、SXSW2017に行った報告をお届けします。

SXSW出席の経緯:

SXSW2017に出席した3/10の時点のSHOWROOM VRは単眼360度(=立体ではない360度)のライブストリーミング配信でした。単眼360度の映像では、VRグラスで見るよりもスマートフォンでみる方が快適で、ぐるっと後ろを見るとスタジオのおっさん達が映ったりして、「コレジャナイ感」「いや絶対コレジャナイよ感」がそこはかとなく漂う状況にありました。

風景主体のコンテンツは360度で配信した方が臨場感が出ますが、演者さん主体のコンテンツは注視点の方向が決まってるいわけですから、360度である必要はありません。アプリケーションのUIには番組参加のユーザーの注視点ヒートマップがあり、皮肉な事に360度である必要がないことを示しています。(※補足有り)

視野角を180度に割切る代わりに、左右の目の位置からみた映像をライブストリーミングして、スマートフォンとCardbordでリアルタイムにアイドルを立体で見られる方が、体験としてはインパクトがあります。 結果的に、この方が通信帯域を有効活用する事にもなります。

普段の生活では得られない視点から人や物を見られる事自体が、新しい体験となります。そこに4K 3D配信が入り、更に鮮明な体験が作れるようになりました。これは、「SHOWROOM VRのコンテンツをもっと進化させられないか?」、「旅行やスポーツなどへの利用を進められないか?」という問題意識を、より強く持つようになりました。これが今回SXSWに出席した理由です。

※補足※ 360度必要ないという判断は、FLAT(360度との対比で普通の四角い映像を指す言葉)の撮影を目的とした現在のスタジオの構造から来る結論であり、今後はそこも含めて変わる可能性は十分あります。実際、AKB48のオールナイトニッポン(毎週水曜25:00開催)は机の中央に360度カメラを置き、コンテンツとして360度が活かされてます。

SXSWとは:

米国テキサス州オースティンで毎年開催されるアートとテクノロジーのイベントで、1987年に音楽祭として始まって以来30年間続いています。取り扱う題材の範囲が広く、議論の切り口も斬新です。トップページの動画を見ても色々詰まり過ぎていて何のイベントかさっぱり理解できません。

2017-05-29 9.56.35.png Austin Convention Center(SXSWの中心的な場所)

2017-05-29 9.56.48.png 図:SXSWスケジュール表

スケジュール表にある通り、4つの分野「Music」「Film」「Interactive」「Comedy」が更に細分化されているのが分かると思います。VR/ARのカンファレンスは、表中央の「Convergence」欄なので、「Music」「Film」「Interactive」の合わせ技となります。それは、この期間に集中的に議論されることを意味しています。この期間だけというわけではなく、VR/ARのタグがついたカンファレンスは開始早々の3/11から「Interactive」「Film」の中にも埋もれています。

開催期間中はオースティンの街全体が会場ムードです。街のあちこちでカンファレンス、展示、デモ、パーティーが行われていて、VR/ARもその一つです。 Uberが使えないオースティンの街で往来を終日×1週間続けるのは、体力勝負の情報収集となります。また、カンファレンスには当たり外れも多いです。20分歩いて辿り着いたのに「キャパオーバーで入れない」とか、「期待外れで落胆する」ということが続いても、折れない心が必要です。

AR/VRの議論の前提「AR/VR=メディア」:

まず、「AR/VR=メディア」という捉え方は、あまり日本では意識されていないと思います。理由としては、日本のメディアは率先してAR/VRを取り上げていないことや(※NHK技研を除く)、CGを使ったVRゲームのコンテンツ開発が主流だからだと考えられます。

AR/VRがメディアとして意識されていない状況(日本におけるAR/VRの状況)を、あえて極端に図示してみました(下図参照)。この状況では、AR/VRというのは新しいもの好きな人々ための何かで、多くの人が関係するものとしては認知されにくいと考えられます。

また、海外の様にNPO・NGOでVRコンテンツ製作が活躍しているといった話を聞きません。日本のVRのオピニオンリーダーはインディーゲーム開発者とその投資家で、孤軍奮闘しているという状況です。

05-29 9.57.24.png

一方で、米国ではSXSWに限らずAR/VRはメディアとして捉えられています(下図参照)。ゲームクリエイターはもちろん、スターウォーズのようなメジャー映画のコンテンツ製作をするクリエイターや、医師、ジャーナリスト、NASAのマーケティングもオピニオンリーダーとして参加しています。AR/VRは将来的に多くの人が関わることになるものとして、大真面目な議論が行われています。

05-29 9.57.36.png

まず、この違いを認識していると、議論の範囲や、規模感を理解しやすいと思います。日本でAR/VR関連のプロジェクトの稟議が通りにくい、根本的な理由はここにあると思えます。勘が良い方は、この状況が放置されていることに危機感すら覚えると思います。というのも、未来の世代の教育レベルや国力、あるいはメディア戦に影響を与えかねない話だからです。

カンファレンスについて:

カンファレンスはパネリストによる、2人~4人のパネルディスカッションの形式が定番です。スライド資料はほとんどありません。ひたすら続く会話から重要と思われるキーワードを拾っていきます。一例としてNASAのパネルディスカッションを紹介します。

Space 360: Experience NASA Missions in VR/AR/Video

p7-05-29 9.57.54.png NASAのパネルディスカッションに参加した際のメモ

実写のVR、360度動画に関してはSXSW2014から活発に議論が行われています。当時は「この100年間で確立されたカメラワークや映像の編集方法が360度では通用しないため、模索するところから始めましょう」という論調でした。

SXSW2017においてもこの延長線上で議論がなされており、今も模索は続いています。「エクストリームな環境(例えばスキューバダイビングでサメに囲まれるものや、スカイダイビングの様な360度動画)を観ると、人は驚く」ということは確認されました。そこから長時間楽しめるコンテンツにする為に「ストーリーテリングはどうすればいいのか?」といったところに論点が来ています。

まとめ:

AR/VRに関するパネルは期間中に11セッション出ました。このうちVRのメディアとしての強みや、ストーリーテリングについてだいたいまとめると以下のようになります。

17-05-29 9.58.03.png

実写のVRの場合、「どこで情報を集めればいいのだろう?」「その場合のストーリーテリングは?」という疑問はずっと昔からありました。カメラ、ツールに関する情報はたくさんありますが、コンテンツ製作に関する情報はなかなかありません。というのも、まだ模索の段階だからです。

SXSWはそうした議論を幅広く行なっている場であることから、自分も2015年から行きたいことを表明しておりましたが、ようやく2017年に稟議が通りまして参加できた次第です。

一方、かつてのビデオ、インターネットが参考となるように、コンテンツ市場の拡大を予測する一般的な目安として、アダルト市場の動向があります。実写のVRコンテンツでも先行しているアダルト市場では、2017年から大手が次々と参入する段階に入っています(制作関係者筋談)。

どんな理由にせよ、一般層にCardbord、Gear VRなどの360度動画向きのHMDが広まることで、この後は実写のVRのコンテンツ全般に様々なチャンスが出てくると考えます。同時にコンテンツの粗製乱造のためにユーザーが離れたり、実写に少しアノテーション情報を重ねただけでAR、MRと表明するものなどが出てくるため、ARもVRもMRも名称が混乱する状況になると考えます。

TechBlogという場でTechとはあまり関係ない話をしてしまいましたが、本業はエンジニアで、GPUのコードを書いてストリーミング用の360度カメラや3Dカメラを製作したり、スマートフォン・アプリケーション側でVRの画質を向上するような仕事をしております。 機会があれば、こうした技術ノウハウも共有して参りたいと思います。

お付き合いただき、ありがとうございました。

告知:(放送は終了しました)

5/29 22:00より「ミスFLASH 2017」の4K 3Dライブストリーミング放送を行います。

mifla2017.png

必要なものはSHOWROOMアプリ(iOS版Android版)、あとはCardboard かそれに準ずるものがあれば良いです。

実際、リアルタイムで立体でアイドルを見るというのは、動画とも、また単眼の360度動画とも、体験として全然違うものになります。 番組開始時間にアプリから番組に入っていただくか、ここを踏んでいただければ始まります。まだまだ発展途上中のサービスですので、御意見をいただければ幸いです。

ツイート
シェア
あとで読む
ブックマーク
送る
メールで送る

SVVR報告会

こんにちは。根岸(@CST_negi)です。
現在新卒2年目で、VRアプリ開発の業務を行っております。
業務の傍ら、趣味でもVRアプリを開発しております。Unity/C#が好きです。

今回は、出張で3/29-3/31にサンノゼで行われたSVVR EXPOに参加してきたのでその話をします。現地のVR事情を視察しにいっただけではなく、自作のVRアプリをSVVR EXPOで展示してきましたのでその知見を含めてお話します。
渡米は初めてで英語を人に話すのも初めてな状況でしたが、様々な成果を得ることができました。

SVVR EXPOとは

SVVR(Silicon Valley Virtual Reality)というコミュニティが開催するVRイベントです。VRに関連したテーマについて講演が行われるほか、各企業や個人が制作したアプリを展示する場も設けられています。有料イベントなので、参加者が全員真剣だったのが印象的でした。
テーマに関しては、ゲームだけでなくソーシャルVRや医療系VR、Vスポーツ(VR+eSports)やWebVRなど、VRに関連したものなら幅広く取り扱っていました。

201705170001.png

展示したもの

VR本屋という仮想空間内に実際の本屋のような空間を再現しながらマンガを読めるアプリを作っていて、そのプロトタイプを展示しました。
実はDeNATechConでも同様にこのアプリを展示しまして、その時からアプリを英語対応させ、リファクタリングした上で展示に臨みました。

05-17 17.12.13.png

VR本屋は海外でもウケは良かった

体験者は期間の割に多くはないですが、「ポテンシャルはある!」「とてもいいプロダクトだね!」などの意見をいただきました。サービス化したら教えてねという話やその他ありがたい申し出などもありました。
印象としてはアジア圏(現地でお会いしたのは中国や韓国やタイ出身の方)の方からの反応が特に良かったと思います。マンガの文化が浸透しているからかもしれません。
体験後のアンケートも取ったので、それで得た意見を参考にしつつ製作を進めて行こうと思います。

海外での展示を経て知見など

2点あります。
まずは英語の話。展示というのはある程度言うことが決まっているので、話すことに関してはアピールポイントを説明できる英文をあらかじめ頭にいれておくと効果的です。一方でリスニングは聞き取れないこともあったので、自分の場合は本当にわからなかった時はノートPCでGoogle翻訳を出して「これを使ってくれませんか?」というお願いをするなどして対処しました。ちなみに、これを断る人は全くいなかったので、恥ずかしくても聞きたいという姿勢は崩さないのが良いと思います。

次に展示の話。これは日本とあまり変わらないことですが、何をやっているブースなのかちゃんと分かるようにしましょう。私の場合はデモ動画を用意して、現地の方からお借りした50インチの大画面で展示をアピールしたのが効果的でした。
大画面で「こんな事をやってるよ」というのをアピールして、それを見て立ち止まった人に「Try this?」と声をかけて、どんどん展示に引き込んでいきました。

現地のVR市場について

今回は特にソーシャルVRの領域について視察してきました。VRにおけるソーシャルプラットフォームはまだ大きなものは確立されておらず、それを獲りに行く動きが活発で多様な動きがあったのが印象的です。
Facebook社も最近ではソーシャルVRのアプリをリリースしましたが、それ以外の企業ではゲームに特化したものや、イベントに特化したものなど、それぞれ尖りが明確なサービスをリリースしています。国外のみならずソーシャルVR分野は国内でもいくつかサービスがロンチされていますので、競争は世界的に激しくなりそうです。

社内報告会での報告

帰国後、SXSWに行った小倉さんと共に社内での報告会を行いました。(SXSWの記事は後日公開されます。)
先に記した知見や、出来事などを共有しました。自分と同じように英語に不慣れな人でも、割となんとかなるということは伝えられたかなと思います。

2017-05-17 17.14.37.png

AR/VRの市場規模は2021年には現在の20倍以上に拡大すると市場予測がされており、この背景からも海外の企業では積極的に投資が行われていることを肌で感じました。また、そうした企業の目に見えた成果をSVVR EXPOで確認することができ、VR市場の拡大については私も期待を持つことが出来ました。

今回の展示では海外に飛び込んでいったからこそ新たに見えたものがありました。ここで得た知見と経験を活かしつつ、更なる発展への努力と今後のVR市場の拡大に個人としても備えていこうと思います。
ありがとうございました。

ツイート
シェア
あとで読む
ブックマーク
送る
メールで送る

ICST 2017参加報告

システム本部SWETグループの薦田(こもだ、と読む)です。SWET(スウェット、と読む)はE2Eテストの自動化を中心にDeNAの事業の開発生産性と品質の向上をミッションとするチームです。

SWETでは社外における新しいテスティング技術をウォッチし発信していくこともそのミッションの一つとなっています。そのような活動の一貫として、3月13日から17日にソフトウェアテストに関する国際会議ICST 2017に参加してきました。

ICST 2017での発表内容は大学での研究が中心でしたが、Googleやトヨタ自動車など産業界のテスト・エンジニアの参加も多かった印象です。会議期間中は発表セッションだけでなく、休憩時間や会場の通路などで、産業界からの参加者とアカデミックからの参加者が入りまじり、プログラミング教育におけるテストの位置づけの話から泥臭いテスト実装のケーススタディまで幅広いトピックについて、熱い議論が行われていました。

ICST 2017全体のスコープはソフトウェアテスト全般です。必ずしもモバイルアプリケーションやウェブアプリケーションだけがターゲットというわけではなく、車載向けシステムの検証の話やファクトリ・オートメーションの話などもあり、普段聞けないような話を聞くことができるのは、大きな魅力と感じました。

さて今回はそうしたICST 2017の発表の中でも、SWETの業務と特に関連が深いウェブアプリケーションのUI自動テストに関する「Using Semantic Similarity in Crawling-based Web Application Testing」というタイトルの、カリフォルニア大学アーバイン校Jun-Wei Lin氏の発表について紹介させていただきます。

フォーム入力自動化における実装上の課題

論文の内容について紹介する前に、弊社内でのこれまでのUI自動テスト開発の経験の中で上がっていた課題について説明させていただきます。

ウェブアプリケーションを対象にE2EのUI自動テストを書くとして、例えばログインページにメールアドレスとパスワードを入力する、という操作を自動化することを考えます。 この処理の実装としてよくあるのが、例えば以下のような実装です。

# テスト対象のログインページに移動
visit "https://test-target.com/login"
# nameが"emailAddress"であるフォームにemailを埋める
# この値は、テスト対象ページの実装依存
fill_in "emailAddress",  with: "hogehoge@fuga.com"

# nameが"passwd"であるフォームにパスワードを埋める
# この値は、テスト対象ページの実装依存
fill_in "passwd", with: "password"

# idが"btnNext"であるボタンを見つけてきて、クリックする
find('#btnNext').click

テスト対象ページのHTMLタグのidやnameの値をハードコードして、そこに特定の値を入力するという実装です。

このような実装では、テスト対象画面の入力フォームのidやnameの値をテストコード側で管理しなくてはなりません。テスト実行に必要なテスト対象固有のデータのことをテストアセットと呼びますが、テストの規模が大きくなってくるとこのテストアセットの管理が複雑になるという問題があります。

さらに悪いことに、HTML内のidやname属性の値は、テスト対象のHTMLの変更によって容易に変わってしまうものです。実際に弊社内で運用しているUI自動テストでも、HTMLの変更によってユーザから見れば全く問題がないにも関わらず、リグレッションテストが失敗することがしばしば起こります。リグレッションテストを利用するエンジニアはテストの実装者と異なる場合も多く、このようなUIテスト実行失敗の原因をシューティングすることは時間がかかり面倒な作業となっているのが現状です。

今回紹介する論文「Using Semantic Similarity for Input Topic Identification in Crawling-based Web Application Testing」では、このようなフォームの自動入力処理の実装に自然言語処理の手法を適用することで、テスト実装とテスト対象システムの実装を疎結合化し、テスト対象システム内の特定のHTML属性値に依存しないロバストなフォーム入力の自動化を実現する、という内容です。

フォーム入力自動化への自然言語処理の適用

この論文の中心となるアイディアはフォーム入力自動化を、HTMLタグをその意味ごとに分類するという機械学習の分類問題として取り扱ってみようというものです。機械学習によってテスト対象ページにあるフォームの意味が分類できれば、idやname属性の具体的な値をテスト側で知らずとも、 フォームを埋めることができます。例えば、ログインページであればページ内に存在する入力フォームを、1.ログインID、2.パスワード、3.ログインとは関係のないフォーム、の3種類に分類できれば良いといった具合です。

さてこの論文中では、フォームの実体であるHTMLを機械学習、特に自然言語処理の枠組みで扱うために少し工夫をしています。具体的には、各フォームに対応するHTMLタグを以下のように変換してしまいます。

変換前のHTMLタグ

<input type="email" id="subject-id" name="subject_id" autocomplete="on" placeholder="メールアドレス" class="txtfield w-max" value="">

変換後の単語列

["email", "subject", "id", "subject", "id", "メールアドレス", "txtfield", "w-max"]

この変換は単純に<input>タグの属性値を抜き出して単語ごとに区切っただけですが、論文中ではフォーム周辺の文字列を単語列に含めるなど、もう少し賢い変換を行っていますが本質は同じです。このような変換をかませることで、既存の自然言語処理の文書分類手法を、そっくりそのままHTMLに対して使うことができるでしょう、という点がこの論文の2つ目のアイディアです。

実験

この手法について、簡単な再現実験も行ってみましたのでその結果も報告させていただきます。

具体的には、DeNAの提供するいくつかのサービスのログインページに対して、出現する<input>タグを分類して、ログインIDを入力するフォーム、パスワードを入力するフォームを判別できるかどうかを試してみました。

詳細

グーグルで「ログイン」で検索して出てくる上位の41のサイトのログインページのHTMLから、

<input>タグを抽出し
・これらの<input>タグがログインIDなのか、パスワードなのか、ログインと関係ないタグなのかを手動でラベル付けした

ものを学習データとして利用しています。 学習データは合計218個のフォームで、ラベルの分布は

hyu01.png

のようになっています。

学習データ(mysqlのダンプ形式)

学習ログインページURLリスト

・文書のベクトル表現にはBag of Wordsを用いている

・文書ベクトルはLSI(潜在意味解析)による次元圧縮を行ったのち、ロジスティック回帰を用いてラベル推定を行っている

アルゴリズム実装にはPythonの機会学習ライブラリgensimを用いました。

学習・推定スクリプト

また、モデルの精度を評価するためのテストデータはいくつかの弊社サービスのログインページ内の10のフォームに対して検証を行っています。

hyu02.png

実験結果

検証実験の結果は以下のようになります。ログインIDに対するPrecision、Recall、パスワードに対するPrecision、Recallおよび全体のAccuracyを評価しています。

hyu03.png

データ数が小さいので確定的なことを述べるのは難しいですが、なんとなくうまくいっていそうです。再実行が簡単にできるUI自動テストというユースケースを考えると、Precisionが低いことはある程度許容できること、また本当は入力対象のフォームだったが推定時に取りこぼしてしまったケースがなかったこと(Recall 100%)を考えると実用的に利用できそうな気もしてくる結果です。

さて、誤判定をしている2つのケースですがこれはどちらも、本当はログインIDではないフォームを、ログインIDフォームとして誤判定しています。具体的にには、例えば以下のようなものでした。

<input type="email" id="register-subject-id" name="subject_id" autocomplete="on" placeholder="メールアドレス" class="txtfield w-max" value="">

このフォームタグがあるログインページは

image18392389.png

のような画面です。

このログインページには「メールアドレスでログイン」と「メールアドレスで会員登録」の2つのメールアドレス入力欄がありますが、今回の実験ではこの2つのフォームをどちらもログインID用の入力フォームと判定しています。本物のログインIDフォームの属性値と会員登録用フォームの属性値はほとんど同じであり、このケースは<input>タグの属性値のみを用いて判別するのは難しかった例と言えるかと思います。

今回の実験では簡単のため、原論文の実装とは異なり<input>タグ内部の属性直のみを用いていました。これを原論文と同じように各フォームの周辺のHTMLタグの値(ラベルの値など)を学習・推定に用いれば、このような誤判定も解決できるかもしれません。

まとめ

今回はICST 2017で発表された「Using Semantic Similarity in Crawling-based Web Application Testing」という論文について紹介させていただきました。再現実験では、とても単純な例とはいえ、UI自動テストへの機械学習適用の可能性を感じさせる結果を得ることができました。

本当にこのような手法がうまくいくのであれば、フォーム入力の自動化だけでなく自動テスト実装の様々な場面で利用することができると考えられ、より実践的なユースケースでの実験を引き続き進めていく予定です。

ツイート
シェア
あとで読む
ブックマーク
送る
メールで送る

mithril.js v1.0 の変更点

こんにちは。DeNA Games Osaka 技術編成部のさい(@sairoutine)です。
DeNA Games OsakaはDeNAの大阪拠点です。今後ともよろしくおねがいします。

2017年01月31日に、mithril.jsのv1.0がリリースされました。 (2017年5月現在、v1.1.1までリリースされています)

軽い/高速/低学習コストというmithril.js本来の特徴はそのままに、これまでのバージョンでは制約となっていた機能が大幅に変更されています。

本記事では、v1.0のリリースに当たって、大きな変更となる箇所をご紹介したいと思います。
なお、mithril.js自体の紹介については、下記の記事をご参照ください。

最速フレームワーク Mithril 入門
http://developers.mobage.jp/blog/mithril-introduction

JSX が推奨に

仮想DOMのHTML like な独自拡張構文として React には JSXがありました。同様に、mithril.js にも MSX というのがありましたが、MSX は 1.0 から非推奨になり、公式のドキュメントでも、babel と transform-react-jsx が推奨となりました。

m.deferred が廃止され、Promise が使用される

v0.2.5 までは m.deferred という Promise like な非同期処理のための関数があり、m.request 等の一部の関数は m.deferred を使用していました。これが v1.0 からはブラウザネイティブな Promise を使用するようになりました。Promise 非対応ブラウザではpolyfill を使用してくれるので、引き続き IE9 までの古いブラウザでも、mithril.js が使用できることに変わりはありません。

m.prop が廃止され stream に

v0.2.5 までは、(主に Model)クラスのプロパティの getter/setter を作成するために m.prop という関数がありました。 v1.0 からはこれが廃止され、stream という命名で別モジュールに切り出されました。

stream では今までの getter/setter 機能に加えて、stream から新しい stream を生成して、元の stream の内容の変更を新しい stream に伝播させたり、あるいは stream 同士の合体をすることができるようになりました。

// stream から新しい stream の生成
var value = stream(1)

var doubled = value.map(function(value) {
    return value * 2
})

console.log(doubled()) // 2

// stream の合体
var firstName = stream("John")
var lastName = stream("Doe")
var fullName = stream.merge([firstName, lastName]).map(function(values) {
    return values.join(" ")
})

console.log(fullName()) // "John Doe"

firstName("Mary")

console.log(fullName()) // "Mary Doe"

streamモジュールは他にも色々と出来ることがあるので、詳しくは公式ドキュメントの stream の項を参照頂ければと思います。

vnode の概念の追加

v1.0 から vnode (Virtual DOM nodes)という概念が追加されました。vnode とは仮想DOMツリーを表すオブジェクトです。コンポーネントの view 関数や、あるいは後述するライフサイクルイベントに定義された関数が mithril から呼ばれる際に、引数として渡されます。

例えば、コンポーネントに状態を持たせて、状態を参照したり変更したりしたい場合は、vnode.state に状態を追加/変更します。

var Component = {
    oninit : function(vnode) {
        vnode.state.fooga = 1
    },
    view : function(vnode) {
        return m("p", vnode.state.fooga)
    }
}

vnode オブジェクトは他にも色々なプロパティを持つので、詳しくは公式のドキュメントの vnode の項目を参照頂ければと思います。

ライフサイクルイベント

v0.2.5 までは、仮想DOMに対する config 属性で一部のライフサイクルイベント(oninit, onupdate 等)に対する処理を実装していました。v1.0 からは config が廃止され、コンポーネントに対して、以下のライフサイクルイベントで処理される関数を定義することができるようになりました。

oninit
コンポーネントが初期化される際に呼びだされるフックです。実DOMが追加されるより前に呼び出されます。

oncreate
oninit と異なり、oncreate はコンポーネントが初期化されて、実DOMが作成した後に呼び出されます。実DOMが作成した後に呼ばれるため、vnode.dom 経由で実DOMを取得して操作を行うことが可能です。

onupdate
mithril.js による再描画によって、一度生成された DOMに更新があると呼び出されます。onupdate が呼び出された際には、既に更新された実DOMが生成されているので、vnode.dom 経由で更新後の実DOMを取得したり、操作することが可能です。

onbeforeupdate
onupdate と同様に、一度生成されたDOMに更新があると呼び出されます。onupdate が、更新された実DOMが生成された後に呼ばれるのに対して、onbeforeupdate では更新された実DOMが生成される前の、仮想DOMの差分比較のタイミングで呼び出されます。この時、onbeforeupdate で定義した関数でfalse を返すことで、差分検知をスキップすることができます。

onbeforeremove
DOMが削除される前に呼ばれます。このタイミングでは、削除される実DOMはまだ削除されていないので、vnode.dom で実DOMにアクセスすることが可能です。また、onbeforeremove で定義した関数がPromise オブジェクトを返すと、mithril.js はそのPromise が完了するまで、実DOMの削除を遅延します。

onremove
DOMが削除される際に呼ばれます。onbeforeremove に関数が定義されていると、onremove は onbeforeremove が完了した後に呼び出されます。

controller の廃止

controller という概念がなくなり、今まで controller のコンストラクタで行っていたことは、コンポーネントの oninit で行うことが推奨されました。またコントローラに紐づく関数は、コンポーネントの関数として記述することが推奨となりました。

最後に

v1.0 アップデートに当たっての大きな変更点をご紹介させていただきました。その他にも細かい変更がありますので、詳細は公式の change log を参照頂ければと思います。

コンポーネントに対するライフサイクルイベントの追加や、あるいは controller の廃止により、所感としてMVC フレームワークというより、コンポーネント指向なフレームワークに近くなった印象です。

一方で、軽い/高速/低学習コストという mithril.js 本来の特徴は失われていません。 SPAを構築する上で充分かつ必要最小限なAPIに加えて、他のライブラリやビルドツールに対して低依存であることから、JSフレームワークにおけるスイスアーミーナイフのような存在です。

v1.0 にアップデートされた mithril.js にぜひ一度皆様も触れてみてください。

ツイート
シェア
あとで読む
ブックマーク
送る
メールで送る