第31回 Lucene/Solr勉強会 #SolrJP
イベント説明
皆様、こんにちは。勉強会運営スタッフです。
本勉強会でもすっかりおなじみとなりましたApache Lucene/Solr コミッター Alessandro Benedetti 氏の来日に合わせまして、急遽、Lucene/Solr勉強会を開催する運びとなりました。
Alessandro Benedetti 氏からは、相互ランク融合(RRF)によるハイブリッド検索(従来のキーワードベースの検索とベクトル検索(セマンティック検索)を組み合わせたもの)のApache Solrへの実装について解説します。並びに、ロンウイット社スペシャリストよる、セマンティック検索のパフォーマンス向上レポートの講演を予定しております。
虎ノ門ヒルズビジネスタワーにあるBasisTech 東京支社様ご提供のミーティングルームをお借りして、リアル会場(10名様)での開催となります。
また、今回もGoogle Meetによるオンライン配信もありますので、遠方の方、移動時間がない等で会場へお越しいただくのが難しい方もぜひご参加ください。
なお、リアル会場では、講演終了後にネットワーキングタイムを設ける予定です。講師の方やご来場のゲスト間のコミュニケーションにご利用ください。(ドリンクやスナック類をご提供する予定です)
急なご案内とはなりますが、皆様のご参加をお待ちしております。
開催概要
第31回 Lucene/Solr勉強会
場所:
虎ノ門ヒルズビジネスタワー CIC TOKYO 16F ミーティングルーム「RENGA」 (煉瓦のローマ字表記)
※会場は16Fですが、エレベータは15Fで降りて、15Fのキッチンエリア近くの階段より16Fへ上がってください。
(会場: BasisTech 東京支社様 提供)
最寄駅:
東京メトロ日比谷線『虎ノ門ヒルズ駅』中目黒方面はB1出口(地下通路直結)、北千住方面はA2出口
東京メトロ銀座線『虎ノ門駅』B2出口(地下通路直結)
東京メトロ千代田線・丸ノ内線・日比谷線『霞ヶ関駅』A12出口より徒歩8分
都営三田線『内幸町駅』A3出口より徒歩7分
JR 山手線・京浜東北線・東海道本線・横須賀線『新橋駅』より徒歩約10分
地図:
BasisTech 東京支社様のウェブサイトにてご確認をお願いいたします。
https://www.basistech.jp/about/contact/tokyo/
日時:
2024/10/16(水)
17:30 ~ 受付開始、開場
18:00 ~ 開始
※終了は19時30分を予定(ネットワーキングタイムは含みません)しておりますが前後する場合があります。
虎ノ門ヒルズビジネスタワーご到着後のご案内:
地下通路から2つのエレベーターを乗り継ぎ 1Fエントランスまで上がります。現地参加を希望された方に別途メールにてお送りしている入館案内からQRコードを印刷してお持ちいただくか、当日現地にてスマホ画面に表示してご用意ください (QRコードの取得ができない場合は、メールに記載された番号をご用意いただき、1Fエントランスの発券機にてQRコードを発行いただけます)。エレベーターは、スターバックスに一番近い「6-16F」専用のセキュリティーゲート (入館証のQRコードリーダーは一番右側のゲートにあります) からお乗りいただき15Fまでお越しください。16Fの RENGA には、15Fのメインドアから入り、キッチンエリア付近にある階段で上がります。
その他のご連絡事項:
※ ビルへの入館方法については、上記「虎ノ門ヒルズビジネスタワーご到着後のご案内」をご覧ください。
※ 16Fミーティングルーム「RENGA」 (煉瓦のローマ字表記) にて受付を行います。
※ 現地会場受付にあたって、お名刺1枚をご用意ください。
※ 18:00になりましたら、現地会場受付を終了させていただきます。
入館案内、オンライン配信のリンクは決まり次第お知らせします。
内容
1. Solr9.7負荷テストレポート:SIMD最適化によるセマンティック検索パフォーマンス向上の評価 (JA)
Apache ManifoldCF Committer & PMC member
趙 明春(チョウ メイシュン、Mingchun Zhao)(@ロンウイット)(約25分)
Apache Solr 9.7.0 リリースハイライトに「Apache Luceneが9.11.1にアップグレードされ、Java 21を使用したセマンティック検索などで大幅なパフォーマンス向上を実現しました。」と記されています。これにより、Java 20とJava 21でベクトル計算におけるSIMD最適化がデフォルトで有効になっています。
本セッションではベクトル計算性能におけるSIMD最適化の効果を評価するため実施した負荷テストの結果と考察をご紹介します。セマンティック検索性能をSIMD最適化有効・無効で比較し、SIMD最適化の効果を定量化、可視化しました。
2. Hybrid Search with Apache Solr Reciprocal Rank Fusion (EN)
Apache Lucene/Solr Committer & PMC member
Alessandro Benedetti(Director@Sease Ltd.)(約45分)
Vector-based search gained incredible popularity in the last few years: Large Language Models fine-tuned for sentence similarity proved to be quite effective in encoding text to vectors and representing some of the semantics of sentences in a numerical form. These vectors can be used to run a K-nearest neighbour search and look for documents/paragraphs close to the query in a n-dimensional vector space, effectively mimicking a similarity search in the semantic space (Apache Solr KNN Query Parser).
Although exciting, vector-based search nowadays still presents some limitations:
- it’s very difficult to explain (e.g. why is document A returned and why at position K?)
- It doesn’t care about exact keyword matching (and users still rely on keyword searches a lot)
Hybrid search comes to the rescue, combining lexical (traditional keyword-based) search with neural (vector-based) search. So, what does it mean to combine these two worlds?
It starts with the retrieval of two sets of candidates:
- one set of results coming from lexical matches with the query keywords
- a set of results coming from the K-Nearest Neighbours search with the query vector
The result sets are merged and a single ranked list of documents is returned to the user. Reciprocal Rank Fusion (RRF) is one of the most popular algorithms for such a task. This talk introduces the foundation algorithms involved with RRF and walks you through the work done to implement them in Apache Solr, with a focus on the difficulties of the process, the distributed support(SolrCloud), the main components affected and the limitations faced.
The audience is expected to learn more about this interesting approach, the challenges in it and how the contribution process works for an Open Source search project as complex as Apache Solr.
※ 発表内容等は変更されることがございます。各発表の時間は目安です。2.は英語での発表となりますが通訳はありません。
参加にあたっての注意事項
人材紹介もしくは転職や就職の斡旋・勧誘を目的としたご参加はご遠慮ください。
次回以降のスピーカー/LTスピーカーの募集
次回以降のスピーカー/LTスピーカーとして、Solrでの取り組みや事例など、ご紹介、お話いただける方がいらっしゃいましたら、管理者までご連絡ください。
開催日
2024年10月16日18:00 ~ 2024年10月16日19:30
主催者・問い合わせ先
Solr勉強会 #SolrJP
開催場所
項目 | 内容 |
---|---|
場所 | BasisTech 東京支社(定員10名) |
住所 | 東京都港区虎ノ門1-17-1 虎ノ門ヒルズビジネスタワー CIC TOKYO |
開催場所の地図
SNS・Bookmark
近隣のイベント
- 2022年7月13日 - 【HOPE神田】7/13(水)18:00~ ご利用説明会(オンラインも可)
- 2022年7月13日 - 「脱VPN」相談会【リアル会場セミナー】
- 2022年7月13日 - (かもめエンジニアリング)「脱VPN」相談会【リアル会場セミナー】
- 2022年7月13日 - 【来所して体験】7/13(水)サードプレイス(平日日中)体験セッション(新宿)
- 2022年7月13日 - ランステ公認練習会:まなゆうレッスン水曜朝練 5-7月期 単発(11)
- 2022年7月12日 - 7/12(火)17:30 発達障害の当事者向け『見学&個別相談』@立川
- 2022年7月12日 - 7/12(火)16:00 発達障害の当事者向け『個別無料相談』@秋葉原サテライト
- 2022年7月12日 - 平日夜間 皇居3周ビルドアップ走 約15キロ キロ約5分半~
- 2022年7月11日 - 【来所して体験】7/11(月)サードプレイス(平日日中)体験セッション(秋葉原)
近隣の場所 (直線距離)
- コワーキング - コワーキングスペース茅場町 Co-Edo (3.1km)
- カナダ大使館 (2km)
- 東京都港区赤坂7-3-38 (2.1km)
- クラスメソッド株式会社 日比谷オフィス26階 カフェスペース (350m)
- 株式会社リクルート (2km)
- BasisTech 東京支社(定員10名) (0m)
- 産業技術総合研究所 臨海副都心センター 別館11階 (6km)
- 日経ホール&カンファレンスルーム (2.6km)
- テックジム東京本校 (1.5km)
- 東京タワー・芝公園周辺(集合場所:芝公園記念塔) (1.3km)
- テックジム株式会社 (1.5km)
- 市ヶ谷駅(外濠公園) (2.9km)
- 辰巳の森海浜公園 (6.1km)
- 東京体育館ティップネス(集合場所:東京体育館前) (3.7km)
- HIBIYARIDE(ヒビヤライド) (791m)
- お台場セントラル広場 シンボルプラムナード公園ガンダム前付近 (5.4km)
- お台場セントラル広場(シンボルプラムナード公園ガンダム前付近) (5.4km)
- ソニーシティ(本店) (4.1km)
- LINEヤフー株式会社セミナールーム (1.7km)