首頁 資訊 一鍵實(shí)現(xiàn)穿衣自由,揭秘淘寶AI試衣間硬核技術(shù),AnalyticDB向量在線召回

一鍵實(shí)現(xiàn)穿衣自由,揭秘淘寶AI試衣間硬核技術(shù),AnalyticDB向量在線召回

來源:泰然健康網(wǎng) 時(shí)間:2024年12月02日 21:21

2023-12-14 108743 發(fā)布于浙江

版權(quán)

舉報(bào)

版權(quán)聲明:

本文內(nèi)容由阿里云實(shí)名注冊(cè)用戶自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,阿里云開發(fā)者社區(qū)不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。具體規(guī)則請(qǐng)查看《 阿里云開發(fā)者社區(qū)用戶服務(wù)協(xié)議》和 《阿里云開發(fā)者社區(qū)知識(shí)產(chǎn)權(quán)保護(hù)指引》。如果您發(fā)現(xiàn)本社區(qū)中有涉嫌抄襲的內(nèi)容,填寫 侵權(quán)投訴表單進(jìn)行舉報(bào),一經(jīng)查實(shí),本社區(qū)將立刻刪除涉嫌侵權(quán)內(nèi)容。

隨著淘寶的蓬勃發(fā)展,網(wǎng)購已經(jīng)融入日常生活。網(wǎng)購讓大家足不出戶就能挑選眾多品類商品,還能貨比N家,但同時(shí)網(wǎng)購也會(huì)帶來一些未知的問題。

相信大家都有線上購買服裝的經(jīng)歷吧?在線上挑選的時(shí)候,只能根據(jù)價(jià)格、款式、尺碼等信息,選出可能合適的衣服,但是衣服穿上后效果如何?應(yīng)該怎么搭配更好看?我更適合淑女風(fēng)還是廢土風(fēng)?畢竟淘寶商家的模特穿啥啥好看。

為了解決上述的痛點(diǎn),淘寶服飾聯(lián)合通義實(shí)驗(yàn)室XR實(shí)驗(yàn)室借助AIGC強(qiáng)大科技力推出了重磅級(jí)的產(chǎn)品AI試衣間。

在手機(jī)淘寶APP上搜索 ifashion,上傳自己的照片即可體驗(yàn)AI試衣~

在AI試衣間功能的背后,阿里云瑤池旗下的云原生數(shù)據(jù)倉庫AnalyticDB MySQL提供了高維向量低延時(shí)的在線向量召回檢索服務(wù),下面將進(jìn)行介紹。

1. 淘寶AI試衣間-技術(shù)揭秘

手淘搜ifashion即可進(jìn)入線上AI試衣間,由淘寶服飾聯(lián)合通義實(shí)驗(yàn)室XR實(shí)驗(yàn)室借助AIGC將人工智能和時(shí)尚穿搭相結(jié)合。AI試衣間將結(jié)合數(shù)億用戶的尺碼數(shù)據(jù)和海量的服裝圖片實(shí)現(xiàn)推薦適合自己的穿搭搭配。為了滿足要求,從海量的商品素材圖片中快速找到需要的圖片是一個(gè)很重要的基礎(chǔ)服務(wù)。為了提升召回率,素材圖片Embedding后使用多維的向量特征值存儲(chǔ),在線服務(wù)需要滿足低延時(shí)高并發(fā)的要求。

云原生數(shù)據(jù)倉庫AnalyticDB MySQL在此場(chǎng)景中提供了以圖搜圖服務(wù),為試衣間提供滿足特定要求的相似性素材圖片的服務(wù)。AI試衣大模型訓(xùn)練每個(gè)模特需要多張不同的模特圖,目前用戶只供給了一張,我們是把商品詳情圖文中的圖片數(shù)據(jù),先通過算法識(shí)別把模特上身圖摳出來,然后根據(jù)用戶提供的那一張主圖,從商品sku/詳情圖文庫中對(duì)摳出的圖片集中做相似度檢索,按相似度閾值,生成不同的素材圖,滿足算法模型訓(xùn)練的圖片數(shù)據(jù)供給數(shù)量,在滿足圖片相似度要求的情況下,可能也會(huì)有一些其他確定性的條件作為輸入。下圖簡(jiǎn)略介紹了處理過程。

AnalyticDB MySQL可以管理和檢索圖片素材,可以根據(jù)商品圖片類別,屬性或者相似圖片做多模檢索圖片,在支持圖片相似性檢索的同時(shí),同時(shí)支持和結(jié)構(gòu)化數(shù)據(jù)的標(biāo)量融合,包括多表的關(guān)聯(lián)查詢。例如,檢索和輸入圖片相似,并且滿足價(jià)格在200-300元之間和3個(gè)月內(nèi)(新款)上架的商品照片。為了方便展示,假設(shè)向量的維度使用了8維長(zhǎng)度。

1.1 數(shù)據(jù)模型

云原生數(shù)據(jù)倉庫AnalyticDB MySQL,向量檢索功能的使用很簡(jiǎn)單,使用array數(shù)據(jù)類型存儲(chǔ)向量的特征值,array數(shù)據(jù)類型支持byte,smallint,int和float四種值類型,如果數(shù)據(jù)量很大,可以對(duì)需要進(jìn)行向量召回的特征列定義一個(gè)向量的索引提升檢索的速度。向量特征列和向量索引的管理和普通列和索引的DDL類似,支持在創(chuàng)建表的時(shí)候設(shè)定,也可以通過ALTER TABLE語句添加。

服飾類素材圖片簡(jiǎn)化后的數(shù)據(jù)表定義如下。

CREATE TABLE products ( product_id BIGINT COMMENT '商品ID', gmt_create DATETIME COMMENT '創(chuàng)建時(shí)間', gmt_modified DATETIME COMMENT '修改時(shí)間', image_url VARCHAR COMMENT '商品圖片地址', price FLOAT COMMENT '商品價(jià)格', document JSON COMMENT '知識(shí)文檔,json結(jié)構(gòu)', status INT COMMENT '文檔狀態(tài), 1審核通過,0未審核,-1審核不通過', feature ARRAY <float>(8) COMMENT '商品圖片向量結(jié)果', PRIMARY KEY (product_id, gmt_create), ANN INDEX idx_feature(`feature`) ) DISTRIBUTE BY HASH(product_id) PARTITION BY VALUE(`date_format(gmt_create, '%Y%m')`) LIFECYCLE 36 INDEX_ALL = 'Y';

1.2 準(zhǔn)備數(shù)據(jù)

數(shù)據(jù)入庫支持實(shí)時(shí)寫入和批量導(dǎo)入,下面的示例使用了insert into插入了1條測(cè)試數(shù)據(jù)。

INSERT INTO products (product_id, gmt_create, price, image_url, feature) VALUES(6, NOW(), 288.00, 'https://xxx/img6.jpg', '[0.83891445,0.50359607,0.9299093,0.19440076,0.5789051,0.12121256,0.6587046,0.86555034]');

1.3 數(shù)據(jù)檢索(向量召回)

AnalyticDB MySQL支持融合查詢,需要同時(shí)滿足下面的條件。

條件1:指定圖片相似度前5,并且按照相似度排序,KNN+ Top-K。

條件2:價(jià)格在200.00和300.00之間。

條件3:素材的創(chuàng)建時(shí)間在最近3天以內(nèi)。

上述條件2和3是結(jié)構(gòu)化數(shù)據(jù)標(biāo)量數(shù)值計(jì)算,條件1是非機(jī)構(gòu)化相似性計(jì)算。業(yè)務(wù)場(chǎng)景期望3個(gè)條件可以在1個(gè)引擎同時(shí)完成,達(dá)到提升效率和降低維護(hù)成本的作用。這種場(chǎng)景通過AnalyticDB能夠很方便支持,使用也很簡(jiǎn)單。

SELECT product_id, l2_distance(feature, '[0.83891440,0.50359607,0.9299093,0.19440070,0.5789051,0.12121256,0.6587046,0.86555034]') as dis, image_url, price, document FROM products WHERE l2_distance(feature, '[0.83891445,0.50359607,0.9299093,0.19440076,0.5789051,0.12121256,0.6587046,0.86555034]') < 10 AND gmt_create > DATE_SUB(NOW(), INTERVAL 90 DAY) AND price between 200.00 and 300.00 ORDER BY l2_distance(feature, '[0.83891445,0.50359607,0.9299093,0.19440076,0.5789051,0.12121256,0.6587046,0.86555034]') LIMIT 5;

AnalyticDB MySQL除了提供實(shí)時(shí)OLAP多維分析和檢索外,還提供向量召回功能,支持淘寶APP的AI試衣間場(chǎng)景,解決了引擎冗余的問題,把結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)檢索能力整合,適用于多?;旌县?fù)載檢索場(chǎng)景,降低了向量的使用和運(yùn)維成本。

2. 經(jīng)驗(yàn)和總結(jié)

在電商行業(yè),以圖搜圖讓用戶所見即所搜,拍張照片可以找到相似的商品;在游戲行業(yè),通過識(shí)別玩家的情感狀態(tài),更好的理解玩家的感受和態(tài)度,進(jìn)行針對(duì)性的優(yōu)化和改進(jìn),增加游戲玩家的趣味性;在智能客服行業(yè),通過結(jié)合企業(yè)領(lǐng)域知識(shí)和大模型語義理解能力構(gòu)建智能客服。這些智能化應(yīng)用落地的背后,離不開向量數(shù)據(jù)庫的加持。向量數(shù)據(jù)庫使用場(chǎng)景多且豐富,常常應(yīng)用在以文搜圖、以圖搜圖、聽音識(shí)歌等等,技術(shù)已經(jīng)得到了廣泛的應(yīng)用,比如:

人臉識(shí)別服務(wù),支持高維人臉識(shí)別。以圖搜圖服務(wù),即通過圖片檢索圖片的應(yīng)用服務(wù)。視頻檢索服務(wù),即通過視頻中的某些幀圖片進(jìn)行視頻圖片檢索,來實(shí)現(xiàn)視頻檢索。聲紋檢索服務(wù),即通過音頻匹配音頻的應(yīng)用服務(wù)。推薦系統(tǒng)服務(wù),即通過用戶特征匹配實(shí)現(xiàn)推薦匹配的功能。基于語義的文本檢索和推薦,通過文本檢索近似文本。問答機(jī)器人,通過與大模型結(jié)合搭建高效的問答機(jī)器人服務(wù)。

為了實(shí)現(xiàn)特征向量的快速檢索,一般都會(huì)構(gòu)建向量索引來實(shí)現(xiàn)。通常說的向量索引都屬于ANNS(Approximate Nearest Neighbors Search,近似最近鄰搜索),它不同于數(shù)字的等值或者字符串的term匹配,也不同于like或者全文檢索的近似匹配,而是在最大程度上通過非結(jié)構(gòu)化數(shù)據(jù)的相似度進(jìn)行檢索。

ANNS向量索引可以根據(jù)實(shí)現(xiàn)方式的不同區(qū)分為不同類型的索引,主要分為圖索引和量化索引,其中圖索引主要是HNSW和RNSW,量化索引主要是PQ、FLAT、SQ8和SQ8H等。為了能使ANNS向量索引能夠更加方便地應(yīng)用到實(shí)際的生產(chǎn)環(huán)境中,目前業(yè)界主要有兩種實(shí)踐方式。一種是單獨(dú)將ANNS向量索引服務(wù)化,以提供向量索引創(chuàng)建和檢索的能力,從而使其成為人工智能服務(wù)體系中的一部分;另一種就是在傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)庫的基礎(chǔ)之上,去融合ANNS向量索引的能力,從而使其能直接使用簡(jiǎn)單的SQL就能完成復(fù)雜的結(jié)構(gòu)化數(shù)據(jù)檢索,也能同時(shí)具備結(jié)構(gòu)化與非結(jié)構(gòu)化融合查詢的能力。

云原生數(shù)據(jù)倉庫AnalyticDB MySQL是一款阿里云數(shù)據(jù)庫團(tuán)隊(duì)自研的云原生數(shù)據(jù)倉庫產(chǎn)品,支持向量和結(jié)構(gòu)化數(shù)據(jù)的融合檢索,在各種條件組合的查詢的場(chǎng)景中,達(dá)到超過99%的召回率。它的數(shù)倉和湖倉提供了非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和通用數(shù)據(jù)庫檢索服務(wù)。通過深度學(xué)習(xí)網(wǎng)絡(luò)完成推理,可以將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化成向量,提供基于向量的相似性檢索。

AnalyticDB MySQL在集成向量檢索引擎的同時(shí)也做了很多優(yōu)化,算法的核心思想是把HNSW(Hierarchical Small World Graph)算法和多版本PQ(Product Quantization, 乘積量化)編碼算法做一個(gè)融合,實(shí)現(xiàn)了不同場(chǎng)景下支持向量索引的實(shí)時(shí)增刪查改,使向量檢索引擎和數(shù)據(jù)庫本身融為一體,可以非常方便的使用。目前AnalyticDB使用的向量檢索引擎技術(shù)已經(jīng)發(fā)表在了VLDB上,該文主要講述了HNSW算法和PQ算法在AnalyticDB中的實(shí)現(xiàn)以及相應(yīng)的優(yōu)化策略。

3. 未來展望

向量服務(wù)的Embedding服務(wù)可以支持插件式,提供Serverless/Function的向量Embedding服務(wù),支持根據(jù)不同的業(yè)務(wù)場(chǎng)景選擇不同的Embedding模型。在相似度的召回率上提供可配置的選項(xiàng),支持在QPS和召回率之間做一個(gè)更自主的靈活配置。例如除了支持人臉,聲紋等需要高正確率的檢索,也需要支持圖片等素材更需要彈性的檢索。

相關(guān)實(shí)踐學(xué)習(xí)

AnalyticDB MySQL海量數(shù)據(jù)秒級(jí)分析體驗(yàn)

快速上手AnalyticDB MySQL,玩轉(zhuǎn)SQL開發(fā)等功能!本教程介紹如何在AnalyticDB MySQL中,一鍵加載內(nèi)置數(shù)據(jù)集,并基于自動(dòng)生成的查詢腳本,運(yùn)行復(fù)雜查詢語句,秒級(jí)生成查詢結(jié)果。

阿里云云原生數(shù)據(jù)倉庫AnalyticDB MySQL版 使用教程

云原生數(shù)據(jù)倉庫AnalyticDB MySQL版是一種支持高并發(fā)低延時(shí)查詢的新一代云原生數(shù)據(jù)倉庫,高度兼容MySQL協(xié)議以及SQL:92、SQL:99、SQL:2003標(biāo)準(zhǔn),可以對(duì)海量數(shù)據(jù)進(jìn)行即時(shí)的多維分析透視和業(yè)務(wù)探索,快速構(gòu)建企業(yè)云上數(shù)據(jù)倉庫。 了解產(chǎn)品 https://www.aliyun.com/product/ApsaraDB/ads

相關(guān)知識(shí)

AI虛擬教練助你練出人魚線,揭秘Keep AI運(yùn)動(dòng)技術(shù)實(shí)力
寶寶衣物清洗大揭秘
毫米波雷達(dá)助力保護(hù)嬰幼兒呼吸健康監(jiān)測(cè),硬核科技護(hù)航寶寶健康成長(zhǎng)
內(nèi)衣的穿著寶典下=正確地穿著內(nèi)衣
給寶寶穿衣有哪些技巧
穿上這款內(nèi)衣,真能顯瘦20斤?揭秘背后原理!
2周歲寶寶穿多大碼衣服
嬰兒衣服穿多少合適、怎么把握,一文全了解
穿美體內(nèi)衣好嗎
【寶寶衣物熒光劑】寶寶衣物污漬怎么去除

網(wǎng)址: 一鍵實(shí)現(xiàn)穿衣自由,揭秘淘寶AI試衣間硬核技術(shù),AnalyticDB向量在線召回 http://www.u1s5d6.cn/newsview219084.html

推薦資訊