ຢ່າປ່ອຍໃຫ້ການເກັບຮັກສາກາຍເປັນຄໍຂວດຫຼັກໃນການຝຶກອົບຮົມຕົວແບບ

ມັນໄດ້ຖືກກ່າວວ່າບໍລິສັດເຕັກໂນໂລຢີກໍາລັງຂູດຮີດ GPUs ຫຼືຢູ່ໃນເສັ້ນທາງທີ່ຈະໄດ້ຮັບພວກມັນ. ໃນເດືອນເມສາ, CEO Elon Musk ຂອງ Tesla ໄດ້ຊື້ 10,000 GPUs ແລະກ່າວວ່າບໍລິສັດຈະສືບຕໍ່ຊື້ GPU ຈໍານວນຫລາຍຈາກ NVIDIA. ໃນດ້ານວິສາຫະກິດ, ບຸກຄະລາກອນ IT ຍັງໄດ້ຊຸກຍູ້ຢ່າງຫນັກແຫນ້ນເພື່ອຮັບປະກັນວ່າ GPU ຖືກນໍາໃຊ້ຢ່າງຕໍ່ເນື່ອງເພື່ອເຮັດໃຫ້ຜົນຕອບແທນສູງສຸດຂອງການລົງທຶນ. ຢ່າງໃດກໍຕາມ, ບາງບໍລິສັດອາດຈະພົບວ່າໃນຂະນະທີ່ຈໍານວນຂອງ GPUs ເພີ່ມຂຶ້ນ, GPU idleness ກາຍເປັນຮ້າຍແຮງກວ່າເກົ່າ.

ຖ້າປະຫວັດສາດໄດ້ສອນພວກເຮົາກ່ຽວກັບຄອມພິວເຕີ້ທີ່ມີປະສິດທິພາບສູງ (HPC), ມັນແມ່ນວ່າການເກັບຮັກສາແລະເຄືອຂ່າຍບໍ່ຄວນເສຍສະລະໃນຄ່າໃຊ້ຈ່າຍຂອງການສຸມໃສ່ການຄິດໄລ່ຫຼາຍເກີນໄປ. ຖ້າການເກັບຮັກສາບໍ່ສາມາດໂອນຂໍ້ມູນໄປຫາຫນ່ວຍງານຄອມພິວເຕີ້ໄດ້ຢ່າງມີປະສິດທິພາບ, ເຖິງແມ່ນວ່າທ່ານມີ GPU ຫຼາຍທີ່ສຸດໃນໂລກ, ທ່ານຈະບໍ່ບັນລຸປະສິດທິພາບທີ່ດີທີ່ສຸດ.

ອີງຕາມການ Mike Matchett, ນັກວິເຄາະຂອງ Small World Big Data, ຮູບແບບຂະຫນາດນ້ອຍສາມາດປະຕິບັດໄດ້ໃນຫນ່ວຍຄວາມຈໍາ (RAM), ຊ່ວຍໃຫ້ສຸມໃສ່ການຄິດໄລ່ຫຼາຍຂຶ້ນ. ຢ່າງໃດກໍຕາມ, ຮູບແບບຂະຫນາດໃຫຍ່ເຊັ່ນ ChatGPT ທີ່ມີຫຼາຍຕື້ຂໍ້ບໍ່ສາມາດຖືກເກັບໄວ້ໃນຫນ່ວຍຄວາມຈໍາເນື່ອງຈາກຄ່າໃຊ້ຈ່າຍສູງ.

ທ່ານ Mattett ກ່າວວ່າ "ທ່ານບໍ່ສາມາດພໍດີກັບຫຼາຍຕື້ໂຫນດໃນຫນ່ວຍຄວາມຈໍາໄດ້, ດັ່ງນັ້ນການເກັບຮັກສາຈະມີຄວາມສໍາຄັນຫຼາຍກວ່າເກົ່າ," Mattett ເວົ້າ. ແຕ່ຫນ້າເສຍດາຍ, ການເກັບຮັກສາຂໍ້ມູນມັກຈະຖືກມອງຂ້າມໃນລະຫວ່າງຂະບວນການວາງແຜນ.

ໂດຍທົ່ວໄປ, ບໍ່ວ່າຈະເປັນກໍລະນີການນໍາໃຊ້, ມີສີ່ຈຸດທົ່ວໄປໃນຂະບວນການຝຶກອົບຮົມຕົວແບບ:

1. ການຝຶກອົບຮົມຕົວແບບ
2. ຄໍາຮ້ອງສະຫມັກ Inference
3. ການເກັບຮັກສາຂໍ້ມູນ
4. ເລັ່ງຄອມພິວເຕີ

ເມື່ອສ້າງ ແລະນຳໃຊ້ແບບຈໍາລອງ, ຄວາມຕ້ອງການສ່ວນໃຫຍ່ຈະໃຫ້ຄວາມສຳຄັນຕໍ່ການພິສູດແນວຄວາມຄິດ (POC) ຢ່າງວ່ອງໄວ ຫຼືສະພາບແວດລ້ອມການທົດສອບເພື່ອເລີ່ມຕົ້ນການຝຶກອົບຮົມແບບຈໍາລອງ, ໂດຍທີ່ການເກັບຮັກສາຂໍ້ມູນບໍ່ຈໍາເປັນຕ້ອງພິຈາລະນາເປັນອັນດັບຕົ້ນໆ.

ແນວໃດກໍ່ຕາມ, ສິ່ງທ້າທາຍແມ່ນຢູ່ໃນຄວາມຈິງທີ່ວ່າການຝຶກອົບຮົມຫຼືການປະຕິບັດ inference ສາມາດໃຊ້ເວລາຫຼາຍເດືອນຫຼືແມ້ກະທັ້ງປີ. ຫຼາຍໆບໍລິສັດຂະຫຍາຍຂະໜາດຕົວແບບຂອງເຂົາເຈົ້າຢ່າງໄວວາໃນຊ່ວງເວລານີ້, ແລະໂຄງສ້າງພື້ນຖານຕ້ອງຂະຫຍາຍອອກໄປເພື່ອຮອງຮັບຕົວແບບ ແລະຊຸດຂໍ້ມູນທີ່ເພີ່ມຂຶ້ນ.

ການຄົ້ນຄວ້າຈາກ Google ກ່ຽວກັບຈໍານວນການເຮັດວຽກຂອງການຝຶກອົບຮົມ ML ຫຼາຍລ້ານສະແດງໃຫ້ເຫັນວ່າສະເລ່ຍ 30% ຂອງເວລາການຝຶກອົບຮົມແມ່ນໃຊ້ໃນທໍ່ຂໍ້ມູນປ້ອນຂໍ້ມູນ. ໃນຂະນະທີ່ການຄົ້ນຄວ້າທີ່ຜ່ານມາໄດ້ສຸມໃສ່ການເພີ່ມປະສິດທິພາບ GPUs ເພື່ອເລັ່ງການຝຶກອົບຮົມ, ສິ່ງທ້າທາຍຫຼາຍຢ່າງຍັງຄົງຢູ່ໃນການເພີ່ມປະສິດທິພາບຂອງສ່ວນຕ່າງໆຂອງທໍ່ຂໍ້ມູນ. ໃນເວລາທີ່ທ່ານມີພະລັງງານການຄໍານວນທີ່ສໍາຄັນ, ຄໍຂວດທີ່ແທ້ຈິງຈະກາຍເປັນວິທີທີ່ທ່ານສາມາດປ້ອນຂໍ້ມູນເຂົ້າໃນການຄິດໄລ່ຢ່າງໄວວາເພື່ອໃຫ້ໄດ້ຜົນ.

ໂດຍສະເພາະ, ສິ່ງທ້າທາຍໃນການເກັບຮັກສາຂໍ້ມູນແລະການຄຸ້ມຄອງຮຽກຮ້ອງໃຫ້ມີການວາງແຜນການຂະຫຍາຍຕົວຂອງຂໍ້ມູນ, ຊ່ວຍໃຫ້ທ່ານສາມາດສະກັດມູນຄ່າຂອງຂໍ້ມູນໄດ້ຢ່າງຕໍ່ເນື່ອງ, ໂດຍສະເພາະໃນເວລາທີ່ທ່ານເຂົ້າໄປໃນກໍລະນີການນໍາໃຊ້ທີ່ກ້າວຫນ້າເຊັ່ນການຮຽນຮູ້ເລິກແລະເຄືອຂ່າຍ neural, ເຊິ່ງເຮັດໃຫ້ຄວາມຕ້ອງການສູງຂຶ້ນ. ການເກັບຮັກສາໃນແງ່ຂອງຄວາມອາດສາມາດ, ການປະຕິບັດ, ແລະການຂະຫຍາຍ.

ໂດຍສະເພາະ:

ຄວາມສາມາດໃນການຂະຫຍາຍ
ການຮຽນຮູ້ຂອງເຄື່ອງຈັກຮຽກຮ້ອງໃຫ້ມີການຈັດການຂໍ້ມູນຈໍານວນຫຼວງຫຼາຍ, ແລະຍ້ອນວ່າປະລິມານຂອງຂໍ້ມູນເພີ່ມຂຶ້ນ, ຄວາມຖືກຕ້ອງຂອງແບບຈໍາລອງຍັງປັບປຸງ. ນີ້ຫມາຍຄວາມວ່າທຸລະກິດຕ້ອງເກັບກໍາແລະເກັບຂໍ້ມູນເພີ່ມເຕີມທຸກໆມື້. ເມື່ອການເກັບຂໍ້ມູນບໍ່ສາມາດປັບຂະໜາດໄດ້, ຂໍ້ມູນວຽກທີ່ໜັກໜ່ວງຈະສ້າງຂໍ້ບົກຜ່ອງ, ຈຳກັດປະສິດທິພາບ ແລະ ສົ່ງຜົນໃຫ້ເວລາເຮັດວຽກຂອງ GPU ແພງຫຼາຍ.

ຢືດຢຸ່ນ
ການສະຫນັບສະຫນູນທີ່ຍືດຫຍຸ່ນສໍາລັບໂປໂຕຄອນຫຼາຍ (ລວມທັງ NFS, SMB, HTTP, FTP, HDFS, ແລະ S3) ແມ່ນມີຄວາມຈໍາເປັນເພື່ອຕອບສະຫນອງຄວາມຕ້ອງການຂອງລະບົບທີ່ແຕກຕ່າງກັນ, ແທນທີ່ຈະຖືກຈໍາກັດຢູ່ໃນປະເພດດຽວຂອງສະພາບແວດລ້ອມ.

ເວລາແຝງ
ເວລາແຝງຂອງ I/O ແມ່ນມີຄວາມສຳຄັນຕໍ່ການສ້າງ ແລະການນຳໃຊ້ຕົວແບບ ເນື່ອງຈາກຂໍ້ມູນຖືກອ່ານ ແລະອ່ານຄືນຫຼາຍຄັ້ງ. ການຫຼຸດຜ່ອນຄວາມແຝງຂອງ I/O ສາມາດຫຼຸດເວລາການຝຶກອົບຮົມຂອງຕົວແບບລົງເປັນມື້ ຫຼື ຫຼາຍເດືອນ. ການ​ພັດ​ທະ​ນາ​ຕົວ​ແບບ​ໄວ​ຂຶ້ນ​ໂດຍ​ກົງ​ແປ​ຄວາມ​ໄດ້​ປຽບ​ທາງ​ທຸ​ລະ​ກິດ​ຫຼາຍ​ຂຶ້ນ​.

ຜ່ານ
ການຖ່າຍທອດລະບົບການເກັບຮັກສາແມ່ນສໍາຄັນສໍາລັບການຝຶກອົບຮົມຕົວແບບທີ່ມີປະສິດທິພາບ. ຂະບວນການຝຶກອົບຮົມປະກອບດ້ວຍຂໍ້ມູນຈໍານວນຫຼວງຫຼາຍ, ໂດຍປົກກະຕິແມ່ນເປັນ terabytes ຕໍ່ຊົ່ວໂມງ.

ການເຂົ້າເຖິງຂະຫນານ
​ເພື່ອ​ບັນລຸ​ໄດ້​ໝາກຜົນ​ສູງ, ຕົວ​ແບບ​ການ​ຝຶກ​ອົບຮົມ​ໄດ້​ແບ່ງ​ກິດຈະກຳ​ອອກ​ເປັນ​ຫຼາຍ​ວຽກ​ງານ​ຂະ​ໜາດ. ນີ້ມັກຈະຫມາຍຄວາມວ່າລະບົບການຮຽນຮູ້ເຄື່ອງຈັກເຂົ້າເຖິງໄຟລ໌ດຽວກັນຈາກຫຼາຍຂະບວນການ (ອາດມີຢູ່ໃນເຄື່ອງແມ່ຂ່າຍທາງດ້ານຮ່າງກາຍຫຼາຍ) ພ້ອມກັນ. ລະບົບການເກັບຮັກສາຕ້ອງຈັດການກັບຄວາມຕ້ອງການພ້ອມກັນໂດຍບໍ່ມີການປະນີປະນອມປະສິດທິພາບ.

ດ້ວຍຄວາມສາມາດທີ່ໂດດເດັ່ນຂອງມັນຢູ່ໃນການຕອບສະໜອງຕໍ່າ, ກະແສໄຟຟ້າສູງ, ແລະຂະໜານຂະໜານໃຫຍ່ຂອງ I/O, Dell PowerScale ເປັນບ່ອນເກັບຂໍ້ມູນທີ່ເໝາະສົມກັບຄອມພິວເຕີ້ເລັ່ງ GPU. PowerScale ຫຼຸດຜ່ອນເວລາທີ່ຕ້ອງການສໍາລັບແບບຈໍາລອງການວິເຄາະທີ່ຝຶກອົບຮົມ ແລະທົດສອບຊຸດຂໍ້ມູນຫຼາຍເທຣາໄບໄດ້ຢ່າງມີປະສິດທິພາບ. ໃນ PowerScale all-flash storage, bandwidth ເພີ່ມຂຶ້ນ 18 ເທົ່າ, ລົບລ້າງ I/O bottlenecks, ແລະສາມາດຖືກເພີ່ມໃສ່ກຸ່ມ Isilon ທີ່ມີຢູ່ແລ້ວເພື່ອເລັ່ງແລະປົດລັອກມູນຄ່າຂອງຂໍ້ມູນທີ່ບໍ່ມີໂຄງສ້າງຈໍານວນຫລາຍ.

ຍິ່ງໄປກວ່ານັ້ນ, ຄວາມສາມາດໃນການເຂົ້າເຖິງຫຼາຍໂປໂຕຄອນຂອງ PowerScale ສະຫນອງຄວາມຍືດຫຍຸ່ນທີ່ບໍ່ຈໍາກັດສໍາລັບການແລ່ນວຽກ, ອະນຸຍາດໃຫ້ຂໍ້ມູນຖືກເກັບໄວ້ໂດຍໃຊ້ໂປໂຕຄອນຫນຶ່ງແລະເຂົ້າເຖິງໂດຍໃຊ້ຕົວອື່ນ. ໂດຍສະເພາະ, ຄຸນສົມບັດທີ່ມີປະສິດທິພາບ, ຄວາມຍືດຫຍຸ່ນ, ການຂະຫຍາຍ, ແລະການເຮັດວຽກໃນລະດັບວິສາຫະກິດຂອງແພລະຕະຟອມ PowerScale ຊ່ວຍແກ້ໄຂສິ່ງທ້າທາຍຕໍ່ໄປນີ້:

- ເລັ່ງການປະດິດສ້າງເພີ່ມຂຶ້ນເຖິງ 2.7 ເທົ່າ, ຫຼຸດຜ່ອນຮອບວຽນການຝຶກອົບຮົມຕົວແບບ.

- ກໍາຈັດການຂັດຂວາງ I/O ແລະໃຫ້ການຝຶກອົບຮົມແບບຈໍາລອງແລະການກວດສອບໄດ້ໄວຂຶ້ນ, ການປັບປຸງຄວາມຖືກຕ້ອງຂອງຕົວແບບ, ຜະລິດຕະພັນວິທະຍາສາດຂໍ້ມູນທີ່ເພີ່ມຂຶ້ນ, ແລະຜົນຕອບແທນສູງສຸດຂອງການລົງທຶນຄອມພິວເຕີ້ໂດຍການໃຊ້ຄຸນສົມບັດລະດັບວິສາຫະກິດ, ປະສິດທິພາບສູງ, ຄວາມສອດຄ່ອງ, ແລະການຂະຫຍາຍຂະຫນາດ. ປັບປຸງຄວາມຖືກຕ້ອງຂອງຕົວແບບດ້ວຍຊຸດຂໍ້ມູນທີ່ມີຄວາມລະອຽດສູງ, ເລິກເຊິ່ງກວ່າໂດຍການໃຊ້ຄວາມສາມາດໃນການເກັບຮັກສາທີ່ມີປະສິດທິພາບສູງສຸດ 119 PB ໃນກຸ່ມດຽວ.

- ບັນ​ລຸ​ການ​ປະ​ຕິ​ບັດ​ໃນ​ຂະ​ຫນາດ​ໂດຍ​ການ​ເລີ່ມ​ຕົ້ນ​ຂະ​ຫນາດ​ນ້ອຍ​ແລະ​ເປັນ​ອິດ​ສະ​ຫຼະ​ຂະ​ຫນາດ​ຄອມ​ພິວ​ເຕີ​ແລະ​ການ​ເກັບ​ຮັກ​ສາ​, ສະ​ຫນອງ​ການ​ປົກ​ປັກ​ຮັກ​ສາ​ຂໍ້​ມູນ​ທີ່​ເຂັ້ມ​ແຂງ​ແລະ​ທາງ​ເລືອກ​ຄວາມ​ປອດ​ໄພ​.

- ປັບປຸງຜະລິດຕະພາບວິທະຍາສາດຂໍ້ມູນດ້ວຍການວິເຄາະໃນບ່ອນ ແລະ ການແກ້ໄຂທີ່ຜ່ານການກວດກາກ່ອນເພື່ອນຳໃຊ້ໄວ, ມີຄວາມສ່ຽງຕໍ່າ.

- ນຳໃຊ້ການອອກແບບທີ່ພິສູດແລ້ວໂດຍອີງໃສ່ເທັກໂນໂລຍີທີ່ດີທີ່ສຸດ, ລວມທັງການເລັ່ງ NVIDIA GPU ແລະສະຖາປັດຕະຍະກຳອ້າງອີງດ້ວຍລະບົບ NVIDIA DGX. ປະສິດທິພາບສູງ ແລະສອດຄ່ອງກັນຂອງ PowerScale ຕອບສະໜອງໄດ້ຄວາມຕ້ອງການການຈັດເກັບຂໍ້ມູນໃນທຸກຂັ້ນຕອນຂອງການຮຽນຮູ້ຂອງເຄື່ອງຈັກ, ຕັ້ງແຕ່ການເກັບຂໍ້ມູນ ແລະການກະກຽມໄປຈົນເຖິງການຝຶກອົບຮົມແບບຈໍາລອງ ແລະການສະຫຼຸບ. ຮ່ວມກັນກັບລະບົບປະຕິບັດການ OneFS, ທຸກໆ nodes ສາມາດເຮັດວຽກໄດ້ຢ່າງບໍ່ຢຸດຢັ້ງພາຍໃນກຸ່ມ OneFS-driven ດຽວກັນ, ດ້ວຍຄຸນສົມບັດລະດັບວິສາຫະກິດເຊັ່ນ: ການຈັດການປະສິດທິພາບ, ການຈັດການຂໍ້ມູນ, ຄວາມປອດໄພ, ແລະການປົກປ້ອງຂໍ້ມູນ, ເຮັດໃຫ້ການສໍາເລັດໄວຂອງການຝຶກອົບຮົມແບບຈໍາລອງແລະການກວດສອບສໍາລັບທຸລະກິດ.


ເວລາປະກາດ: ກໍລະກົດ-03-2023