Каталоги данных для неструктурированных данных предлагают новый подход к старой теме

Важные новости

Data catalogs for unstructured data offer a new twist on an old theme

Партнерский контент Starfish Storage, возможно, и не является общеизвестным среди специалистов по корпоративным СХД, но в кругах высокопроизводительных вычислений он считается наиболее масштабируемой и универсальной платформой для управления файлами. Вы найдете Starfish, работающие в ведущих суперкомпьютерных центрах мира. К ним относятся научно-исследовательские подразделения крупных корпораций, исследовательские вычислительные комплексы ведущих университетов, симуляционные фермы для EDA, хедж-фонды и анимационные студии.

Универсальность и масштабируемость

Starfish обеспечивает сочетание традиционных методов управления хранилищем, таких как архивирование, резервное копирование, миграция, учет затрат и анализ устаревания. Он также обрабатывает варианты использования для управления данными, включая рабочие процессы AI /ML, управление данными, их сохранение и классификацию контента.

Все это работает в огромных масштабах. Крупнейшие клиенты Starfish располагают тысячами хранилищ, сотнями петабайт и десятками миллиардов файлов. В качестве яркого примера можно привести то, что Starfish недавно был установлен в Ливерморской национальной лаборатории им. Лоуренса на самом мощном в мире суперкомпьютере El Capitan.

Каталог данных для неструктурированных данных в дикой природе

Starfish, основанный в 2011 году, был одним из первых коммерческих продуктов, адаптировавших концепцию каталога данных для навигации и управления из файлов, которые живут в дикой природе. Под «обычными» мы подразумеваем файлы, хранящиеся на устройствах хранения, доступ к которым осуществляется через NFS, SMB, собственные клиенты, POSIX и S3. Эти файлы активно используются. Пользователи, приложения, устройства сбора данных, научные и биомедицинские приборы постоянно добавляют, удаляют и обновляют их.

Такие файлы не хранятся на порталах, таких как Microsoft SharePoint, и не являются частью систем управления контентом, записей, архивов или хранилищ данных. Они аналогичны файлам на вашем персональном компьютере. Они могут быть переименованы, удалены, дублированы и не соответствовать версиям. 

Каталоги данных — это программные платформы, которые связывают метаданные с ресурсами данных, такими как базы данных, озера данных и хранилища данных. Они позволяют бизнес-пользователям находить информационные ресурсы своих учреждений и получать к ним доступ.

Основатели Starfish увидели, что ведущим поставщикам каталогов данных не хватает технических средств для присвоения метаданных неструктурированным данным, которые скрываются за сложными деревьями каталогов и разрешениями пользователей. Корпоративные каталоги данных были ограничены хранением структурированных и полуструктурированных данных, в то время как файлы в дикой природе оставались непрозрачными и необузданными. Оригинальный продукт Starfish, который теперь называется Каталог неструктурированных данных или UDC, устранил этот пробел на рынке, создав индекс для всех устройств хранения файлов организации, который связывал метаданные с файлами и каталогами. UDC позволяет бизнесу понять, как содержимое файлов соотносится с проектами, интеллектуальной собственностью, рабочими процессами и центрами затрат, даже если оно распределено по нескольким устройствам хранения.

UDC помогает решить извечную проблему привязки хранения данных к их ценности. Это также дает представление о том, как наилучшим образом управлять хранилищем с течением времени, в том числе о том, что администраторы могут архивировать или удалять, что они должны сохранять и кто за что платит. Встроенная панель мониторинга отчетов отображает аналитику емкости и старения с помощью детализированной информации, предоставляемой системой метаданных.

Роль каталога данных в обеспечении готовности ИИ

Перенесемся в 2025 год. Организации всех форм и размеров стремятся стать готовыми к использованию искусственного интеллекта, выявляя ресурсы данных, которые могут иметь отношение к рабочим нагрузкам ИИ, и получая к ним доступ.

Ажиотаж вокруг искусственного интеллекта и ML подчеркивает необходимость каталогизации данных, особенно для тех массивов ценной информации, которые хранятся в файловых хранилищах организации. Качество и безопасность данных искусственного интеллекта зависят от различий в версиях файлов, учета разрешений (особенно в сценариях генерации с расширенным поиском (RAG)) и интеграции выходных данных рабочих процессов искусственного интеллекта/ML обратно в метаданные каталога.

Введите подражателей

Как и следовало ожидать, в области каталогизации неструктурированных данных появляются новые игроки. Некоторые из них — стартапы, в то время как другие — традиционные поставщики систем хранения данных, которые добавляют функции каталогизации данных в свои продукты для хранения файлов. Возникает вопрос: что делает каталог данных на основе файлов отличным? 

Одним из основных критериев разработки Starfish было то, что он не зависел от поставщика хранилища. Он работает практически со всеми устройствами хранения файлов и объектов. Это позволяет Starfish иметь универсальную карту всего содержимого файлов, хранящихся в организации. В отличие от этого, каталог данных от поставщика систем хранения данных, скорее всего, будет хорошо работать с его собственным хранилищем, но не будет распространяться на контент, хранящийся на устройствах других производителей. Результатом является просто новая форма привязки к поставщику. Starfish позволяет обойти эту проблему, предоставляя беспрепятственный доступ ко всем устройствам хранения. 

Многие системы управления данными являются встроенными, что означает, что они работают непосредственно в инфраструктуре хранения. Это создает риск возникновения узких мест и уязвимостей в масштабе. С другой стороны, Starfish был разработан с нуля для работы вне диапазона, взаимодействуя с системой хранения данных из отдельного процесса. Это дает такие преимущества, как бесперебойная работа и более простая масштабируемость.

Привлечение конечных пользователей, которые понимают как данные, так и их ценность

В Starfish есть функция под названием «Зоны хранения», которая группирует связанный контент и представляет его соответствующим пользователям, таким как исследователи, руководители лабораторий, библиотекари и другие. Это дает им инструменты для поиска и пометки в пределах их зоны. Это позволяет пользователям хранилища управлять своими коллекциями файлов, даже если они распределены по нескольким системам, включая NAS, файловые системы HPC и сегменты S3.Это еще одно преимущество независимости от хранения данных; эта функция позволяет тем, кто лучше всего понимает ценность своих данных, внедрять методы управления данными. В долгосрочной перспективе результаты дают о себе знать, поскольку организации могут хранить данные таким образом, который лучше отражает их ценность, освобождая при этом основное хранилище.

Потребность в перемещении и обработке данных

Метаданные каталога данных и возможности обнаружения — это только половина общей картины, независимо от того, хотите ли вы обеспечить готовность к ИИ или заняться другими задачами. аспект управления неструктурированными данными. Также должен быть предусмотрен механизм, позволяющий безопасно получать доступ к интересующим файлам и обрабатывать их.

В Starfish встроен механизм автоматизации Starfish, который может обрабатывать и перемещать файлы на основе информации из каталога. В свою очередь, движок jobs добавляет метаданные в каталог на основе обнаружений или действий, предпринятых движком jobs.

В каталоге могут быть указаны файлы, которые следует использовать для обучения модели. Затем модуль jobs engine может отправить файлы в конвейер обучения и записать в каталог метаданных, какие версии файлов использовались для обучения модели. Со временем этот цикл обратной связи позволит вам глубже понять, как вы используете свои наборы данных и управляете ими.

Подводя итог

Для хранения морских звезд настали захватывающие времена. Ниша, которую мы занимаем уже более десяти лет, становится популярной, и у нас есть уникальное, продуманное решение, которое работает на самом высоком уровне.

<п>наряду с единой системой индексации файлов, которая охватывает устройств хранения нескольких вендоров, у нас действует гибкая система метаданных, что позволяет легко классифицировать, двигаться, и процесс коллекций файл.

<п>контакт starfishstorage.com узнать больше. Если вы посещаете выставку ISC в Гамбурге, Германия, приходите к нам на стенд A22 10-13 июня. Квалифицированные клиенты могут бесплатно протестировать Starfish в своих собственных условиях. В ходе такой пробной сессии вы узнаете много нового о вашем файловом хранилище.

Предоставлено хранилищем морских звезд

Новости сегодня

Последние новости