Обработка больших объемов баз. [Вопрос]

Little_Prince · 11.02.2017

Есть папка с базами (70гб).
Чем можно обработать их ? Под обработкой подразумеваю : Склеить + почистить от дублей.
Софт легиона не предлагать ,он почему то крашиться у меня (

Kpa6 · 11.02.2017

emeditor

JackDaniels · 12.02.2017

TextUtils by Lays попробуй

Little_Prince · 12.02.2017

JackDaniels сказал(а):
TextUtils by Lays попробуй

Очень сильно грузит ПК . Я уже придумал как все сделать ,все процессе. Позже тему сделаю с софтом и описанием.

farhad.tiger · 12.02.2017

Быстрая обработка баз данных в Linux подобных ОС.
Маленькая шпора.

Склейка баз

Код:

cat file1 file2 file3 > outfile

file1, file2, file3 - это наши базы, а outfile - выходной файл. Данная команда объеденяет все файлы в один (склеивает)
Можно использовать сразу для склейки всех файлов в директории:

Код:

cat * > outfile

Выборка из баз
Что такое grep, и с чем его едят (для большего понимания возможностей обработки) xttps://habrahabr.ru/post/229501/

Код:

grep -P "(google.com|yahoo.com|aol.com)" file1 > outfile

Данной командой мы делаем поиск строк, содержащих один из перечисленных доменов, и выносим строку в отдельный файл.
Можно сделать так:

Код:

cat file1 | grep google.com > outfile

чтобы вынести все строки с доменом google.com из файла file1.

Возможности grep очень большие, и все их я описывать не буду. grep так же поддерживает регулярки, и прч.

Подсчёт строк в базе

Код:

wc -l file1

Где file1 - название базы.

разделение баз

Код:

split -l 10000 file1 splitfile_

Данная команда разделит файл (file1) на файлы по 10000 строк. Название файлов будет splitfile_a, splitfile_b, и.т.д. В конце добавится буква каждого нового файла.

Удаление дубликатов

Код:

sort file1 | uniq -u > outfile

Данной командой мы сначала сортируем file1, и удаляем дублирующие строки, а после записываем результат в outfile.
Ну или просто sort -u

Далее можно комбинировать эти команды, и быстро обрабатывать базы)

Little_Prince · 12.02.2017

farhad.tiger сказал(а):
Быстрая обработка баз данных в Linux подобных ОС.
Маленькая шпора.

Склейка баз

Код:

cat file1 file2 file3 > outfile

file1, file2, file3 - это наши базы, а outfile - выходной файл. Данная команда объеденяет все файлы в один (склеивает)
Можно использовать сразу для склейки всех файлов в директории:

Код:

cat * > outfile

Выборка из баз
Что такое grep, и с чем его едят (для большего понимания возможностей обработки) xttps://habrahabr.ru/post/229501/

Код:

grep -P "(google.com|yahoo.com|aol.com)" file1 > outfile

Данной командой мы делаем поиск строк, содержащих один из перечисленных доменов, и выносим строку в отдельный файл.
Можно сделать так:

Код:

cat file1 | grep google.com > outfile

чтобы вынести все строки с доменом google.com из файла file1.

Возможности grep очень большие, и все их я описывать не буду. grep так же поддерживает регулярки, и прч.

Подсчёт строк в базе

Код:

wc -l file1

Где file1 - название базы.

разделение баз

Код:

split -l 10000 file1 splitfile_

Данная команда разделит файл (file1) на файлы по 10000 строк. Название файлов будет splitfile_a, splitfile_b, и.т.д. В конце добавится буква каждого нового файла.

Удаление дубликатов

Код:

sort file1 | uniq -u > outfile

Данной командой мы сначала сортируем file1, и удаляем дублирующие строки, а после записываем результат в outfile.
Ну или просто sort -u

Далее можно комбинировать эти команды, и быстро обрабатывать базы)

я нашел решение даже на Винде,позже опубликую .

HATRED · 12.02.2017

залей базы:cat:

Little_Prince · 13.02.2017

HATRED сказал(а):
залей базы:cat:

всему свое время.

farhad.tiger · 13.02.2017

HATRED сказал(а):
залей базы:cat:

там половина дублей, то есть база 35 гб не больше. На экспе есть 62 гб база без дублей. Так что это не так уж и много.

HATRED · 28.02.2017

farhad.tiger сказал(а):
там половина дублей, то есть база 35 гб не больше. На экспе есть 62 гб база без дублей. Так что это не так уж и много.

Будь добр скинь линк,в лс :happy:

Автор	Заголовок	Раздел	Ответы	Дата
	Интересно Обработка SEED фраз и приватных ключей	Ищу работу. Предлагаю свои услуги.	1	07.07.2022
	Интересно Обработка ваших логов стиллера	Ищу работу. Предлагаю свои услуги.	0	20.09.2020
B	Обработка $$$ баз а так же ваших $$$ проекто на private keeper	Ищу работу. Предлагаю свои услуги.	2	12.09.2020
S	Интересно Обработка ваших баз	Ищу работу. Предлагаю свои услуги.	0	24.02.2020
L	Обработка формы и анализ трафика по http/// Wait form and take traffic http	Другие ЯП	0	21.12.2016
S	Продам Продаю дедики под крипт в больших объемах!	Дедики/VPN/соксы/ssh	0	27.09.2022
A	Хороший заработок на больших Киндер-сюрпризах	Программирование	0	17.11.2019
M	Cisco удалила опасности в больших и малых возможностях	Новости в сети	0	22.07.2019
A	Разделитель больших текстовых файлов на маленькие Python	Софт для работы с текстом/Другой софт	0	19.10.2016
S	Центральный Банк РФ сообщил о снижении объемов краж с банковских карт	Новости в сети	0	28.07.2017

Обработка больших объемов баз. [Вопрос]

Little_Prince

Kpa6

JackDaniels

Little_Prince

farhad.tiger

Little_Prince

HATRED

Little_Prince

farhad.tiger

HATRED

Название темы