Быстрая обработка баз данных в Linux подобных ОС.
Маленькая шпора.
Склейка баз
Код:
cat file1 file2 file3 > outfile
file1, file2, file3 - это наши базы, а outfile - выходной файл. Данная команда объеденяет все файлы в один (склеивает)
Можно использовать сразу для склейки всех файлов в директории:
Выборка из баз
Что такое grep, и с чем его едят (для большего понимания возможностей обработки) xttps://habrahabr.ru/post/229501/
Код:
grep -P "(google.com|yahoo.com|aol.com)" file1 > outfile
Данной командой мы делаем поиск строк, содержащих один из перечисленных доменов, и выносим строку в отдельный файл.
Можно сделать так:
Код:
cat file1 | grep google.com > outfile
чтобы вынести все строки с доменом google.com из файла file1.
Возможности grep очень большие, и все их я описывать не буду. grep так же поддерживает регулярки, и прч.
Подсчёт строк в базе
Где file1 - название базы.
разделение баз
Код:
split -l 10000 file1 splitfile_
Данная команда разделит файл (file1) на файлы по 10000 строк. Название файлов будет splitfile_a, splitfile_b, и.т.д. В конце добавится буква каждого нового файла.
Удаление дубликатов
Код:
sort file1 | uniq -u > outfile
Данной командой мы сначала сортируем file1, и удаляем дублирующие строки, а после записываем результат в outfile.
Ну или просто sort -u
Далее можно комбинировать эти команды, и быстро обрабатывать базы)